facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 1
  •  
  • 2012/11/30(金) 13:16:02.46
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た
  • 913
  •  
  • 2014/05/13(火) 19:39:30.11
主に携帯電話絵文字が割り当てられた、UNICODE u1f330〜u1f36f, u1f400〜u1f41f
をtwitter, mixi, Facebookで表示させてみた。
mixiのWeb serverは前から独自の絵文字表示機能があるが、元からある絵文
字から、その文字コードに対応する絵文字を拾いだしてを画像データ
(恐らくGIF)で表示しているみたい。。
twitterのPC(Windows7)のブラウザによる表示でも同様。

Nexus7でのブラウザ表示、smart phoneでのtwitterでは、Web serverの
絵文字表示機能に対応しておらず、文字コードに対応する絵文字をフォント
で表示させようとしているみたい。
表示させる文字コードに対応する絵文字のフォントデータがその端末にない
場合は表示されない。

ここまで見た
  • 914
  •  
  • 2014/05/13(火) 19:47:48.70
UNICODE表示
u1f330〜u1f36f
🌰🌱🌲🌳🌴🌵■🌷🌸🌹🌺🌻🌼🌽🌾🌿
🍀🍁🍂🍃🍄🍅🍆🍇🍈🍉🍊🍋🍌🍍🍎🍏
🍐🍑🍒🍓🍔🍕🍖🍗🍘🍙🍚🍛🍜🍝🍞🍟
🍠🍡🍢🍣🍤🍥🍦🍧🍨🍩🍪🍫🍬🍭🍮🍯

u1f400〜u1f41f
🐀🐁🐂🐃🐄🐅🐆🐇🐈🐉🐊🐋🐌🐍🐎🐏
🐐🐑🐒🐓🐔🐕🐖🐗🐘🐙🐚🐛🐜🐝🐞🐟

ここまで見た
  • 915
  •  
  • 2014/05/13(火) 20:17:04.28
そもそもサロゲートペアに対応しているかという話も。

ここまで見た
  • 916
  •  
  • 2014/05/14(水) 10:23:36.86
>>913
ブラウザは何?
サーバ側で画像に差し替えてるのは、
UserAgent見て切り替えたりしてんじゃないの?

>>913
> Web serverの 絵文字表示機能に対応しておらず、

そうじゃなくてサーバ側で表示できるブラウザと勘違いしてるんでしょ。
UserAgentがそれっぽいから。

ここまで見た
  • 917
  •  
  • 2014/05/14(水) 12:07:15.19
JIS2004対応MSゴシック MS明朝フォントパッケージ
Office製品のJIS X 0213:2004への対応状況
go.microsoft.com/fwlink/?LinkID=76814 go.microsoft.com/?LinkID=6179681
JIS X 0213:2004 Unicode 実装ガイド Microsoft
http://www.microsoft.com/china/windows2000/downloads/18030.mspx


http://blog.livedoor.jp/blackwingcat/archives/983407.html
ISO 10646:2003 + 修正 1 繁体字中国語サポート (HKSCS 2004)
Windows XP および Windows Server 2003 用の Windows XP フォント パックhttp://support.microsoft.com/kb/977801/ja
Traditional Chinese ClearType fonts for Windows XP - 繁體中文
http://www.microsoft.com/zh-tw/download/details.aspx?id=12072
Simplified Chinese ClearType fonts for Windows XP
http://www.microsoft.com/en-us/download/details.aspx?id=14577
Korean ClearType fonts for Windows XP
http://www.microsoft.com/en-us/download/details.aspx?id=10490

汎用電子情報交換環境整備プログラム文字対応作業委員会資料
平成19年度経済産業省委託
汎用電子情報交換環境整備プログラム文字対応作業委員会資料(「地名外字」資料)
2008 年3 月発行、独立行政法人国立国語研究所
平成19年度 汎用電子情報交換環境整備プログラム文字対応作業委員会資料 地名外字 資料
http://www.ninjal.ac.jp/archives/hanyo/
http://www.ninjal.ac.jp/archives/hanyo/chimeigaiji.pdf
http://www.ninjal.ac.jp/archives/hanyo/jisyohikeisaiji.pdf

http://kanji-database.sourceforge.net/dict/daikanwa/index.html
http://hp.vector.co.jp/authors/VA000964/html/daikanwa.htm
http://webcat.nacsis.ac.jp/cgi-bin/shsproc?id=BN13621753

ここまで見た
  • 918
  •  
  • 2014/05/14(水) 13:26:00.05
これはいったい何の話?

ここまで見た
  • 919
  •  
  • 2014/05/14(水) 20:54:01.03
あまぞんのれびゅーって面白いよね。
専門書の場合、みんなちゃんと根拠を出して
貶しているのに必ず一人だけ闇雲に
マンセーする人がいる。
やっぱ、工作員かな。

ここまで見た
  • 920
  •  
  • 2014/05/14(水) 20:57:31.09
漢字データベースはデータファイルへのリンク切れを直してほしいぞ
( /kawabata/kanji-data-base-* → /cjkvi/cjkvi-* )

ここまで見た
  • 921
  •  
  • 2014/05/14(水) 21:02:55.66
> http://webcat.nacsis.ac.jp/cgi-bin/shsproc?id=BN13621753

ていうか貼る前に飛べるかどうか確認くらいしろ
botかよ

ここまで見た
  • 922
  •  
  • 2014/05/14(水) 21:26:48.11
http://ci.nii.ac.jp/ncid/BN13621753
これなのかな?

ここまで見た
  • 923
  •  
  • 2014/05/14(水) 22:29:58.06
サイニーってなんか名前がえろいよね

ここまで見た
  • 924
  •  
  • 2014/05/15(木) 00:27:38.91
>>919 一人で言ってろw

ここまで見た
  • 925
  •  
  • 2014/05/15(木) 01:21:02.79
Excel から Cのdllに文字列を渡すとき、VBAからは
ByVal as String を渡して C側で LPCSTR で受け取るのがパターンだけど、
ワークシートから直接呼ぶ場合はC側は BSTR等 で受けなきゃいけない。
そこで C側は BSTR に統一しておいて、VBAからは
StrConv( xxx, vbUnicode) をかましてやればいいことが分かった。

ところが、StrConv("まみむめも", vbUnicode) を渡したら化ける。
ひらがなだと"め"以降が、かたかなだと"ム"以降がダメなようだ。

ここまで見た
  • 926
  •  
  • 2014/05/15(木) 23:22:03.55
http://ci.nii.ac.jp/ncid/BN13621753
大漢和辞典
諸橋轍次著
藍燈文化事業股份有限公司, 1992.6
修訂版 / 鎌田正, 米山寅太郎修訂

出版地:台北

大学図書館所蔵 2件
実践女子大学 図書館
函館大谷短期大学 図書館

ここまで見た
  • 927
  •  
  • 2014/05/17(土) 00:34:57.36
毦?厽厸叕忑忐忐臋膐臡娚妕嫏釱?腥觕槀晟猋

ここまで見た
  • 928
  •  
  • 2014/05/17(土) 07:02:20.43
Moji_Johoコレクション登録キター
http://unicode-inc.blogspot.jp/2014/05/new-version-of-unicode-ideographic.html

ここまで見た
  • 929
  •  
  • 2014/05/23(金) 20:30:12.89
>>899
なんで10日もたってから反応してくれたのか知らないけど一応返事しとくよ。
確かに grep はシフトJIS に対応してなかったけど問題はそこではない。

ここまで見た
  • 930
  •  
  • 2014/05/23(金) 22:20:35.88
じゃあ違う所に問題があるってことになるんだが、
それを書かないのはなんで?

ここまで見た
  • 931
  •  
  • 2014/05/25(日) 17:43:33.84
シフトJIS のせいだと理解してくれた人もいるのだから充分だと思う。
それ以上書かなかったのは
「自分のブログでやれ!」
というような内容だから。
20年以上も前の極めて個人的な事情を本当に知りたい?

ここまで見た
  • 932
  •  
  • 2014/05/25(日) 19:07:02.17
A「シフトJISじゃなくツールの問題」
B「いえ問題はそこじゃない」
A「じゃどこだよ」
B「シフトJISの問題だけど詳細は言えませぬ」

なんかオボカタを彷彿させられたわ

ここまで見た
  • 933
  •  
  • 2014/05/25(日) 23:53:20.28
>>869-877を読む限りgrepがウンコだったとしか読めないのだが
マイクロソフトが嫌いな人はなんでもマイクロソフトのせいにしたがるんだろうな

ここまで見た
  • 934
  •  
  • 2014/05/26(月) 01:01:24.96
シフトJISって書くのはShift_JISと区別する意図があるという理解でよろしいか

ここまで見た
  • 935
  •  
  • 2014/05/26(月) 01:05:37.47
シフと辞す

ここまで見た
  • 936
  •  
  • 2014/05/26(月) 04:46:50.66
>>931
氏ね

ここまで見た
  • 937
  •  
  • 2014/05/26(月) 06:15:33.67
>>931
小出しにしないで、何がどうしてどうなったのかを1スレで書けるなら書いてもいいよ。

ここまで見た
  • 938
  •  
  • 2014/05/26(月) 07:02:01.76
>>934
そらそうだろ
Shift_JISなんて使ってる人は見たことがない

ここまで見た
  • 939
  •  
  • 2014/05/26(月) 09:00:03.21
>>931
実に興味深いので、ぜひともうかがいたい

ここまで見た
  • 940
  •  
  • 2014/05/26(月) 09:29:56.46
シフトJIS
Shift_JIS
S-JIS
MS932
他もあったと思うが何がちがうん?

ここまで見た
  • 941
  •  
  • 2014/05/26(月) 11:51:57.08
あだ名が違うだけなんよ

ここまで見た
  • 942
  •  
  • 2014/05/26(月) 12:31:29.88
UTF-8ってバイトストリームのくせになんでBOMなんてものがあるの?

ここまで見た
  • 943
  •  
  • 2014/05/26(月) 12:35:07.83
>>942
深謀遠慮の馬鹿の所為。

ここまで見た
  • 944
  •  
  • 2014/05/26(月) 12:37:23.58
>943
http://www.w3.org/International/questions/qa-byte-order-mark.en.php

> In the UTF-8 encoding, the presence of the BOM is not essential because,
> unlike the UTF-16 encodings, there is no alternative sequence of bytes in a character.

> However, the BOM may still occur in UTF-8 encoded text, either as a
> by-product of an encoding conversion or because it was added
> by an editor to flag the content as UTF-8.

> In this situation, the BOM is often called a UTF-8 signature.

ということで、UTF-8のBOMは、BOMと似ているバイトデータですが、
BOMという呼び名が気になるなら、UTF-8 signatureと呼びましょう。

ここまで見た
  • 945
  •  
  • 2014/05/26(月) 12:42:12.84
なぜUTF-8 signatureがあるかといえば、
文字化け防止ですね。

マルチバイト文字列を使った文書の場合、
UTF-8で書いていても、他の文字コードだと
誤判定する可能性がある。

その可能性まで考慮する場合、つけても
いいということになっています。

そこまで考えるかどうかですね。

ここまで見た
  • 946
  •  
  • 2014/05/26(月) 12:57:20.58
>>940
文字集合が違うものがある。

ここまで見た
  • 947
  •  
  • 2014/05/26(月) 13:06:36.83
>>946
それはシフトJISの中で
78年とか83年とかって言われるやつ?

ここまで見た
  • 948
  •  
  • 2014/05/26(月) 17:54:55.99
MS932なんて明らかに別物じゃない

ここまで見た
  • 949
  •  
  • 2014/05/26(月) 18:41:56.31
>>940
シフトJIS:Shift_JISの俗称
Shift_JIS:正式名書 JIS X 0208とかIANAではこれが使われてる
S-JIS:Shift_JISの略称
MS932:MSによるShift_JISの拡張
あってる?

ここまで見た
  • 950
  •  
  • 2014/05/26(月) 19:16:08.25
>>944
どこの馬の骨ともわからないサイトを引用して嬉しいか?

ここまで見た
  • 951
  •  
  • 2014/05/26(月) 19:17:17.33
>>949
全然ダメ話にならない
安岡に洗脳された?

ここまで見た
  • 952
  •  
  • 2014/05/26(月) 19:36:56.51
>>950
www.w3.org だよ。

http://ja.wikipedia.org/wiki/World_Wide_Web_Consortium
> World Wide Web Consortium(ワールド・ワイド・ウェブ・コンソーシアム)は、
> World Wide Webで使用される各種技術の標準化を推進する為に設立された
> 標準化団体、非営利団体。略称はW3C(ダブリュースリーシー)。

ま、知っていて言ってるんだろうけどねw

もしかしてw3がUTF-8 signatureを使用しても
いいものとして解説してるの知って悔しかった?
MS独自の仕様とかじゃないんだよw

ここまで見た
  • 953
  •  
  • 2014/05/26(月) 19:42:54.92
>>952
unicodeの公式はこっちじゃないの?
http://www.unicode.org/
BOMのFAQは
http://www.unicode.org/faq/utf_bom.html

ここまで見た
  • 954
  •  
  • 2014/05/26(月) 21:15:37.40
いや、「どこの馬の骨ともわからない」という
無知を馬鹿にしてるだけだからw

ここまで見た
  • 955
  •  
  • 2014/05/26(月) 21:59:26.38
>>951
正解よろ

ここまで見た
  • 956
  •  
  • 2014/05/26(月) 22:20:10.75
>>955
シフトJIS:Windows-31とかShift_JISなどの総称・俗称
S-JIS:シフトJISと同じ
Shift_JIS:シフトJIS系文字コードの一つ。IANAでの正式名称
Windows-31J:シフトJIS系文字コードの一つ。IANAでの正式名称
ms932:Windows-31Jと同じ。俗称

ここまで見た
  • 957
  •  
  • 2014/05/26(月) 23:00:00.47
>>956
と言うことは
Shift_JISとWindows-31Jの2種類があるんだね
どのあたりのコード規格が違って2種類なの?
入ってるフォントや文字が違うってのは除いてね

ここまで見た
  • 958
  •  
  • 2014/05/26(月) 23:00:05.62
何も説明してないな

ここまで見た
  • 959
  •  
  • 2014/05/26(月) 23:02:22.93
>>957
> 入ってるフォントや文字が違うってのは除いてね

文字コードっていうのは、普通
入っているフォントや文字が違うものなんだけど、
その一番重要な部分を除く理由は何?

ここまで見た
  • 960
  •  
  • 2014/05/26(月) 23:13:34.23
>>957
Shift_JISはJIS X 0208文字とJIS X 0201文字を含む
Windows-31Jはさらに「NEC特殊文字」「IBM拡張文字」を含む

ここまで見た
  • 961
  •  
  • 2014/05/27(火) 01:20:43.41
>>959
コード体系と文字は別でしょ
Shift_JISでも78年文字とか83年文字とか
最近だと何年まで進んでるのかわからないけど
あと、同じコード位置でも機種依存やOS依存で違うし
これらはコード体系は同じと思ってる
ちがう?

ここまで見た
  • 962
  •  
  • 2014/05/27(火) 03:20:26.43
wikipedia貼ってどやとかもう生きていられない次元

ここまで見た
  • 963
  •  
  • 2014/05/27(火) 11:43:03.63
>>961
> コード体系と文字は別でしょ
別ではない。昔は厳密に区別されていなかった。

厳密に区別されるようになったのはUNICODEから

砂時計アラームタイマー
フリックゾンビ
ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード