文字コード総合スレ part8 [sc](★0)
-
- 1
- 2012/11/30(金) 13:16:02.46
-
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
-
- 9
- 2012/11/30(金) 15:13:16.40
-
■ライブラリ
IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/
NKF32.DLL
http://www.vector.co.jp/soft/win95/util/se020949.html
http://www1.ttcn.ne.jp/~kaneto/dll/nkf32dll.html
バベル
http://tricklib.com/cxx/ex/babel/
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
http://tricklib.com/cxx/ex/babel/scoremap.csv
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/
-
- 10
- 2012/11/30(金) 15:14:10.43
-
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。
-
- 11
- 2012/11/30(金) 15:15:50.02
-
JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
http://std.dkuug.dk/JTC1/SC2/WG2/
ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/
日本の委員 (JSC2)
http://www.itscj.ipsj.or.jp/meibo/020000.pdf
-
- 12
- 2012/11/30(金) 18:18:17.85
-
スレ立てサンキュ
-
- 13
- 2012/12/03(月) 21:21:23.27
-
西夏文字、女文字、インダス文字、女真文字なんかはまだなんだな。
日本や中国の研究者頑張れ。
-
- 14
- 2012/12/03(月) 23:51:37.30
-
ところでさ、U+1F5FEの日本列島絵文字なんだけど、
例示図形に普通に北方四島が入ってるんだよね。
これロシアとかからクレームなかったのかな。
あるいは、奄美と沖縄が単独の点として描かれてるのに
北方四島が本土とくっついてるのはあえてどうとでも解釈できるようにしたごまかし?
でも佐渡とか壱岐対馬はそもそも存在さえ描かれてないわけで、なんかちょっと変。
では、そもそもの元になったと思われるau絵文字#214「地図」ではどうだったのかと見てみたら、
なんと日本領部分は「本土4島だけ」のシンプルなものだった。
ここからどういう経緯で北方四島と奄美沖縄が加わったんだろう。
-
- 15
- 2012/12/04(火) 01:09:59.61
-
>>14
日本列島という島の絵文字であって、日本という国の絵文字じゃないということだと思う。
でないと、国旗の絵文字でアレだけ揉めたのと整合性がつかなくなる。
-
- 16
- 2012/12/04(火) 03:19:38.20
-
ただ、国境以外の理由で4島と千島を区切る理屈ってのもちょっとなさそうなのよね
-
- 17
- 2012/12/04(火) 05:19:19.05
-
南樺太も日本です
台湾も日本です
-
- 18
- 2012/12/04(火) 06:09:50.32
-
U+1F5FCが固有名詞的な「東京タワー」じゃなくて「電波塔」という曖昧な名前で規格化する案もあったことを考えると
U+1F5FEも「弧状列島」とか表現されることになっていてもおかしくなかったかも
-
- 19
- 2012/12/04(火) 09:09:38.01
-
尖閣諸島を入れて欲しかった
-
- 20
- 2012/12/04(火) 09:45:40.17
-
>>18
まあ、MOYAIさんが通った時点でそのへん曖昧だよね。
これに自由の女神と並ぶレベルの公共性なんてないと思うw
-
- 21
- 2012/12/04(火) 19:17:25.01
-
>>20
あれって元の携帯絵文字ではモアイ像そのものの姿で描かれてるんだし (文字名はモヤイ像なのに)、
「モアイ像」として入れたほうがユニヴァーサリティがあって良かったんじゃないかと思うんだけど
まあ渋谷とかの意味で使われる絵文字として解釈できなくなるからやっぱダメか
-
- 22
- 2012/12/04(火) 20:12:50.27
-
あるいは新島
-
- 23
- 2012/12/04(火) 23:23:51.55
-
>>21
> あれって元の携帯絵文字ではモアイ像そのものの姿で描かれてるんだし
まじだ……一体どうなってるんだこれ
-
- 24
- 2012/12/14(金) 13:36:10.61
-
http://slashdot.jp/~yasuoka/journal/559968/
>JTC1/SC2/WG2/IRG N1883
>(大正新脩大蔵経「外字」のISO/IEC 10646追加提案)
これ結局、日本提案から外されたのね
-
- 25
- 2012/12/19(水) 21:05:28.98
-
>>5
>・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
ISO2022なら楽勝でできる多スクリプトの混合表記がunicodeではできないってスクリプトレベル
の問題を、多言語問題にすりかえるなよ
言語情報が中国語でも、それを日本漢字で表記しても何も問題はない
それどころか、日本の漢文の教科書では、言語は中国語だが、字体は日本の教科書体で表記
しないといけないっての
-
- 26
- 2012/12/19(水) 22:53:11.62
-
正則漢文は中国語ではない
-
- 27
- 2012/12/19(水) 23:54:59.27
-
>>25
文書そのものの言語よりむしろユーザーが理解可能なスクリプトの方が重要、
なのかなあ。
とりあえず自分のお仕事では、文書の言語情報が中国語だったら中国語のフォントを
割り当てるようにしてますけどw
例えばOSの言語設定を優先するようにしたりとかしたら... って?
...ちょっと無理かなw (ちょっと持田香織を意識してみた)
現実問題として例えば普通の日本語フォントは中国語の簡体とか持ってないから、
下手にやるとつぎはぎの脅迫文状態になってしまう。そういうのでも見たいかな?
-
- 28
- 2012/12/20(木) 00:26:57.58
-
漢字のフォントって今も全部手作業で作ってるの?
偏旁の情報流し込んだらざーっとバリエーションつくってくれて、細部だけ手修正、みたいな感じなら
せっかくだから和文で使わない文字も全部含めてくれればいいのに。クオリティ落ちてもいいからさ。
-
- 29
- 2012/12/20(木) 05:39:55.98
-
じゃあおまえがやれよ
-
- 30
- 2012/12/20(木) 09:22:41.68
-
e漢字というプロジェクトがあってだな
-
- 31
- 2012/12/20(木) 10:30:33.04
-
つまんね
-
- 32
- 2012/12/20(木) 11:52:51.57
-
結局GlyphWikiみたいに人肉制作が一番成果物につながりやすいのかな
-
- 33
- 2012/12/20(木) 19:09:10.91
-
Glyphwikiは曲線を実現する方法が改善されたら無敵かも。
-
- 34
- 2012/12/20(木) 19:33:32.32
-
現状のGlyphWikiで作った記号とかネタレベルだもんな。
-
- 35
- 2012/12/20(木) 21:08:27.21
-
花園は非漢字だけ別のフォントから借りてきた方がいいと思うんだけど
明朝だとなかなか選択肢がないのかな
-
- 36
- 2012/12/21(金) 22:43:08.51
-
IPA明朝丸取りで良いやん。
-
- 37
- 2012/12/28(金) 22:20:50.30
-
さて年の瀬なわけだが
-
- 38
- 2012/12/28(金) 22:38:05.25
-
年の瀬くらい、おとなしくしてなさい
-
- 39
- 2012/12/29(土) 21:59:11.75
-
年の瀬だから、いいじゃん
-
- 40
- 2012/12/30(日) 14:27:54.18
-
こんなの始まってた
www.ipa.go.jp/about/kobo/tender-20121228-2/
>今回、変体仮名⽂字の字形を調達し、今後のフォント拡張及び文字符号の国際標準化の
>素材として使用するものとする。
変体仮名の符号化が動き出したか
-
- 41
- 2012/12/30(日) 18:45:39.07
-
良くも悪くも、今回デザインされた字形が「正しい変体仮名」として未来に残っていくんだな。
-
- 42
- 2012/12/30(日) 20:49:44.39
-
だろうなあ。変体仮名の字形に熟知したデザイナーなんてどれだけいるやら…
3月〆切ってことは早ければ春先にもまずIPA明朝に収納される可能性ありか。
どんなのが出てくるかちょっと楽しみ。
-
- 43
- 2013/01/01(火) 00:46:22.92
-
さて年が明けたわけだが
-
- 44
- 2013/01/01(火) 02:41:22.10
-
「謹賀新年」「迎春」とかは一つの文字コードを与えていいんじゃないだろうか
-
- 46
- 2013/01/01(火) 15:26:12.83
-
あけおめー
-
- 47
- 2013/01/02(水) 06:14:56.17
-
縦組み専用のワープロソフトも出てくるんだろうか
-
- 48
- 2013/01/04(金) 00:56:50.23
-
blog.query1000.com/archives/21819386.html
>日本は今まで(他の国の提案を)撃ち落とす方で頑張って来たのに、
WG2/IRGへ邪魔しに行ってるのを認めちゃったよ
-
- 49
- 2013/01/04(金) 03:41:54.21
-
>>44
戦前に「天皇陛下」の一体活字を作った新聞社じゃないんだから。
-
- 50
- 2013/01/04(金) 04:29:39.37
-
ひょっとしてそれって、文選で間違えると打ち首にされるとかの回避策?
-
- 51
- 2013/01/04(金) 04:40:26.90
-
文中の「陛」文字頻度が低い上に特定の熟語にしか使われないからでしょ
-
- 52
- 2013/01/04(金) 14:51:44.58
-
>>48
http://blog.query1000.com/archives/21798078.html
http://blog.query1000.com/archives/21819386.html
http://blog.query1000.com/archives/21848658.html
http://blog.query1000.com/archives/21886099.html
四連作なのね。結構、裏話っぽくて面白かった。
-
- 53
- 2013/01/04(金) 15:16:53.92
-
ああ、例の本の深沢さんか。参考になったわ。
-
- 54
- 2013/01/04(金) 23:04:36.32
-
>>52
安岡も耄碌したな。トイレと天気の話しか出来ないのか。
-
- 55
- 2013/01/07(月) 14:54:11.70
-
>>50
北朝鮮方式か
-
- 56
- 2013/01/07(月) 14:56:08.81
-
あと、4文字の途中で改行することが許されないから、
(というか、直前で改行して必ず行頭に置くことになってるから)
という事情もあるな。
-
- 57
- 2013/01/08(火) 21:03:09.32
-
JIS Z 8903廃止なのね
-
- 58
- 2013/01/09(水) 07:20:34.61
-
ああYさんとこね
変体仮名字形の入札、濁点/半濁点つき字形のことを忘れているような
-
- 59
- 2013/01/09(水) 16:28:46.12
-
>>59
戸籍にも住基にも濁点/半濁点付き変体仮名は無いから
とりあえず最初のうちは作らないみたい
でも今後どうするかは謎
このページを共有する
おすすめワード