文字コード総合スレ part8 [sc](★0)
-
- 1
- 2012/11/30(金) 13:16:02.46
-
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
-
- 385
- 2013/10/17(木) 00:32:13.34
-
んー、7.0.0が出たらネタも沢山あるが...
-
- 386
- 2013/10/17(木) 22:06:30.58
-
文字の追加は6.2の時みたいにかなり少ないけどStandardized Variantsに互換漢字に対応するのが追加されたんだっけ。
-
- 387
- 2013/10/17(木) 22:30:34.91
-
ああ、例のやつか
-
- 388
- 2013/10/18(金) 23:50:33.84
-
ただでさえAdobe-Japan1と汎用電子でVSが分けられて問題になってるのにさらに混乱をもたらす事になりそうだ。
例えば「海」の旧字体はこれまでの6D77 E0100(Adobe-Japan1)と6D77 E0103(汎用電子)で表せてたが、更に互換漢字FA45の置換として6D77 FE00が追加されて異体字シーケンスが3通りになってしまったんだな。
あと「あれ?漢字の場合BMPのVSは使わないんじゃなかったっけ?」って言う人に対してちょっと面倒な説明をしないといけなくなったな。
-
- 389
- 2013/10/19(土) 05:48:51.52
-
互換漢字はラウンドトリップ用というのが建前だから
新規文書では使わないのが正解
汎用電子もフォントがIPAmjと花園くらいしかないから消去法でAJ1
-
- 390
- 2013/10/19(土) 23:57:56.88
-
字体差でなく韓国のKS X 1001の発音の違いによって分離されてる字や台湾のBig5の誤って重複収録された字に対応する互換漢字にまで割り当てられたんだな。
-
- 391
- 2013/10/20(日) 01:36:27.33
-
まるで手書きの戸籍簿のようだ
-
- 392
- 2013/10/20(日) 08:57:42.32
-
OS Xって >>96 みたいなことをできるテキストレンダリングAPIが標準でついてるの?
組版ソフトつかっても、フォントに合わせて手動で設定しないといけないことがままあるのに、どうやってやってるのか気になるわ。
これが本当ならmac買いにいく。
-
- 393
- 2013/10/20(日) 10:48:41.05
-
組版ソフトは何を使ってる?
-
- 395
- 2013/10/21(月) 10:02:49.98
-
文字コードに対して幅とかマージンが決められてないんだから、スレ違いだろ。
まあ、そもそもフォントとOSで対応できるとか言ったやつが悪いんだけどな。
文字コード的には他のエンコードとの変換のためのコードは使わない。ということは選択肢は1つしかない。
文字コードは文字列の全体的な見た目まで定義してない。仮にmacできれいに表示されたとしてもそれはたまたまってこと。
-
- 396
- 2013/10/21(月) 12:37:25.80
-
互換性を考えない、一人で完結ならそれでもいいんじゃない
-
- 397
- 2013/10/22(火) 13:16:40.56
-
キャラクターとグリフを分けて考えるようになってからややこしくなってきたよな。
「異体字なのか」「同じ字の字形の違い」なのかとかいろいろ
-
- 398
- 2013/10/22(火) 16:10:09.10
-
できる事が増えた。特にUnicodeの異体字は処理が簡単。
-
- 399
- 2013/10/22(火) 16:23:09.07
-
Unicodeの場合、なし崩し的にどんどん包摂の範囲が狭くなっていってるから初期のものとの整合性がぐちゃぐちゃで
-
- 400
- 2013/10/22(火) 16:27:12.06
-
まあその辺は6以降で。
-
- 401
- 2013/10/22(火) 17:01:02.23
-
まあ「文字グリフ分離」はここ数年間での文字コードとフォントの進化の頂点だよな。
あとは包摂の範囲や粒度、字形の問題とか規格で決めることをどう決着つけるのかと
フォントベンダーがちゃんとしたものを手抜きしないで作ってくれるかだよな。
-
- 402
- 2013/10/22(火) 17:03:02.82
-
ユーザー次第だと思うね。
メーカーがちゃんとコスト掛けてるものについて、それをちゃんと評価し、使うかどうか。
-
- 403
- 2013/10/22(火) 17:05:46.86
-
そうだね、凄い手間とお金がかかっているからね。
-
- 404
- 2013/10/26(土) 02:43:56.58
-
フォントのグリフ集合に関してはAJ1の一人勝ちになってるから
その辺Adobe次第なのよね
-
- 405
- 2013/10/27(日) 23:12:43.53
-
>>395
スペースを始めとして、半角、全角や幅ゼロやそれ以外の幅の文字もあるよ
http://ja.wikipedia.org/wiki/Unicode%E6%96%87%E5%AD%97%E3%81%AE%E3%83%9E%E3%83%83%E3%83%94%E3%83%B3%E3%82%B0#.E3.81.9D.E3.81.AE.E4.BB.96.E3.81.AE.E7.89.B9.E6.AE.8A.E7.94.A8.E9.80.94.E6.96.87.E5.AD.97
-
- 406
- 2013/10/28(月) 06:01:33.32
-
よくわからんけど、silフォントみたいなやつ?
-
- 407
- 2013/10/29(火) 00:31:26.29
-
>>405
で、その幅っていうのは具体的にどれだけなんだい?
-
- 408
- 2013/10/29(火) 00:36:08.36
-
等幅フォントを使って
スペース文字で文字間を調節するって
活版印刷みたいだな。
-
- 409
- 2013/10/29(火) 07:12:24.68
-
ところで入札までした変体仮名グリフはどこへ行ったんだ
-
- 410
- 2013/10/30(水) 17:42:06.45
-
いわれてみれば
-
- 411
- 2013/10/30(水) 17:49:35.04
-
ローマ字で長音はサーカムフレックス付けるのに
なんでJISに全角の「サーカムフレックス付O(オー)」が無いんだ?
-
- 412
- 2013/10/30(水) 18:39:25.87
-
そこでいうJISって何?
-
- 413
- 411
- 2013/10/30(水) 18:54:48.92
-
文字集合JIS X 0208のことです。
-
- 414
- 411
- 2013/10/30(水) 19:04:54.16
-
文字コードにそれほど詳しいわけではないのですが
どの日本語文字エンコーディングでも「サーカムフレックス付O(オー)」は保存できません。
そもそも文字集合のなかに無いのでしょうか?
ローマ字も日本語なのに無いのは変だと思うんですよね。
ギリシャ文字やキリル文字はあるのに。
-
- 415
- 2013/10/30(水) 19:14:42.08
-
ユニコードにはあるけど。
-
- 416
- 411
- 2013/10/30(水) 19:23:32.84
-
ユニコード環境なら使えるのは知っています。
大文字と小文字の2文字を追加するだけで良いのになんで日本語の文字集合に入れなかったんでしょうか?
漢字の異体字みたいに青天井化する恐れも無かったのに。
-
- 417
- 2013/10/30(水) 19:30:02.53
-
ちょっとごめん。サーカムフレックスって「^」ですよね?
ローマ字だとマクロンじゃないですか?
-
- 418
- 411
- 2013/10/30(水) 19:45:41.02
-
交通機関や民間では地名人名にヘボン式ローマ字でマクロンが使われることがありますが
正式な日本語のラテン文字転記である訓令式ではサーカムフレックスが使われます。
>1947年(昭和22年)の文部省通達[17](訓令式とヘボン式の両方を解説していた)ではサーカムフレックスとアポストロフィを使うとしており、
1937年(昭和12年)の内閣訓令が事務的な手違いで誤っていたと言われているが、昭和20年代の教育現場(小学校4〜6年生)ではどちらでも良いと教えるように文部省が指導していた。
例:市の公文書でサーカムフレックス付きオーが使われています。
http://www.city.nagaoka.niigata.jp/dpage/kokubun/chikyuhiroba/konnichiwa/newsletter/Vol.252.pdf
-
- 419
- 2013/10/30(水) 20:04:24.94
-
歳がバレただけか。言わなきゃよかった
-
- 420
- 2013/10/30(水) 21:30:42.70
-
JISに「合成用丸」があることからも分かるように、
アクセント記号は合成でなんとかするつもりだったんだろうよ。
-
- 421
- 2013/10/30(水) 21:32:09.65
-
今は合成用丸という名前じゃなくなってるのか…
-
- 422
- 2013/10/30(水) 21:43:15.81
-
◯囲い文字は青天井化しそうだから合成するのは合理的かもしれないけど
ローマ字で長音は母音だけだよ。AIUEOaiueoそれぞれにマクロン付きとサーカムフレックス付きを入れても20文字だけじゃん。
なんで入れなかったんだろうね。
-
- 423
- 2013/10/30(水) 21:51:09.94
-
JIS X 0213に入ってるんだからええやん
-
- 424
- 411
- 2013/10/30(水) 23:01:56.66
-
それもそうですね。
-
- 425
- 2013/10/31(木) 04:21:14.96
-
昔は「漢字コード」って言ってたくらいだから
みんな非漢字部分にはあまり意識を払ってなかったのかもね
-
- 426
- 2013/10/31(木) 12:21:54.63
-
日本人はローマ字なんて殆ど使ってないしなあ。
0208や0212の頃は、漢字でさえまだあれやこれが足りないって議論が盛んにあった頃で、
ローマ字の長音表記に使う長音記号付きの母音字なんてどうでも良かったんじゃない?
変体仮名や西欧のアクセント記号付きアルファベットの方がまだ需要があったんじゃないかと。
和言葉には長音字はないから国語屋も興味薄そう。
-
- 427
- 2013/10/31(木) 23:44:32.72
-
これらのカタカナをユニコードに入れてほしい。
一時期存在したわけだし、入れる資格はあると思う。
ヤ行イ - Wikipedia
http://ja.wikipedia.org/wiki/%E3%83%A4%E8%A1%8C%E3%82%A4
ヤ行エ - Wikipedia
http://ja.wikipedia.org/wiki/%E3%83%A4%E8%A1%8C%E3%82%A8
わ行う - Wikipedia
http://ja.wikipedia.org/wiki/%E3%82%8F%E8%A1%8C%E3%81%86
そうすれば
ear 耳 イアー
year 年 ⊥アー (似た記号で代用)
を区別できるのにね。
韓国のわけのわからない試作ハングルよりは実用価値はあると思う。
-
- 428
- 2013/11/01(金) 00:00:51.79
-
一定の用例があれば符号化される可能性はあるだろうけど
五十音図だけだと厳しい気がする。文を綴った例がないと
-
- 429
- 2013/11/01(金) 00:37:49.21
-
既に入ってる「江」「衣」が有効活用されてるかといえばされてないのよね。
やっぱり、文字コードに入るだけじゃなくて主要な環境でデフォルトで表示できて、入力も出来るというのが普及の最低ラインになるんじゃなかろうか。
-
- 430
- 2013/11/01(金) 00:52:02.50
-
> 普及の最低ライン
何の話だ?
-
- 431
- 2013/11/01(金) 01:12:42.55
-
金属活字の活版印刷の時代にそれらのカナの活字が造られて使われていたかどうかが大きかったのかも。
-
- 432
- 2013/11/01(金) 01:27:53.75
-
フォント屋向けにUnicodeの日本語用サブセットみたいなのが必要なんだろうな
今だとAJ1がそれに近いか
-
- 433
- 2013/11/01(金) 01:45:50.33
-
どのフォントでも対応するレベルの現実的な規模のサブセットは0213なんだろうな。
だからそこから外れてるKana Supplementはほったらかされる。
-
- 434
- 2013/11/01(金) 01:56:41.54
-
JIS X 0213もAdobe-Japan1も最後に改訂されたのは9年前だっけ
後者は汎用電子がトリガーになって1-7が来るかなと思ったもんだけど
-
- 435
- 2013/11/01(金) 02:42:50.59
-
JIS X 0213は今後もサブセット集合として存在意義があると思う。Shift-JIS200Xとかはお笑い種になっちゃったけど
このページを共有する
おすすめワード