文字コード総合スレ part8 [sc] | レス396-447

■ このスレッドは過去ログ倉庫に格納されています

1 2012/11/30(金) 13:16:02.46

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た

396 2013/10/21(月) 12:37:25.80: 互換性を考えない、一人で完結ならそれでもいいんじゃない

ここまで見た

397 2013/10/22(火) 13:16:40.56: キャラクターとグリフを分けて考えるようになってからややこしくなってきたよな。
「異体字なのか」「同じ字の字形の違い」なのかとかいろいろ

ここまで見た

398 2013/10/22(火) 16:10:09.10: できる事が増えた。特にUnicodeの異体字は処理が簡単。

ここまで見た

399 2013/10/22(火) 16:23:09.07: Unicodeの場合、なし崩し的にどんどん包摂の範囲が狭くなっていってるから初期のものとの整合性がぐちゃぐちゃで

ここまで見た

400 2013/10/22(火) 16:27:12.06: まあその辺は6以降で。

ここまで見た

401 2013/10/22(火) 17:01:02.23: まあ「文字グリフ分離」はここ数年間での文字コードとフォントの進化の頂点だよな。
あとは包摂の範囲や粒度、字形の問題とか規格で決めることをどう決着つけるのかと
フォントベンダーがちゃんとしたものを手抜きしないで作ってくれるかだよな。

ここまで見た

402 2013/10/22(火) 17:03:02.82: ユーザー次第だと思うね。
メーカーがちゃんとコスト掛けてるものについて、それをちゃんと評価し、使うかどうか。

ここまで見た

403 2013/10/22(火) 17:05:46.86: そうだね、凄い手間とお金がかかっているからね。

ここまで見た

404 2013/10/26(土) 02:43:56.58: フォントのグリフ集合に関してはAJ1の一人勝ちになってるから
その辺Adobe次第なのよね

ここまで見た

405 2013/10/27(日) 23:12:43.53: >>395
スペースを始めとして、半角、全角や幅ゼロやそれ以外の幅の文字もあるよ
http://ja.wikipedia.org/wiki/Unicode%E6%96%87%E5%AD%97%E3%81%AE%E3%83%9E%E3%83%83%E3%83%94%E3%83%B3%E3%82%B0#.E3.81.9D.E3.81.AE.E4.BB.96.E3.81.AE.E7.89.B9.E6.AE.8A.E7.94.A8.E9.80.94.E6.96.87.E5.AD.97

ここまで見た

406 2013/10/28(月) 06:01:33.32: よくわからんけど、silフォントみたいなやつ？

ここまで見た

407 2013/10/29(火) 00:31:26.29: >>405
で、その幅っていうのは具体的にどれだけなんだい？

ここまで見た

408 2013/10/29(火) 00:36:08.36: 等幅フォントを使って
スペース文字で文字間を調節するって
活版印刷みたいだな。

ここまで見た

409 2013/10/29(火) 07:12:24.68: ところで入札までした変体仮名グリフはどこへ行ったんだ

ここまで見た

410 2013/10/30(水) 17:42:06.45: いわれてみれば

ここまで見た

411 2013/10/30(水) 17:49:35.04: ローマ字で長音はサーカムフレックス付けるのに
なんでＪＩＳに全角の「サーカムフレックス付Ｏ（オー）」が無いんだ？

ここまで見た

412 2013/10/30(水) 18:39:25.87: そこでいうJISって何？

ここまで見た

413

411

2013/10/30(水) 18:54:48.92: 文字集合JIS X 0208のことです。

ここまで見た

414

411

2013/10/30(水) 19:04:54.16: 文字コードにそれほど詳しいわけではないのですが
どの日本語文字エンコーディングでも「サーカムフレックス付Ｏ（オー）」は保存できません。
そもそも文字集合のなかに無いのでしょうか？

ローマ字も日本語なのに無いのは変だと思うんですよね。
ギリシャ文字やキリル文字はあるのに。

ここまで見た

415 2013/10/30(水) 19:14:42.08: ユニコードにはあるけど。

ここまで見た

416

411

2013/10/30(水) 19:23:32.84: ユニコード環境なら使えるのは知っています。
大文字と小文字の２文字を追加するだけで良いのになんで日本語の文字集合に入れなかったんでしょうか？
漢字の異体字みたいに青天井化する恐れも無かったのに。

ここまで見た

417 2013/10/30(水) 19:30:02.53: ちょっとごめん。サーカムフレックスって「^」ですよね？
ローマ字だとマクロンじゃないですか？

ここまで見た

418

411

2013/10/30(水) 19:45:41.02: 交通機関や民間では地名人名にヘボン式ローマ字でマクロンが使われることがありますが

正式な日本語のラテン文字転記である訓令式ではサーカムフレックスが使われます。

＞1947年（昭和22年）の文部省通達[17]（訓令式とヘボン式の両方を解説していた）ではサーカムフレックスとアポストロフィを使うとしており、
1937年（昭和12年）の内閣訓令が事務的な手違いで誤っていたと言われているが、昭和20年代の教育現場（小学校4〜6年生）ではどちらでも良いと教えるように文部省が指導していた。

例：市の公文書でサーカムフレックス付きオーが使われています。
http://www.city.nagaoka.niigata.jp/dpage/kokubun/chikyuhiroba/konnichiwa/newsletter/Vol.252.pdf

ここまで見た

419 2013/10/30(水) 20:04:24.94: 歳がバレただけか。言わなきゃよかった

ここまで見た

420 2013/10/30(水) 21:30:42.70: JISに「合成用丸」があることからも分かるように、
アクセント記号は合成でなんとかするつもりだったんだろうよ。

ここまで見た

421 2013/10/30(水) 21:32:09.65: 今は合成用丸という名前じゃなくなってるのか…

ここまで見た

422 2013/10/30(水) 21:43:15.81: ◯囲い文字は青天井化しそうだから合成するのは合理的かもしれないけど
ローマ字で長音は母音だけだよ。AIUEOaiueoそれぞれにマクロン付きとサーカムフレックス付きを入れても20文字だけじゃん。
なんで入れなかったんだろうね。

ここまで見た

423 2013/10/30(水) 21:51:09.94: JIS X 0213に入ってるんだからええやん

ここまで見た

424

411

2013/10/30(水) 23:01:56.66: それもそうですね。

ここまで見た

425 2013/10/31(木) 04:21:14.96: 昔は「漢字コード」って言ってたくらいだから
みんな非漢字部分にはあまり意識を払ってなかったのかもね

ここまで見た

426 2013/10/31(木) 12:21:54.63: 日本人はローマ字なんて殆ど使ってないしなあ。

0208や0212の頃は、漢字でさえまだあれやこれが足りないって議論が盛んにあった頃で、
ローマ字の長音表記に使う長音記号付きの母音字なんてどうでも良かったんじゃない?
変体仮名や西欧のアクセント記号付きアルファベットの方がまだ需要があったんじゃないかと。

和言葉には長音字はないから国語屋も興味薄そう。

ここまで見た

427 2013/10/31(木) 23:44:32.72: これらのカタカナをユニコードに入れてほしい。
一時期存在したわけだし、入れる資格はあると思う。

ヤ行イ - Wikipedia
http://ja.wikipedia.org/wiki/%E3%83%A4%E8%A1%8C%E3%82%A4

ヤ行エ - Wikipedia
http://ja.wikipedia.org/wiki/%E3%83%A4%E8%A1%8C%E3%82%A8

わ行う - Wikipedia
http://ja.wikipedia.org/wiki/%E3%82%8F%E8%A1%8C%E3%81%86

そうすれば
ear 耳　イアー
year 年　⊥アー　（似た記号で代用）
を区別できるのにね。

韓国のわけのわからない試作ハングルよりは実用価値はあると思う。

ここまで見た

428 2013/11/01(金) 00:00:51.79: 一定の用例があれば符号化される可能性はあるだろうけど
五十音図だけだと厳しい気がする。文を綴った例がないと

ここまで見た

429 2013/11/01(金) 00:37:49.21: 既に入ってる「江」「衣」が有効活用されてるかといえばされてないのよね。
やっぱり、文字コードに入るだけじゃなくて主要な環境でデフォルトで表示できて、入力も出来るというのが普及の最低ラインになるんじゃなかろうか。

ここまで見た

430 2013/11/01(金) 00:52:02.50: > 普及の最低ライン

何の話だ?

ここまで見た

431 2013/11/01(金) 01:12:42.55: 金属活字の活版印刷の時代にそれらのカナの活字が造られて使われていたかどうかが大きかったのかも。

ここまで見た

432 2013/11/01(金) 01:27:53.75: フォント屋向けにUnicodeの日本語用サブセットみたいなのが必要なんだろうな
今だとAJ1がそれに近いか

ここまで見た

433 2013/11/01(金) 01:45:50.33: どのフォントでも対応するレベルの現実的な規模のサブセットは0213なんだろうな。
だからそこから外れてるKana Supplementはほったらかされる。

ここまで見た

434 2013/11/01(金) 01:56:41.54: JIS X 0213もAdobe-Japan1も最後に改訂されたのは9年前だっけ
後者は汎用電子がトリガーになって1-7が来るかなと思ったもんだけど

ここまで見た

435 2013/11/01(金) 02:42:50.59: JIS X 0213は今後もサブセット集合として存在意義があると思う。Shift-JIS200Xとかはお笑い種になっちゃったけど

ここまで見た

436 2013/11/01(金) 02:44:49.61: そうだね
JIS信者安岡信者の心のより所として必要だね

ここまで見た

437 2013/11/01(金) 12:22:17.42: >>435
JIS X 0213なんて意義はもうほぼないだろw
文字コード屋以外には。
世間では既にUnicode+Adobe-Japan1で廻ってる。

ここまで見た

438 2013/11/01(金) 12:23:29.58: > Adobe-Japan1
< Adobe-Japan1フォント

ここまで見た

439 2013/11/01(金) 13:24:11.90: JavaScriptにようやく正規化とサロゲートペアのメソッドが入るみたいで安心

ここまで見た

440 2013/11/01(金) 15:38:04.53: >>436 TRON信者は電波お花畑板という適切な板に行ってください

ここまで見た

441 2013/11/01(金) 16:51:12.98: >>439
Unicodeすらまともにサポートしてなかったのか

ここまで見た

442 2013/11/01(金) 19:49:26.19: Adobe-Japan1フォントは、欧文がダメだからなー

ここまで見た

443 2013/11/01(金) 22:50:40.29: JavaScriptは仕様を巡る争いで数年無駄にしたからなあ

ここまで見た

444 2013/11/01(金) 22:55:49.16: 仕様を巡る争いなんてないよ。
そもそもネットスケープの独自言語だったわけだし。

単に標準化委員会が、XHTMLなんかはやらせようとしてて
JavaScirptに見向きもしなかっただけ。

標準化委員会が最低限のDOM以外なにも決めようとしないので
各ブラウザベンダーは独自で便利な機能を実装していった。
この時代に標準はない。

それに業を煮やしたブラウザベンダーがJavaScriptを
ふんだんに取り入れたHTML5を作り出した。
ここからやっとJavaScriptの仕様の話に入る。