facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 1
  •  
  • 2012/11/30(金) 13:16:02.46
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た
  • 499
  •  
  • 2013/11/17(日) 15:58:49.35
古典を電子化するために必要ってことだよね。
でも変体仮名ってゴシック体とか明朝体の活字が使われる頃には既に使われなくなっていたから
楷書体の字形しか無いよな?
ゴシック体の変体仮名ってマヌケそう。

ここまで見た
  • 500
  •  
  • 2013/11/17(日) 18:52:14.42
散々言われ尽くしたことを何故いまさら

ここまで見た
  • 501
  •  
  • 2013/11/18(月) 01:20:17.70
>>500
結論出たならいいけどさ
登録するなら必要な話でしょ。
手書き限定ならそもそも活字化出来ない→誰も実装しない→登録する必要性なし
って判断されるかもよ。

ここまで見た
  • 502
  •  
  • 2013/11/18(月) 01:21:25.80
>>498
活字なんてあったっけ?

ここまで見た
  • 503
  •  
  • 2013/11/18(月) 02:12:31.08
行政で必要なものだけ符号化すりゃいいんだよ的な話になってるのは気になるけど
どのみち於可古志八みたいな有名どころは入ることになるか

ここまで見た
  • 504
  •  
  • 2013/11/18(月) 11:47:29.93
>>502
当然あった。例えば「築地活文舎 変体仮名」でググれ。
基本的なことも知らないのだから活字には無知だろうに、
どうして「あったっけ?」なんていい方が出来るのか...

ここまで見た
  • 505
  •  
  • 2013/11/18(月) 18:52:54.82
この会社ならいい感じの変体仮名のフォント作れそうだな。
http://fontworks.co.jp/font/tsukushi/tsukushiboldmin/R.html

ここまで見た
  • 506
  •  
  • 2013/11/18(月) 22:20:12.19
そもそも常識的に考えて「変体仮名の活字はなかった」なんておかしいだろ

ここまで見た
  • 507
  •  
  • 2013/11/18(月) 23:35:43.62
弘道軒清朝体が出てきて懐かしくなった

ここまで見た
  • 508
  •  
  • 2013/11/19(火) 16:23:32.63
>>4-6
UTF-8に統一しろよって言いに来たけどテンプレ読んで頭が下がりました。
すいませんでした。

ここまで見た
  • 509
  •  
  • 2013/11/19(火) 16:51:04.04
>>4
>・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?

テキストVRAMに書き込むのは、BIOSかコマンドの仕事。
直接書き込みたければコマンドが自分で変換する必要がある。
ちなみに1byteごとに色等の修飾属性1byteがつくから、漢字は4byte。

ここまで見た
  • 510
  •  
  • 2013/11/19(火) 22:02:59.00
98のbiosは文字描画無いんじゃなかったっけ?

ここまで見た
  • 511
  •  
  • 2013/11/19(火) 22:19:25.06
そもそもMS-DOSはShift_JISじゃないし。
>>4の様な安岡信者は相変わらず気が触れているな。

ここまで見た
  • 512
  •  
  • 2013/11/19(火) 22:25:22.58
学参明朝などという八百長書体のせいで
字形の違いとデザイン差の問題がでたらめになってしまった。

学参明朝を撲滅せよ!

ここまで見た
  • 513
  •  
  • 2013/11/20(水) 02:36:10.18
>>511
安岡のおっちゃんもCP932とShift_JISくらい区別ついてるよ

ここまで見た
  • 514
  •  
  • 2013/11/20(水) 12:01:24.92
安岡はCP932とShift_JISの区別は付いているけど
シフトJISとShift_JISの違いがついていなくて
Shift_JISを妄信しているから困る

ここまで見た
  • 515
  •  
  • 2013/11/20(水) 18:16:02.66
意味のわかんないことを一人で必死に連投してるのは何?

ここまで見た
  • 516
  •  
  • 2013/11/20(水) 18:52:26.42
勉強してきて、どうぞ

ここまで見た
  • 517
  •  
  • 2013/11/21(木) 10:41:36.55
「シフトJIS」なんて厳密な定義ない。>>514は馬鹿。

ここまで見た
  • 518
  •  
  • 2013/11/21(木) 10:44:02.10
厳密な定義のない広義のシフトJISとShift_JISとが
区別できてないってことだろ

ここまで見た
  • 519
  •  
  • 2013/11/21(木) 13:53:21.11
http://slashdot.jp/~yasuoka/journal/334730
↑この話な

ここまで見た
  • 520
  •  
  • 2013/11/21(木) 16:13:00.62
MS-DOS全盛の時代にWindows-31Jがあったとは思えないんだが

ここまで見た
  • 521
  •  
  • 2013/11/21(木) 16:49:54.99
>>519
これ読むと
誤解されてる方の意味での
「シフトJIS」ってのは
EUCにふさわしい名前だな

ここまで見た
  • 522
  •  
  • 2013/11/21(木) 17:21:16.17
>>519
これは「シフトJIS」と「Shift_JIS」を混同している(>>514)んじゃなくて、
世間的にASCII+Microsoftが起源と思われている「シフトJIS」が
実は漢字CP/M由来であるという話の中で、
Shift JIS系のコードの総称として「シフトJIS」と言う言葉を使ってるんじゃないのかな?

ここまで見た
  • 523
  •  
  • 2013/11/21(木) 19:02:01.88
>Shift JIS系のコードの総称として「シフトJIS」
というのが世間の認識なんだけど、
安岡氏は代表であるMSのそれを「MS漢字コード」
という別物としてとらえている感があるような

ここまで見た
  • 524
  •  
  • 2013/11/21(木) 19:12:37.27
「完敗」って書いてるじゃん

ここまで見た
  • 525
  •  
  • 2013/11/23(土) 03:13:57.39
>>523
なんか前半と後半で文書繋がってないけど。
・総称をシフトJISと呼ぶことが多い
・CP932を安岡はMS漢字コードと言ってる
・シフトJISにCP932は含まれる
ってだけじゃないの。

で、スラドに書いてあるのはシフトJIS起源はどの会社かって話でしょ。
これに関しては安岡説は間違ってたと当人が認めてる。

ここまで見た
  • 526
  •  
  • 2013/11/23(土) 08:31:16.26
読解力ないな
スラドのテーマは
「誤解されてる方の意味」の

>「Windowsの前身にあたるMS-DOS開発時にマイクロソフト社などによって考え出されたのが
>「JIS漢字のコード領域をごっそり1バイト文字の領域と重ならないコード領域にズラしてしまえ」という方法、
>すなわち「シフトJISコード」でした」

を言ったのはどこの会社の誰かソース出せ
ってことだろ

ここまで見た
  • 527
  •  
  • 2013/11/23(土) 09:51:05.75
誤解されてる方
って何だ?

ここまで見た
  • 528
  •  
  • 2013/11/23(土) 12:02:46.92
「これを読む限りでは」って限定してるじゃん
しかも今じゃ読めないし

ここまで見た
  • 529
  •  
  • 2013/11/23(土) 12:07:18.05
安岡はともかく>>4あたりがよく分かっていないのは間違いない

ここまで見た
  • 530
  •  
  • 2013/11/23(土) 12:48:58.53
4がっつーか当時の書き込みがそのまま使われてるだけだろ
www.bookshelf.jp/2ch/tech/1143375639.html

ここまで見た
  • 531
  •  
  • 2013/11/23(土) 15:22:40.61
質問なのですが
CP932のNEC選定IBM拡張漢字と、IBM拡張漢字の領域で
重複している漢字がいくつかありますが
UTF8から変換した時、どちらに変換するのが正しいんでしょうか?

例) ?(U+7E8A)

NEC選定IMBだと
0xED40

IBMだと
0xFA5C

ここまで見た
  • 532
  •  
  • 2013/11/23(土) 15:37:34.29
自己解決しました
Wikipedia先生に答えが書いてありました

> 「NEC選定IBM拡張文字」「IBM拡張文字」が重複する場合は、「IBM拡張文字」に統一

ありがとうございました

ここまで見た
  • 533
  •  
  • 2013/12/01(日) 00:08:42.45
ふむ

ここまで見た
  • 534
  •  
  • 2013/12/11(水) 00:37:39.94
ほう

ここまで見た
  • 535
  •  
  • 2013/12/11(水) 03:30:11.10
へえ

ここまで見た
  • 536
  •  
  • 2013/12/12(木) 16:23:27.72
ところでPRI 259は

ここまで見た
  • 537
  •  
  • 2013/12/12(木) 20:41:09.81
TwitterでNさんが夜中にキレてたね

ここまで見た
  • 538
  •  
  • 2013/12/14(土) 00:35:38.20
文字コードの判定の精度を確かめたいのですが
よく使われているテストセットみたいのってありますか?

ここまで見た
  • 539
  •  
  • 2013/12/14(土) 00:38:42.17
>>536
IPAmjフォント専用みたいな感じだから
良くも悪くも一般ユーザーには関係なさそう

ここまで見た
  • 540
  •  
  • 2013/12/14(土) 01:41:47.13
>>538
テスト用にサンプル集めてるところだわ
パスはUTF8で
http://www2.age2.tv/rd2/src/age5249.zip.html
どれもウェブページとかウェブから拾える

KOI7-switched windows-125[2347] IBM-12{61|64|65|68|76} ISO-2022-KR Big5-HKSCS辺りは見つけられてねえ

ここまで見た
  • 541
  •  
  • 2013/12/15(日) 04:27:51.02
Encode::Detect::CJK
Unicode::Japanese
CharsetDetector
Lingua::DetectCharset
activeperlで使えるこの4つ総合してもcp1256とkoi8が判別しにくいようだが
ファイル単位でなら80-ff調べれば一目瞭然だね
totalとの差は80-bfの分
cp1256: 0xc0-0xdf:229, 0xe0-0xff:178 total:422
koi8r: 0xc0-0xdf:62356, 0xe0-0xff:976 total:63359.
koi8u: 0xc0-0xdf:6341, 0xe0-0xff:96 total:6455.

Encode::Detect::CJKの判別能力はかなり高い
>>540の不足分(はテストできないのでそれ)以外だと
koi8とcp1256を区別できないのと
big5とiso-2022-cnとcp1251とgb2312とiso-8859-6とiso-8859-11で誤判定がある程度

ちなみに
Encode::First Lingua::ZH::HanDetect Lingua::DetectCyrillic Lingua::RU::Detect Encode::Guess
は使い物にならなかった

ここまで見た
  • 542
  •  
  • 2013/12/16(月) 00:10:20.08
文字コードの判定の"精度" という言い方が引っかかるんだよなぁ。
なんでかって考えてみたら、品質が良くなれば精度があがるみたいな
ことを思ってしまうからかな?精度が悪いものはダメみたいな。

文字コードの判定っていうのは、仕様なんだよね。
あるバイナリ列があったとき、それがAという文字コード、
Bという文字コードの両方の当てはまることはあるんだよ。
こういうのは「AかBの文字コード」というのが正しい答えになる。

この場合にどちらを答えるかというのは、精度の問題ではなく単に仕様でしかないんだよ。
例えば、日本語にしか対応していないやつなら外国の文字コードに
当てはまる場合でも答えないだろう。これは精度ではなく、外国の文字コードに
対応していないという話。考え方によっては、低機能と言える。

多くの文字コードに対応していればいるほど、判定の精度は低くなる。
というか精度ではなく、対応しているものが多いから、
多くの文字コードに当てはまることを正確に教えてくれる。

だから判別能力が高いとか低いじゃなくて
迷った時は○○コードよりの判定をしてくれるとか、
日本語だけしか対応してないから、外国の文字コード
判定されることはないとか、そういう話にしなきゃ。

ここまで見た
  • 543
  •  
  • 2013/12/16(月) 00:17:37.68
1文字で調べても意味ないからね。1文字では正しく判定できたとしても
その文字が含まれている2文字、3文字だったら誤判定することもある。

ここまで見た
  • 544
  •  
  • 2013/12/16(月) 00:23:04.91
> Encode::Detect::CJK
> Unicode::Japanese
> CharsetDetector
> Lingua::DetectCharset
> activeperlで使えるこの4つ総合してもcp1256とkoi8が判別しにくいようだが

こういうのもね。ライブラリの精度の問題じゃないんだよ。

cp1256とkoi8が区別しにくいのは、文字の問題。
同じバイナリ列にかぶってるんでしょ?

区別しにくい(誤判定する)のは文字自体の問題で、
それをどのように判定するのは、ライブラリの癖というか仕様。

Encode::Guess が使いものにならないというのは、
Encode::Guess が日本語以外の多くの文字コードに対応していて、
対応しているもの全てを列挙するからだよ。一番正確。

ここまで見た
  • 545
  •  
  • 2013/12/16(月) 00:30:43.89
ベイズ推定かな

ここまで見た
  • 546
  •  
  • 2013/12/16(月) 00:39:29.90
>>545
うん、そうそう。そういうこと。

結局のところ、文字で判断している以上
それは精度ではなく仕様という話でしか無い。
複数の文字コードで解釈できるというのは事実でしか無いからね。

精度という話をするのなら、文字ではなく文字列、文章として考え、
それがどの文字コードであれば意味が通る文字列、文章として解釈できるか?
っていう話に持っていかないといけない。

まあその場合の精度も、どんな辞書を使っているかって所が
差が出る一番の要因で、アルゴリズム的なところではあまり差は出ないだろうけど。

文字列、文章で判断するのなら高い精度で判定できるようになるけど
1文字だったら誤判定する確率はやっぱり高いだろうな。
その文字をよく使っている文字コードはどれ?という程度の判断基準になるからね。

ここまで見た
  • 547
  •  
  • 2013/12/16(月) 05:17:08.56
Encode::Detect::CJKはデフォでcharset指定見てるからで
判断材料にしないようにするとかなり落ちるな

精度に反論してる奴がいるけどさ
実際はとりあえず選択して試してみる必要があるわけで
実用面ではある程度当たればいいわけだよ

Encode::Guess が全てを列挙するというんだけど
それが本当なら良いけど実際列挙しないしな

ここまで見た
  • 548
  •  
  • 2013/12/16(月) 07:44:53.21
用途にも拠るかね。
100%の精度が必要な自動データ処理系か、
ブラウザやエディタのように人の目で判断して文字コードを修正出来るものか、とか。

ここまで見た
  • 549
  •  
  • 2013/12/16(月) 08:04:17.71
組版ソフトだと設定で勝手に換えてくれちゃったりするから、
他のところに持って行くとぐだぐだ

ここまで見た
  • 550
  •  
  • 2013/12/16(月) 10:28:46.12
Mac Binary 最強ですねわかります

お絵かきランド
フリックラーニング
ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード