文字コード総合スレ part8 [sc] | レス514-564 | 2ch過去ログ

★お気に入り追加

■ このスレッドは過去ログ倉庫に格納されています

1 2012/11/30(金) 13:16:02.46

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

フリックゾンビ

フリック回転寿司

ここまで見た

514 2013/11/20(水) 12:01:24.92: 安岡はCP932とShift_JISの区別は付いているけど
シフトJISとShift_JISの違いがついていなくて
Shift_JISを妄信しているから困る

ここまで見た

515 2013/11/20(水) 18:16:02.66: 意味のわかんないことを一人で必死に連投してるのは何？

ここまで見た

516 2013/11/20(水) 18:52:26.42: 勉強してきて、どうぞ

ここまで見た

517 2013/11/21(木) 10:41:36.55: 「シフトJIS」なんて厳密な定義ない。>>514は馬鹿。

ここまで見た

518 2013/11/21(木) 10:44:02.10: 厳密な定義のない広義のシフトJISとShift_JISとが
区別できてないってことだろ

ここまで見た

519 2013/11/21(木) 13:53:21.11: http://slashdot.jp/~yasuoka/journal/334730
↑この話な

ここまで見た

520 2013/11/21(木) 16:13:00.62: MS-DOS全盛の時代にWindows-31Jがあったとは思えないんだが

ここまで見た

521 2013/11/21(木) 16:49:54.99: >>519
これ読むと
誤解されてる方の意味での
「シフトJIS」ってのは
EUCにふさわしい名前だな

ここまで見た

522 2013/11/21(木) 17:21:16.17: >>519
これは「シフトJIS」と「Shift_JIS」を混同している(>>514)んじゃなくて、
世間的にASCII+Microsoftが起源と思われている「シフトJIS」が
実は漢字CP/M由来であるという話の中で、
Shift JIS系のコードの総称として「シフトJIS」と言う言葉を使ってるんじゃないのかな?

ここまで見た

523 2013/11/21(木) 19:02:01.88: >Shift JIS系のコードの総称として「シフトJIS」
というのが世間の認識なんだけど、
安岡氏は代表であるMSのそれを「MS漢字コード」
という別物としてとらえている感があるような

ここまで見た

524 2013/11/21(木) 19:12:37.27: 「完敗」って書いてるじゃん

ここまで見た

525 2013/11/23(土) 03:13:57.39: >>523
なんか前半と後半で文書繋がってないけど。
・総称をシフトJISと呼ぶことが多い
・CP932を安岡はMS漢字コードと言ってる
・シフトJISにCP932は含まれる
ってだけじゃないの。

で、スラドに書いてあるのはシフトJIS起源はどの会社かって話でしょ。
これに関しては安岡説は間違ってたと当人が認めてる。

ここまで見た

526 2013/11/23(土) 08:31:16.26: 読解力ないな
スラドのテーマは
「誤解されてる方の意味」の

>「Windowsの前身にあたるMS-DOS開発時にマイクロソフト社などによって考え出されたのが
>「JIS漢字のコード領域をごっそり1バイト文字の領域と重ならないコード領域にズラしてしまえ」という方法、
>すなわち「シフトJISコード」でした」

を言ったのはどこの会社の誰かソース出せ
ってことだろ

ここまで見た

527 2013/11/23(土) 09:51:05.75: 誤解されてる方
って何だ？

ここまで見た

528 2013/11/23(土) 12:02:46.92: 「これを読む限りでは」って限定してるじゃん
しかも今じゃ読めないし

ここまで見た

529 2013/11/23(土) 12:07:18.05: 安岡はともかく>>4あたりがよく分かっていないのは間違いない

ここまで見た

530 2013/11/23(土) 12:48:58.53: 4がっつーか当時の書き込みがそのまま使われてるだけだろ
www.bookshelf.jp/2ch/tech/1143375639.html

ここまで見た

531 2013/11/23(土) 15:22:40.61: 質問なのですが
CP932のNEC選定IBM拡張漢字と、IBM拡張漢字の領域で
重複している漢字がいくつかありますが
UTF8から変換した時、どちらに変換するのが正しいんでしょうか？

例) ?(U+7E8A)

NEC選定IMBだと
0xED40

IBMだと
0xFA5C

ここまで見た

532 2013/11/23(土) 15:37:34.29: 自己解決しました
Wikipedia先生に答えが書いてありました

> 「NEC選定IBM拡張文字」「IBM拡張文字」が重複する場合は、「IBM拡張文字」に統一

ありがとうございました

ここまで見た

533 2013/12/01(日) 00:08:42.45: ふむ

ここまで見た

534 2013/12/11(水) 00:37:39.94: ほう

ここまで見た

535 2013/12/11(水) 03:30:11.10: へえ

ここまで見た

536 2013/12/12(木) 16:23:27.72: ところでPRI 259は

ここまで見た

537 2013/12/12(木) 20:41:09.81: TwitterでNさんが夜中にキレてたね

ここまで見た

538 2013/12/14(土) 00:35:38.20: 文字コードの判定の精度を確かめたいのですが
よく使われているテストセットみたいのってありますか？

ここまで見た

539 2013/12/14(土) 00:38:42.17: >>536
IPAmjフォント専用みたいな感じだから
良くも悪くも一般ユーザーには関係なさそう

ここまで見た

540 2013/12/14(土) 01:41:47.13: >>538
テスト用にサンプル集めてるところだわ
パスはUTF8で
http://www2.age2.tv/rd2/src/age5249.zip.html
どれもウェブページとかウェブから拾える

KOI7-switched windows-125[2347] IBM-12{61|64|65|68|76} ISO-2022-KR Big5-HKSCS辺りは見つけられてねえ

ここまで見た

541 2013/12/15(日) 04:27:51.02: Encode::Detect::CJK
Unicode::Japanese
CharsetDetector
Lingua::DetectCharset
activeperlで使えるこの4つ総合してもcp1256とkoi8が判別しにくいようだが
ファイル単位でなら80-ff調べれば一目瞭然だね
totalとの差は80-bfの分
cp1256: 0xc0-0xdf:229, 0xe0-0xff:178 total:422
koi8r: 0xc0-0xdf:62356, 0xe0-0xff:976 total:63359.
koi8u: 0xc0-0xdf:6341, 0xe0-0xff:96 total:6455.

Encode::Detect::CJKの判別能力はかなり高い
>>540の不足分(はテストできないのでそれ)以外だと
koi8とcp1256を区別できないのと
big5とiso-2022-cnとcp1251とgb2312とiso-8859-6とiso-8859-11で誤判定がある程度

ちなみに
Encode::First Lingua::ZH::HanDetect Lingua::DetectCyrillic Lingua::RU::Detect Encode::Guess
は使い物にならなかった

ここまで見た

542 2013/12/16(月) 00:10:20.08: 文字コードの判定の"精度" という言い方が引っかかるんだよなぁ。
なんでかって考えてみたら、品質が良くなれば精度があがるみたいな
ことを思ってしまうからかな？精度が悪いものはダメみたいな。

文字コードの判定っていうのは、仕様なんだよね。
あるバイナリ列があったとき、それがAという文字コード、
Bという文字コードの両方の当てはまることはあるんだよ。
こういうのは「AかBの文字コード」というのが正しい答えになる。

この場合にどちらを答えるかというのは、精度の問題ではなく単に仕様でしかないんだよ。
例えば、日本語にしか対応していないやつなら外国の文字コードに
当てはまる場合でも答えないだろう。これは精度ではなく、外国の文字コードに
対応していないという話。考え方によっては、低機能と言える。

多くの文字コードに対応していればいるほど、判定の精度は低くなる。
というか精度ではなく、対応しているものが多いから、
多くの文字コードに当てはまることを正確に教えてくれる。

だから判別能力が高いとか低いじゃなくて
迷った時は○○コードよりの判定をしてくれるとか、
日本語だけしか対応してないから、外国の文字コード
判定されることはないとか、そういう話にしなきゃ。

ここまで見た

543 2013/12/16(月) 00:17:37.68: 1文字で調べても意味ないからね。1文字では正しく判定できたとしても
その文字が含まれている2文字、3文字だったら誤判定することもある。

ここまで見た

544 2013/12/16(月) 00:23:04.91: > Encode::Detect::CJK
> Unicode::Japanese
> CharsetDetector
> Lingua::DetectCharset
> activeperlで使えるこの4つ総合してもcp1256とkoi8が判別しにくいようだが

こういうのもね。ライブラリの精度の問題じゃないんだよ。

cp1256とkoi8が区別しにくいのは、文字の問題。
同じバイナリ列にかぶってるんでしょ？

区別しにくい（誤判定する）のは文字自体の問題で、
それをどのように判定するのは、ライブラリの癖というか仕様。

Encode::Guess が使いものにならないというのは、
Encode::Guess が日本語以外の多くの文字コードに対応していて、
対応しているもの全てを列挙するからだよ。一番正確。

ここまで見た

545 2013/12/16(月) 00:30:43.89: ベイズ推定かな

ここまで見た

546 2013/12/16(月) 00:39:29.90: >>545
うん、そうそう。そういうこと。

結局のところ、文字で判断している以上
それは精度ではなく仕様という話でしか無い。
複数の文字コードで解釈できるというのは事実でしか無いからね。

精度という話をするのなら、文字ではなく文字列、文章として考え、
それがどの文字コードであれば意味が通る文字列、文章として解釈できるか？
っていう話に持っていかないといけない。

まあその場合の精度も、どんな辞書を使っているかって所が
差が出る一番の要因で、アルゴリズム的なところではあまり差は出ないだろうけど。

文字列、文章で判断するのなら高い精度で判定できるようになるけど
1文字だったら誤判定する確率はやっぱり高いだろうな。
その文字をよく使っている文字コードはどれ？という程度の判断基準になるからね。

ここまで見た

547 2013/12/16(月) 05:17:08.56: Encode::Detect::CJKはデフォでcharset指定見てるからで
判断材料にしないようにするとかなり落ちるな

精度に反論してる奴がいるけどさ
実際はとりあえず選択して試してみる必要があるわけで
実用面ではある程度当たればいいわけだよ

Encode::Guess が全てを列挙するというんだけど
それが本当なら良いけど実際列挙しないしな

ここまで見た

548 2013/12/16(月) 07:44:53.21: 用途にも拠るかね。
100%の精度が必要な自動データ処理系か、
ブラウザやエディタのように人の目で判断して文字コードを修正出来るものか、とか。

ここまで見た

549 2013/12/16(月) 08:04:17.71: 組版ソフトだと設定で勝手に換えてくれちゃったりするから、
他のところに持って行くとぐだぐだ

ここまで見た

550 2013/12/16(月) 10:28:46.12: Mac Binary 最強ですねわかります

ここまで見た

551 2013/12/16(月) 23:45:08.75: なんでMac Binaryやめたんだろうね。
糞だったのかな？

ここまで見た

552 2013/12/16(月) 23:49:11.89: >>551
意味分かって喋ってる?

ここまで見た

553 2013/12/17(火) 01:09:41.50: >>552
はい、わかっていますが
言いたいことがあるのならどうぞ。

ここまで見た

554 2013/12/17(火) 11:33:31.15: >>553
MacBinaryはtar等と同様の単なるシリアライズフォーマットだが、
どこが文字コードと関係するのかね？

ここまで見た

555 2013/12/17(火) 22:20:19.60: >>554
Macバイナリの話を始めたのは>>550ですよ？
変なことをいいますね。

ここまで見た

556 2013/12/17(火) 22:28:06.16: >>555
意味分かってないじゃん

ここまで見た

557 2013/12/17(火) 22:46:14.63: これ立てたのお前かよ

Apple固有技術のMac Binaryは復活するべきだと思う
http://anago.2ch.net/test/read.cgi/mac/1387205359/

ここまで見た

558 2013/12/23(月) 20:11:46.30: 検索結果にでてきた
https://groups.google.com/d/forum/emoji-working-group

ここまで見た

559 2013/12/23(月) 22:37:34.34: CNETで絵文字コラムをやってたころのかな
あの連載って完結したんだっけか

ここまで見た

560 2013/12/24(火) 00:20:14.25: 確かに最終回を見た記憶がない

ここまで見た

561 2013/12/24(火) 00:33:36.47: 小形さんの連載の最終回はどれも見たことがないような…

ここまで見た

562 2013/12/24(火) 01:21:06.74: それでも仕事が取れるのか…

ここまで見た

563 2013/12/27(金) 18:44:55.17: 某氏が呟いてた葬り去られるフォントって入札のあれかな

ここまで見た

564 2013/12/29(日) 07:02:40.09

カタカナの「ツ」が海外で顔文字になってるの知ってた？ - ねとらぼ
http://nlab.itmedia.co.jp/nl/articles/1312/20/news111.html
2013年12月20日 15時43分

砂時計アラームタイマー

フリックラーニング

ここまで見た

★お気に入り追加

このページを共有する

おすすめワード

スレッドランキング

1位【NBA】八村塁　男子バスケ日本代表への偽らざる思いを吐露「...(506)
2024-11-14 19:08 [sc] 2位「＃さよなら俺たちの松ちゃん」松本人志　訴訟取り下げで見限...(754)
2024-11-14 19:04 [sc] 3位【野球】西武、FAの大山悠輔と原口文仁のW獲りを画策　後藤オ...(179)
2024-11-14 18:28 [sc] 4位【サッカー】三笘薫がインドネシアの〝最恐アウェー&#12...(72)
2024-11-14 17:56 [sc] 5位藤本美貴「誰が一汁三菜って言い出した？」伝統の食事スタイル...(907)
2024-11-14 17:30 [sc]

6位春日俊彰　グルメ番組の”NGリアクション”に困惑「激辛料理食べ...(69)
2024-11-14 17:12 [sc] 7位「Ｚ李」原作の１月公開Ｌｅｍｉｎｏオリジナルドラマの配信可...(166)
2024-11-14 17:06 [sc] 8位【テレビ】「水ダウ」出演でトレンド入りの大仁田厚、５度の電...(120)
2024-11-14 16:56 [sc] 9位【サッカー】Lemino、2025年のJ3全試合無料配信決定を発表！20...(76)
2024-11-14 16:53 [sc] 10位【話題】「世界で最もセクシーな薄毛男性」発表　2位はドウェ...(405)
2024-11-14 16:51 [sc]

同一板（プログラム板）のスレッドリスト

高2の授業でアプリを作るんや。案を募集するやで(26)
2024-11-06 06:43 [sc] 【PHP】下らねぇ質問はここに書き込みやがれ 15(32)
2024-10-29 20:52 [sc] AIの執筆した記事(13)
2024-10-10 08:50 [sc] 個人開発者の雑談スレ(23)
2024-10-02 05:56 [sc] プログラミングに詳しくて辛抱強い人来て(34)
2024-09-30 21:47 [sc]

Pythonのお勉強 Part74(320)
2024-09-21 10:14 [sc] Rust part26(800)
2024-09-20 22:18 [sc] DoS攻撃ツール作ろうぜ(26)
2024-09-09 11:53 [sc] 【まず1嫁】くだすれPython(超初心者用) その60(80)
2024-09-01 19:58 [sc] WPF(.NET, WinUI) GUIプログラミング Part33(323)
2024-08-20 21:16 [sc]

おすすめスレッド[ニュース速報板]

立民新人議員にダブル不倫報道、小川幹事長が口頭注意ｗｗｗｗ...(44)
2024-11-14 21:11 [sc] 【正論】山本太郎「本当だったら、中卒高卒でも豊かな暮らしが...(90)
2024-11-14 21:06 [sc] 「フルハウス」のジョーイおじさん　ステージ3のがんを公表 [...(20)
2024-11-14 21:03 [sc] 警視庁闇バイトの首謀者に宣戦布告『お前らはやりすぎた必ず...(36)
2024-11-14 20:58 [sc] 「育児の時間」妻の理想は６・９時間、でも実際は１０時間…夫...(11)
2024-11-14 20:57 [sc]

乗客「駆け込み乗車を注意すんな！お前バス降りろ！降りろや！...(50)
2024-11-14 20:52 [sc] 1回2万5千円貸し付け、1日千円の利息　法定超える利息を払わせ...(18)
2024-11-14 20:50 [sc] 朝日新聞「広まる『こたつ記事』　毎日新聞がなりすましアカウ...(51)
2024-11-14 20:45 [sc] 女子高生にストーカー行為　駅で待ち伏せ、抱きつく　容疑で高...(19)
2024-11-14 20:43 [sc] 政府「子供に読めない名前をつけるのは禁止！」→書きにくい漢...(75)
2024-11-14 20:38 [sc]

速報スレッド

【北海道】猟友会がヒグマ駆除拒否へ　全71支部に通知検討　猟...(71)
2024-11-14 21:26 [sc] 俺「漫画アニメゲームで一番の裏切り者キャラは？」お前ら1「...(11)
2024-11-14 21:25 [sc] 住んでるマンション名晒せwwwwwwwwwwwwwwwwwww(13)
2024-11-14 21:24 [sc] たまごサンドを自分で作るには？(13)
2024-11-14 21:24 [sc] ワタミさん、買収した「サブウェイ」を1000店舗にする構想を発表(10)
2024-11-14 21:23 [sc]

デカ盛り唐揚げ定食食べてきた😋(24)
2024-11-14 21:23 [sc] 今の若い世代が老人になったらどうなんの？(15)
2024-11-14 21:22 [sc] 結局らき☆すたで一番セックスしたい雌って誰なん？(11)
2024-11-14 21:21 [sc] 年収450万なんだけど家賃12万円って無謀？(16)
2024-11-14 21:20 [sc] 一人暮らししたら付き合える確率が跳ね上がるのになんでしない...(18)
2024-11-14 21:20 [sc]