文字コード総合スレ part8 [sc](★0)
-
- 1
- 2012/11/30(金) 13:16:02.46
-
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
-
- 538
- 2013/12/14(土) 00:35:38.20
-
文字コードの判定の精度を確かめたいのですが
よく使われているテストセットみたいのってありますか?
-
- 539
- 2013/12/14(土) 00:38:42.17
-
>>536
IPAmjフォント専用みたいな感じだから
良くも悪くも一般ユーザーには関係なさそう
-
- 540
- 2013/12/14(土) 01:41:47.13
-
>>538
テスト用にサンプル集めてるところだわ
パスはUTF8で
http://www2.age2.tv/rd2/src/age5249.zip.html
どれもウェブページとかウェブから拾える
KOI7-switched windows-125[2347] IBM-12{61|64|65|68|76} ISO-2022-KR Big5-HKSCS辺りは見つけられてねえ
-
- 541
- 2013/12/15(日) 04:27:51.02
-
Encode::Detect::CJK
Unicode::Japanese
CharsetDetector
Lingua::DetectCharset
activeperlで使えるこの4つ総合してもcp1256とkoi8が判別しにくいようだが
ファイル単位でなら80-ff調べれば一目瞭然だね
totalとの差は80-bfの分
cp1256: 0xc0-0xdf:229, 0xe0-0xff:178 total:422
koi8r: 0xc0-0xdf:62356, 0xe0-0xff:976 total:63359.
koi8u: 0xc0-0xdf:6341, 0xe0-0xff:96 total:6455.
Encode::Detect::CJKの判別能力はかなり高い
>>540の不足分(はテストできないのでそれ)以外だと
koi8とcp1256を区別できないのと
big5とiso-2022-cnとcp1251とgb2312とiso-8859-6とiso-8859-11で誤判定がある程度
ちなみに
Encode::First Lingua::ZH::HanDetect Lingua::DetectCyrillic Lingua::RU::Detect Encode::Guess
は使い物にならなかった
-
- 542
- 2013/12/16(月) 00:10:20.08
-
文字コードの判定の"精度" という言い方が引っかかるんだよなぁ。
なんでかって考えてみたら、品質が良くなれば精度があがるみたいな
ことを思ってしまうからかな?精度が悪いものはダメみたいな。
文字コードの判定っていうのは、仕様なんだよね。
あるバイナリ列があったとき、それがAという文字コード、
Bという文字コードの両方の当てはまることはあるんだよ。
こういうのは「AかBの文字コード」というのが正しい答えになる。
この場合にどちらを答えるかというのは、精度の問題ではなく単に仕様でしかないんだよ。
例えば、日本語にしか対応していないやつなら外国の文字コードに
当てはまる場合でも答えないだろう。これは精度ではなく、外国の文字コードに
対応していないという話。考え方によっては、低機能と言える。
多くの文字コードに対応していればいるほど、判定の精度は低くなる。
というか精度ではなく、対応しているものが多いから、
多くの文字コードに当てはまることを正確に教えてくれる。
だから判別能力が高いとか低いじゃなくて
迷った時は○○コードよりの判定をしてくれるとか、
日本語だけしか対応してないから、外国の文字コード
判定されることはないとか、そういう話にしなきゃ。
-
- 543
- 2013/12/16(月) 00:17:37.68
-
1文字で調べても意味ないからね。1文字では正しく判定できたとしても
その文字が含まれている2文字、3文字だったら誤判定することもある。
-
- 544
- 2013/12/16(月) 00:23:04.91
-
> Encode::Detect::CJK
> Unicode::Japanese
> CharsetDetector
> Lingua::DetectCharset
> activeperlで使えるこの4つ総合してもcp1256とkoi8が判別しにくいようだが
こういうのもね。ライブラリの精度の問題じゃないんだよ。
cp1256とkoi8が区別しにくいのは、文字の問題。
同じバイナリ列にかぶってるんでしょ?
区別しにくい(誤判定する)のは文字自体の問題で、
それをどのように判定するのは、ライブラリの癖というか仕様。
Encode::Guess が使いものにならないというのは、
Encode::Guess が日本語以外の多くの文字コードに対応していて、
対応しているもの全てを列挙するからだよ。一番正確。
-
- 545
- 2013/12/16(月) 00:30:43.89
-
ベイズ推定かな
-
- 546
- 2013/12/16(月) 00:39:29.90
-
>>545
うん、そうそう。そういうこと。
結局のところ、文字で判断している以上
それは精度ではなく仕様という話でしか無い。
複数の文字コードで解釈できるというのは事実でしか無いからね。
精度という話をするのなら、文字ではなく文字列、文章として考え、
それがどの文字コードであれば意味が通る文字列、文章として解釈できるか?
っていう話に持っていかないといけない。
まあその場合の精度も、どんな辞書を使っているかって所が
差が出る一番の要因で、アルゴリズム的なところではあまり差は出ないだろうけど。
文字列、文章で判断するのなら高い精度で判定できるようになるけど
1文字だったら誤判定する確率はやっぱり高いだろうな。
その文字をよく使っている文字コードはどれ?という程度の判断基準になるからね。
-
- 547
- 2013/12/16(月) 05:17:08.56
-
Encode::Detect::CJKはデフォでcharset指定見てるからで
判断材料にしないようにするとかなり落ちるな
精度に反論してる奴がいるけどさ
実際はとりあえず選択して試してみる必要があるわけで
実用面ではある程度当たればいいわけだよ
Encode::Guess が全てを列挙するというんだけど
それが本当なら良いけど実際列挙しないしな
-
- 548
- 2013/12/16(月) 07:44:53.21
-
用途にも拠るかね。
100%の精度が必要な自動データ処理系か、
ブラウザやエディタのように人の目で判断して文字コードを修正出来るものか、とか。
-
- 549
- 2013/12/16(月) 08:04:17.71
-
組版ソフトだと設定で勝手に換えてくれちゃったりするから、
他のところに持って行くとぐだぐだ
-
- 550
- 2013/12/16(月) 10:28:46.12
-
Mac Binary 最強ですねわかります
-
- 551
- 2013/12/16(月) 23:45:08.75
-
なんでMac Binaryやめたんだろうね。
糞だったのかな?
-
- 552
- 2013/12/16(月) 23:49:11.89
-
>>551
意味分かって喋ってる?
-
- 553
- 2013/12/17(火) 01:09:41.50
-
>>552
はい、わかっていますが
言いたいことがあるのならどうぞ。
-
- 554
- 2013/12/17(火) 11:33:31.15
-
>>553
MacBinaryはtar等と同様の単なるシリアライズフォーマットだが、
どこが文字コードと関係するのかね?
-
- 556
- 2013/12/17(火) 22:28:06.16
-
>>555
意味分かってないじゃん
-
- 557
- 2013/12/17(火) 22:46:14.63
-
これ立てたのお前かよ
Apple固有技術のMac Binaryは復活するべきだと思う
http://anago.2ch.net/test/read.cgi/mac/1387205359/
-
- 558
- 2013/12/23(月) 20:11:46.30
-
検索結果にでてきた
https://groups.google.com/d/forum/emoji-working-group
-
- 559
- 2013/12/23(月) 22:37:34.34
-
CNETで絵文字コラムをやってたころのかな
あの連載って完結したんだっけか
-
- 560
- 2013/12/24(火) 00:20:14.25
-
確かに最終回を見た記憶がない
-
- 561
- 2013/12/24(火) 00:33:36.47
-
小形さんの連載の最終回はどれも見たことがないような…
-
- 562
- 2013/12/24(火) 01:21:06.74
-
それでも仕事が取れるのか…
-
- 563
- 2013/12/27(金) 18:44:55.17
-
某氏が呟いてた葬り去られるフォントって入札のあれかな
-
- 564
- 2013/12/29(日) 07:02:40.09
-
カタカナの「ツ」が海外で顔文字になってるの知ってた? - ねとらぼ
http://nlab.itmedia.co.jp/nl/articles/1312/20/news111.html
2013年12月20日 15時43分
-
- 565
- 2013/12/29(日) 12:37:53.32
-
それ聞いたとき、へー日本語使えるんだぁ、と思った。(´・ω・`)も行っちゃえ〜w
-
- 566
- 2013/12/30(月) 12:16:35.95
-
utf-16って一文字で表せる文字と2文字で表せる文字があるらしいじゃないですか?
そういうばあい
char16_t x[2]="一文字で表せない文字"
ってやらないといけないんですか?
-
- 567
- 2013/12/30(月) 12:27:51.42
-
サロゲートペアとか結合文字とかIVSでググれ
もっと面倒だから
-
- 568
- 2013/12/30(月) 14:19:00.60
-
ユニコードの文字って全種類IMEで出せますか?
-
- 569
- 2013/12/30(月) 15:02:59.62
-
無理。
なぜならUnicodeというのはバージョンアップするものだから。
分かりやすく言えば、今も文字は増えている。
直近だと
2010年10月11日 Unicode 6.0.0 109,449文字
2012年1月31日 Unicode 6.1.0 110,181文字
2012年9月26日 Unicode 6.2.0 110,182文字
2013年9月30日 Unicode 6.3.0 110,187文字
更に言うのならIMEでは全種類出す能力はあっても
フォントが用意されていなければ表示されない。
IMEだけの話では解決しない。
-
- 570
- 2013/12/30(月) 19:07:27.35
-
フォントあっても表示系が対応せんといかんし。
複数のフォントを組み合わせてできるだけ多くの文字に対応したり。
-
- 571
- 2013/12/30(月) 20:21:19.41
-
お前らなら知っているかもしれないと思って質問するんだけど
多角形(三角形、四角形、五角形 …)
星型多角形(五芒星、六芒星)
はキャラクターも英語名もそんざいするけど
1本(ある意味放射状2本)― |
2本(ある意味放射状4本) + ×
放射状6本(sextile)
http://en.wikipedia.org/wiki/Sextile
はわかるんだけど
↓この図形を何て呼ぶか(和名、英名)誰か知らないかい?
https://i.imgur.com/0gPjO4B.gif
-
- 572
- 2013/12/30(月) 22:11:43.70
-
分位数と同じでよければ
3ならtertile
5ならquintile
-
- 573
- 2013/12/30(月) 22:17:08.38
-
∧_ ∧ 喰らえ!
(´∀` )
(⊃⌒*⌒⊂)
/__ノ''''ヽ__)
-
- 574
- 2013/12/30(月) 22:34:45.24
-
>>572
うーん、sextileから判断して分位数で表しても、「本当にそう呼ぶのか」が疑問ですよね。
占星術でもquintileは別の記号ですよね。
http://en.wikipedia.org/wiki/File:Quintile-symbol.svg
ちなみに前述の記号って文字集合にはあるのかな?
-
- 575
- 2013/12/30(月) 23:05:35.40
-
Quintileは天文のでっかいボールドQ
http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Astrology/Glyphs
-
- 576
- 2013/12/30(月) 23:36:03.83
-
だからそういうことじゃなくて
https://i.imgur.com/0gPjO4B.gif
この記号は何て呼ぶのかな?っていうことなんだけど…
-
- 577
- 2013/12/31(火) 00:42:08.90
-
左はsplit decision
-
- 578
- 2013/12/31(火) 01:26:36.37
-
大
-
- 579
- 2013/12/31(火) 10:13:27.57
-
文字としては3本のほうはわからないが、5本はアスタリスクのデザイン差と
いうことになってる。Unicodeの例示図形ではU+FE61のsmall asteriskが5本。
-
- 580
- 2013/12/31(火) 11:01:05.49
-
確かに5本はよく見かけるな。
-
- 581
- 2013/12/31(火) 14:12:49.32
-
5本って鶏の足の形のことか?
-
- 582
- 2014/01/01(水) 02:01:17.54
-
にわとりって足指5本もあるの?
-
- 584
- 2014/01/01(水) 10:11:02.99
-
小塚さんも明朝とゴシックで向きが違うのね
-
- 585
- 2014/01/01(水) 14:00:06.51
-
あら,ふぉんとだw 安定のヒラギノ
-
- 586
- 2014/01/01(水) 16:47:01.43
-
字にはヒラギノール
-
- 587
- 2014/01/01(水) 19:16:15.53
-
>>586
くそ、お前が俺の初笑いだわ
-
- 588
- 2014/01/01(水) 20:03:36.29
-
みんな同じこと考えてんだな
https://www.google.co.jp/search?q=%E5%AD%97%E3%81%AB%E3%81%AF%E3%83%92%E3%83%A9%E3%82%AE%E3%83%8E%E3%83%BC%E3%83%AB
このページを共有する
おすすめワード