文字コード総合スレ part8 [sc] | レス541-592 | 2ch過去ログ

★お気に入り追加

■ このスレッドは過去ログ倉庫に格納されています

1 2012/11/30(金) 13:16:02.46

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

フリックゾンビ

フリックゾンビ

ここまで見た

541 2013/12/15(日) 04:27:51.02: Encode::Detect::CJK
Unicode::Japanese
CharsetDetector
Lingua::DetectCharset
activeperlで使えるこの4つ総合してもcp1256とkoi8が判別しにくいようだが
ファイル単位でなら80-ff調べれば一目瞭然だね
totalとの差は80-bfの分
cp1256: 0xc0-0xdf:229, 0xe0-0xff:178 total:422
koi8r: 0xc0-0xdf:62356, 0xe0-0xff:976 total:63359.
koi8u: 0xc0-0xdf:6341, 0xe0-0xff:96 total:6455.

Encode::Detect::CJKの判別能力はかなり高い
>>540の不足分(はテストできないのでそれ)以外だと
koi8とcp1256を区別できないのと
big5とiso-2022-cnとcp1251とgb2312とiso-8859-6とiso-8859-11で誤判定がある程度

ちなみに
Encode::First Lingua::ZH::HanDetect Lingua::DetectCyrillic Lingua::RU::Detect Encode::Guess
は使い物にならなかった

ここまで見た

542 2013/12/16(月) 00:10:20.08: 文字コードの判定の"精度" という言い方が引っかかるんだよなぁ。
なんでかって考えてみたら、品質が良くなれば精度があがるみたいな
ことを思ってしまうからかな？精度が悪いものはダメみたいな。

文字コードの判定っていうのは、仕様なんだよね。
あるバイナリ列があったとき、それがAという文字コード、
Bという文字コードの両方の当てはまることはあるんだよ。
こういうのは「AかBの文字コード」というのが正しい答えになる。

この場合にどちらを答えるかというのは、精度の問題ではなく単に仕様でしかないんだよ。
例えば、日本語にしか対応していないやつなら外国の文字コードに
当てはまる場合でも答えないだろう。これは精度ではなく、外国の文字コードに
対応していないという話。考え方によっては、低機能と言える。

多くの文字コードに対応していればいるほど、判定の精度は低くなる。
というか精度ではなく、対応しているものが多いから、
多くの文字コードに当てはまることを正確に教えてくれる。

だから判別能力が高いとか低いじゃなくて
迷った時は○○コードよりの判定をしてくれるとか、
日本語だけしか対応してないから、外国の文字コード
判定されることはないとか、そういう話にしなきゃ。

ここまで見た

543 2013/12/16(月) 00:17:37.68: 1文字で調べても意味ないからね。1文字では正しく判定できたとしても
その文字が含まれている2文字、3文字だったら誤判定することもある。

ここまで見た

544 2013/12/16(月) 00:23:04.91: > Encode::Detect::CJK
> Unicode::Japanese
> CharsetDetector
> Lingua::DetectCharset
> activeperlで使えるこの4つ総合してもcp1256とkoi8が判別しにくいようだが

こういうのもね。ライブラリの精度の問題じゃないんだよ。

cp1256とkoi8が区別しにくいのは、文字の問題。
同じバイナリ列にかぶってるんでしょ？

区別しにくい（誤判定する）のは文字自体の問題で、
それをどのように判定するのは、ライブラリの癖というか仕様。

Encode::Guess が使いものにならないというのは、
Encode::Guess が日本語以外の多くの文字コードに対応していて、
対応しているもの全てを列挙するからだよ。一番正確。

ここまで見た

545 2013/12/16(月) 00:30:43.89: ベイズ推定かな

ここまで見た

546 2013/12/16(月) 00:39:29.90: >>545
うん、そうそう。そういうこと。

結局のところ、文字で判断している以上
それは精度ではなく仕様という話でしか無い。
複数の文字コードで解釈できるというのは事実でしか無いからね。

精度という話をするのなら、文字ではなく文字列、文章として考え、
それがどの文字コードであれば意味が通る文字列、文章として解釈できるか？
っていう話に持っていかないといけない。

まあその場合の精度も、どんな辞書を使っているかって所が
差が出る一番の要因で、アルゴリズム的なところではあまり差は出ないだろうけど。

文字列、文章で判断するのなら高い精度で判定できるようになるけど
1文字だったら誤判定する確率はやっぱり高いだろうな。
その文字をよく使っている文字コードはどれ？という程度の判断基準になるからね。

ここまで見た

547 2013/12/16(月) 05:17:08.56: Encode::Detect::CJKはデフォでcharset指定見てるからで
判断材料にしないようにするとかなり落ちるな

精度に反論してる奴がいるけどさ
実際はとりあえず選択して試してみる必要があるわけで
実用面ではある程度当たればいいわけだよ

Encode::Guess が全てを列挙するというんだけど
それが本当なら良いけど実際列挙しないしな

ここまで見た

548 2013/12/16(月) 07:44:53.21: 用途にも拠るかね。
100%の精度が必要な自動データ処理系か、
ブラウザやエディタのように人の目で判断して文字コードを修正出来るものか、とか。

ここまで見た

549 2013/12/16(月) 08:04:17.71: 組版ソフトだと設定で勝手に換えてくれちゃったりするから、
他のところに持って行くとぐだぐだ

ここまで見た

550 2013/12/16(月) 10:28:46.12: Mac Binary 最強ですねわかります

ここまで見た

551 2013/12/16(月) 23:45:08.75: なんでMac Binaryやめたんだろうね。
糞だったのかな？

ここまで見た

552 2013/12/16(月) 23:49:11.89: >>551
意味分かって喋ってる?

ここまで見た

553 2013/12/17(火) 01:09:41.50: >>552
はい、わかっていますが
言いたいことがあるのならどうぞ。

ここまで見た

554 2013/12/17(火) 11:33:31.15: >>553
MacBinaryはtar等と同様の単なるシリアライズフォーマットだが、
どこが文字コードと関係するのかね？

ここまで見た

555 2013/12/17(火) 22:20:19.60: >>554
Macバイナリの話を始めたのは>>550ですよ？
変なことをいいますね。

ここまで見た

556 2013/12/17(火) 22:28:06.16: >>555
意味分かってないじゃん

ここまで見た

557 2013/12/17(火) 22:46:14.63: これ立てたのお前かよ

Apple固有技術のMac Binaryは復活するべきだと思う
http://anago.2ch.net/test/read.cgi/mac/1387205359/

ここまで見た

558 2013/12/23(月) 20:11:46.30: 検索結果にでてきた
https://groups.google.com/d/forum/emoji-working-group

ここまで見た

559 2013/12/23(月) 22:37:34.34: CNETで絵文字コラムをやってたころのかな
あの連載って完結したんだっけか

ここまで見た

560 2013/12/24(火) 00:20:14.25: 確かに最終回を見た記憶がない

ここまで見た

561 2013/12/24(火) 00:33:36.47: 小形さんの連載の最終回はどれも見たことがないような…

ここまで見た

562 2013/12/24(火) 01:21:06.74: それでも仕事が取れるのか…

ここまで見た

563 2013/12/27(金) 18:44:55.17: 某氏が呟いてた葬り去られるフォントって入札のあれかな

ここまで見た

564 2013/12/29(日) 07:02:40.09: カタカナの「ツ」が海外で顔文字になってるの知ってた？ - ねとらぼ
http://nlab.itmedia.co.jp/nl/articles/1312/20/news111.html
2013年12月20日 15時43分

ここまで見た

565 2013/12/29(日) 12:37:53.32: それ聞いたとき、へー日本語使えるんだぁ、と思った。(´･ω･`)も行っちゃえ〜w

ここまで見た

566 2013/12/30(月) 12:16:35.95: utf-16って一文字で表せる文字と２文字で表せる文字があるらしいじゃないですか？
そういうばあい
char16_t x[2]="一文字で表せない文字"
ってやらないといけないんですか？

ここまで見た

567 2013/12/30(月) 12:27:51.42: サロゲートペアとか結合文字とかIVSでググれ
もっと面倒だから

ここまで見た

568 2013/12/30(月) 14:19:00.60: ユニコードの文字って全種類IMEで出せますか？

ここまで見た

569 2013/12/30(月) 15:02:59.62: 無理。
なぜならUnicodeというのはバージョンアップするものだから。
分かりやすく言えば、今も文字は増えている。

直近だと
2010年10月11日　　Unicode 6.0.0　　109,449文字
2012年1月31日　　Unicode 6.1.0　　110,181文字
2012年9月26日　　Unicode 6.2.0　　110,182文字
2013年9月30日　　Unicode 6.3.0　　110,187文字

更に言うのならIMEでは全種類出す能力はあっても
フォントが用意されていなければ表示されない。
IMEだけの話では解決しない。

ここまで見た

570 2013/12/30(月) 19:07:27.35: フォントあっても表示系が対応せんといかんし。
複数のフォントを組み合わせてできるだけ多くの文字に対応したり。

ここまで見た

571 2013/12/30(月) 20:21:19.41: お前らなら知っているかもしれないと思って質問するんだけど

多角形（三角形、四角形、五角形　…）
星型多角形（五芒星、六芒星）
はキャラクターも英語名もそんざいするけど

1本（ある意味放射状2本）―　｜
2本（ある意味放射状4本）＋ ×
放射状6本(sextile)
http://en.wikipedia.org/wiki/Sextile
はわかるんだけど

↓この図形を何て呼ぶか（和名、英名）誰か知らないかい？
https://i.imgur.com/0gPjO4B.gif

ここまで見た

572 2013/12/30(月) 22:11:43.70: 分位数と同じでよければ
3ならtertile
5ならquintile

ここまで見た

573 2013/12/30(月) 22:17:08.38: 　　　∧_ ∧　　　　喰らえ！
　　（´∀｀　）
　　　（⊃⌒*⌒⊂)
　　　　/__ノ''''ヽ__）

ここまで見た

574 2013/12/30(月) 22:34:45.24: >>572
うーん、sextileから判断して分位数で表しても、「本当にそう呼ぶのか」が疑問ですよね。

占星術でもquintileは別の記号ですよね。
http://en.wikipedia.org/wiki/File:Quintile-symbol.svg

ちなみに前述の記号って文字集合にはあるのかな？

ここまで見た

575 2013/12/30(月) 23:05:35.40: Quintileは天文のでっかいボールドQ
http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Astrology/Glyphs

ここまで見た

576 2013/12/30(月) 23:36:03.83: だからそういうことじゃなくて
https://i.imgur.com/0gPjO4B.gif

この記号は何て呼ぶのかな？っていうことなんだけど…

ここまで見た

577 2013/12/31(火) 00:42:08.90: 左はsplit decision

ここまで見た

578 2013/12/31(火) 01:26:36.37: 大

ここまで見た

579 2013/12/31(火) 10:13:27.57: 文字としては3本のほうはわからないが、5本はアスタリスクのデザイン差と
いうことになってる。Unicodeの例示図形ではU+FE61のsmall asteriskが5本。

ここまで見た

580 2013/12/31(火) 11:01:05.49: 確かに5本はよく見かけるな。

ここまで見た

581 2013/12/31(火) 14:12:49.32: 5本って鶏の足の形のことか？

ここまで見た

582 2014/01/01(水) 02:01:17.54: にわとりって足指5本もあるの？

ここまで見た

583 2014/01/01(水) 02:52:27.08: アスタリスクを文字ビューアで見ると，フォントによって字形がさまざま。
中には８本のものも。Helveticaは５本，Timesの類は５本だったり６本だったり。

ここまで見た

584 2014/01/01(水) 10:11:02.99: 小塚さんも明朝とゴシックで向きが違うのね

ここまで見た

585 2014/01/01(水) 14:00:06.51: あら，ふぉんとだw　安定のヒラギノ

ここまで見た

586 2014/01/01(水) 16:47:01.43: 字にはヒラギノール

ここまで見た

587 2014/01/01(水) 19:16:15.53: >>586
くそ、お前が俺の初笑いだわ

ここまで見た

588 2014/01/01(水) 20:03:36.29: みんな同じこと考えてんだな
https://www.google.co.jp/search?q=%E5%AD%97%E3%81%AB%E3%81%AF%E3%83%92%E3%83%A9%E3%82%AE%E3%83%8E%E3%83%BC%E3%83%AB

ここまで見た

589 2014/01/04(土) 17:27:58.24: Unicodeを送られてLINEを初期化されたんですけど、強力なUnicodeありませんか？
ttp://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q11116062531

ここまで見た

590 2014/01/04(土) 19:02:59.06: 裏技コードみたいなものになってるんだな

ここまで見た

591 2014/01/04(土) 20:39:41.22: https://twitter.com/good_dezaiso

ここまで見た

592

571

2014/01/06(月) 21:11:52.76

結局誰もわからないのかよ…

>>583
欧文書体の世界では
セリフ（明朝体）は６本
サンセリフ（ゴシック体）は５本
が標準のようです。

砂時計アラームタイマー

フリックラーニング

ここまで見た

★お気に入り追加

このページを共有する

おすすめワード

スレッドランキング

1位島田洋七が松本人志復帰説を一蹴…「視聴者は笑えない」「“天才...(381)
2024-11-14 21:39 [sc] 2位「＃さよなら俺たちの松ちゃん」松本人志　訴訟取り下げで見限...(377)
2024-11-14 21:33 [sc] 3位辛坊治郎氏、外食で感じたニッポンの危機「何も乗ってない蕎麦...(249)
2024-11-14 21:11 [sc] 4位【テレビ】BPO　衆院選特番の「裏金」表記、サッカーJ1町田へ...(71)
2024-11-14 20:35 [sc] 5位【サッカー】オーストラリアとサウジアラビアの“直接対決”はス...(175)
2024-11-14 20:34 [sc]

6位【野球】26年WBC予選は台湾と米国で開催　前回Vの日本など16チ...(80)
2024-11-14 20:20 [sc] 7位【NBA】八村塁　男子バスケ日本代表への偽らざる思いを吐露「...(979)
2024-11-14 19:08 [sc] 8位「＃さよなら俺たちの松ちゃん」松本人志　訴訟取り下げで見限...(1001)
2024-11-14 19:04 [sc] 9位【訃報】俳優・神太郎さん死去「食キング！クイズ地球まるかじ...(56)
2024-11-14 18:50 [sc] 10位【野球】西武、FAの大山悠輔と原口文仁のW獲りを画策　後藤オ...(237)
2024-11-14 18:28 [sc]

同一板（プログラム板）のスレッドリスト

高2の授業でアプリを作るんや。案を募集するやで(26)
2024-11-06 06:43 [sc] 【PHP】下らねぇ質問はここに書き込みやがれ 15(32)
2024-10-29 20:52 [sc] AIの執筆した記事(13)
2024-10-10 08:50 [sc] 個人開発者の雑談スレ(23)
2024-10-02 05:56 [sc] プログラミングに詳しくて辛抱強い人来て(34)
2024-09-30 21:47 [sc]

Pythonのお勉強 Part74(320)
2024-09-21 10:14 [sc] Rust part26(800)
2024-09-20 22:18 [sc] DoS攻撃ツール作ろうぜ(26)
2024-09-09 11:53 [sc] 【まず1嫁】くだすれPython(超初心者用) その60(80)
2024-09-01 19:58 [sc] WPF(.NET, WinUI) GUIプログラミング Part33(323)
2024-08-20 21:16 [sc]

おすすめスレッド[アジア速報+板]

common(58)
2023-10-30 17:20 [sc] 浅羽中卒妬み必死なはじうま柴田盗聴ストーカー(23)
2023-10-13 10:43 [sc] 浅羽中卒柴田←爆サイ即レス必死←真性チンカス皮オナ脳(69)
2023-10-04 19:16 [sc] Welcome to the new 'news4plusd' board!(108)
2023-10-01 11:20 [sc] スレ立てテストスレ(100)
2023-09-30 20:07 [sc]

チャンドラヤーン3号成功!(14)
2023-08-23 21:43 [sc] 試しに建ててみるで(54)
2023-08-01 20:19 [sc] ◆毎日保守してほしい！アジア速報＋雑談スレ★(2月7日は北方領...(116)
2023-01-20 18:22 [sc] ◆毎日保守してほしい！アジア速報＋雑談スレ★(中国共産党大会)(101)
2022-10-17 22:48 [sc] ★街中でマスクせずに歩くのは異常？(11)
2022-07-28 22:16 [sc]

速報スレッド

【悲報】この時間のケンモメン、たった11人しかいない [82756...(60)
2024-11-15 04:24 [sc] 外ってコンビニとスーパー以外、基本的に行く意味無くない？ ...(20)
2024-11-15 04:23 [sc] 【Z世代】大学生「Z李さんですか？裏社会の権力者って感じでカ...(20)
2024-11-15 04:20 [sc] 松本人志、ハッシュタグでお別れを告げられる [279254606](40)
2024-11-15 04:05 [sc] 飲酒お爺ちゃん「信号停止中に「イキナリどーん！！」ってバッ...(11)
2024-11-15 03:41 [sc]

お前らの会社って「大学院」に理解あるの？？ [516156383](22)
2024-11-15 03:30 [sc] ViX、璃樹無、真空波動研、午後のこ～だ、WinRAR…若者は...(67)
2024-11-15 03:10 [sc] スーパーの惣菜コーナーに置いてある１パック50えんの天かすの...(58)
2024-11-15 03:06 [sc] 【社会】夢グループ、茨城県内関連施設でエアコン室外機が盗難...(73)
2024-11-15 03:05 [sc] なんかZ李をヤバいやつ扱いしてるやつ笑える(12)
2024-11-15 03:04 [sc]