facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 1
  •  
  • 2012/11/30(金) 13:16:02.46
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た
  • 545
  •  
  • 2013/12/16(月) 00:30:43.89
ベイズ推定かな

ここまで見た
  • 546
  •  
  • 2013/12/16(月) 00:39:29.90
>>545
うん、そうそう。そういうこと。

結局のところ、文字で判断している以上
それは精度ではなく仕様という話でしか無い。
複数の文字コードで解釈できるというのは事実でしか無いからね。

精度という話をするのなら、文字ではなく文字列、文章として考え、
それがどの文字コードであれば意味が通る文字列、文章として解釈できるか?
っていう話に持っていかないといけない。

まあその場合の精度も、どんな辞書を使っているかって所が
差が出る一番の要因で、アルゴリズム的なところではあまり差は出ないだろうけど。

文字列、文章で判断するのなら高い精度で判定できるようになるけど
1文字だったら誤判定する確率はやっぱり高いだろうな。
その文字をよく使っている文字コードはどれ?という程度の判断基準になるからね。

ここまで見た
  • 547
  •  
  • 2013/12/16(月) 05:17:08.56
Encode::Detect::CJKはデフォでcharset指定見てるからで
判断材料にしないようにするとかなり落ちるな

精度に反論してる奴がいるけどさ
実際はとりあえず選択して試してみる必要があるわけで
実用面ではある程度当たればいいわけだよ

Encode::Guess が全てを列挙するというんだけど
それが本当なら良いけど実際列挙しないしな

ここまで見た
  • 548
  •  
  • 2013/12/16(月) 07:44:53.21
用途にも拠るかね。
100%の精度が必要な自動データ処理系か、
ブラウザやエディタのように人の目で判断して文字コードを修正出来るものか、とか。

ここまで見た
  • 549
  •  
  • 2013/12/16(月) 08:04:17.71
組版ソフトだと設定で勝手に換えてくれちゃったりするから、
他のところに持って行くとぐだぐだ

ここまで見た
  • 550
  •  
  • 2013/12/16(月) 10:28:46.12
Mac Binary 最強ですねわかります

ここまで見た
  • 551
  •  
  • 2013/12/16(月) 23:45:08.75
なんでMac Binaryやめたんだろうね。
糞だったのかな?

ここまで見た
  • 552
  •  
  • 2013/12/16(月) 23:49:11.89
>>551
意味分かって喋ってる?

ここまで見た
  • 553
  •  
  • 2013/12/17(火) 01:09:41.50
>>552
はい、わかっていますが
言いたいことがあるのならどうぞ。

ここまで見た
  • 554
  •  
  • 2013/12/17(火) 11:33:31.15
>>553
MacBinaryはtar等と同様の単なるシリアライズフォーマットだが、
どこが文字コードと関係するのかね?

ここまで見た
  • 555
  •  
  • 2013/12/17(火) 22:20:19.60
>>554
Macバイナリの話を始めたのは>>550ですよ?
変なことをいいますね。

ここまで見た
  • 556
  •  
  • 2013/12/17(火) 22:28:06.16
>>555
意味分かってないじゃん

ここまで見た
  • 557
  •  
  • 2013/12/17(火) 22:46:14.63
これ立てたのお前かよ

Apple固有技術のMac Binaryは復活するべきだと思う
http://anago.2ch.net/test/read.cgi/mac/1387205359/

ここまで見た
  • 558
  •  
  • 2013/12/23(月) 20:11:46.30
検索結果にでてきた
https://groups.google.com/d/forum/emoji-working-group

ここまで見た
  • 559
  •  
  • 2013/12/23(月) 22:37:34.34
CNETで絵文字コラムをやってたころのかな
あの連載って完結したんだっけか

ここまで見た
  • 560
  •  
  • 2013/12/24(火) 00:20:14.25
確かに最終回を見た記憶がない

ここまで見た
  • 561
  •  
  • 2013/12/24(火) 00:33:36.47
小形さんの連載の最終回はどれも見たことがないような…

ここまで見た
  • 562
  •  
  • 2013/12/24(火) 01:21:06.74
それでも仕事が取れるのか…

ここまで見た
  • 563
  •  
  • 2013/12/27(金) 18:44:55.17
某氏が呟いてた葬り去られるフォントって入札のあれかな

ここまで見た
  • 564
  •  
  • 2013/12/29(日) 07:02:40.09
カタカナの「ツ」が海外で顔文字になってるの知ってた? - ねとらぼ
http://nlab.itmedia.co.jp/nl/articles/1312/20/news111.html
2013年12月20日 15時43分

ここまで見た
  • 565
  •  
  • 2013/12/29(日) 12:37:53.32
それ聞いたとき、へー日本語使えるんだぁ、と思った。(´・ω・`)も行っちゃえ〜w

ここまで見た
  • 566
  •  
  • 2013/12/30(月) 12:16:35.95
utf-16って一文字で表せる文字と2文字で表せる文字があるらしいじゃないですか?
そういうばあい
char16_t x[2]="一文字で表せない文字"
ってやらないといけないんですか?

ここまで見た
  • 567
  •  
  • 2013/12/30(月) 12:27:51.42
サロゲートペアとか結合文字とかIVSでググれ
もっと面倒だから

ここまで見た
  • 568
  •  
  • 2013/12/30(月) 14:19:00.60
ユニコードの文字って全種類IMEで出せますか?

ここまで見た
  • 569
  •  
  • 2013/12/30(月) 15:02:59.62
無理。
なぜならUnicodeというのはバージョンアップするものだから。
分かりやすく言えば、今も文字は増えている。

直近だと
2010年10月11日  Unicode 6.0.0  109,449文字
2012年1月31日  Unicode 6.1.0  110,181文字
2012年9月26日  Unicode 6.2.0  110,182文字
2013年9月30日  Unicode 6.3.0  110,187文字

更に言うのならIMEでは全種類出す能力はあっても
フォントが用意されていなければ表示されない。
IMEだけの話では解決しない。

ここまで見た
  • 570
  •  
  • 2013/12/30(月) 19:07:27.35
フォントあっても表示系が対応せんといかんし。
複数のフォントを組み合わせてできるだけ多くの文字に対応したり。

ここまで見た
  • 571
  •  
  • 2013/12/30(月) 20:21:19.41
お前らなら知っているかもしれないと思って質問するんだけど

多角形(三角形、四角形、五角形 …)
星型多角形(五芒星、六芒星)
はキャラクターも英語名もそんざいするけど

1本(ある意味放射状2本)― |
2本(ある意味放射状4本) + ×
放射状6本(sextile)
http://en.wikipedia.org/wiki/Sextile
はわかるんだけど

↓この図形を何て呼ぶか(和名、英名)誰か知らないかい?
https://i.imgur.com/0gPjO4B.gif


ここまで見た
  • 572
  •  
  • 2013/12/30(月) 22:11:43.70
分位数と同じでよければ
3ならtertile
5ならquintile

ここまで見た
  • 573
  •  
  • 2013/12/30(月) 22:17:08.38
   ∧_ ∧    喰らえ!
  (´∀` )
    (⊃⌒*⌒⊂)
     /__ノ''''ヽ__)

ここまで見た
  • 574
  •  
  • 2013/12/30(月) 22:34:45.24
>>572
うーん、sextileから判断して分位数で表しても、「本当にそう呼ぶのか」が疑問ですよね。

占星術でもquintileは別の記号ですよね。
http://en.wikipedia.org/wiki/File:Quintile-symbol.svg

ちなみに前述の記号って文字集合にはあるのかな?

ここまで見た
  • 575
  •  
  • 2013/12/30(月) 23:05:35.40
Quintileは天文のでっかいボールドQ
http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Astrology/Glyphs

ここまで見た
  • 576
  •  
  • 2013/12/30(月) 23:36:03.83
だからそういうことじゃなくて
https://i.imgur.com/0gPjO4B.gif

この記号は何て呼ぶのかな?っていうことなんだけど…

ここまで見た
  • 577
  •  
  • 2013/12/31(火) 00:42:08.90
左はsplit decision

ここまで見た
  • 578
  •  
  • 2013/12/31(火) 01:26:36.37


ここまで見た
  • 579
  •  
  • 2013/12/31(火) 10:13:27.57
文字としては3本のほうはわからないが、5本はアスタリスクのデザイン差と
いうことになってる。Unicodeの例示図形ではU+FE61のsmall asteriskが5本。

ここまで見た
  • 580
  •  
  • 2013/12/31(火) 11:01:05.49
確かに5本はよく見かけるな。

ここまで見た
  • 581
  •  
  • 2013/12/31(火) 14:12:49.32
5本って鶏の足の形のことか?

ここまで見た
  • 582
  •  
  • 2014/01/01(水) 02:01:17.54
にわとりって足指5本もあるの?

ここまで見た
  • 583
  • 2014/01/01(水) 02:52:27.08
アスタリスクを文字ビューアで見ると,フォントによって字形がさまざま。
中には8本のものも。Helveticaは5本,Timesの類は5本だったり6本だったり。

ここまで見た
  • 584
  •  
  • 2014/01/01(水) 10:11:02.99
小塚さんも明朝とゴシックで向きが違うのね

ここまで見た
  • 585
  •  
  • 2014/01/01(水) 14:00:06.51
あら,ふぉんとだw 安定のヒラギノ

ここまで見た
  • 586
  •  
  • 2014/01/01(水) 16:47:01.43
字にはヒラギノール

ここまで見た
  • 587
  •  
  • 2014/01/01(水) 19:16:15.53
>>586
くそ、お前が俺の初笑いだわ

ここまで見た
  • 588
  •  
  • 2014/01/01(水) 20:03:36.29
みんな同じこと考えてんだな
https://www.google.co.jp/search?q=%E5%AD%97%E3%81%AB%E3%81%AF%E3%83%92%E3%83%A9%E3%82%AE%E3%83%8E%E3%83%BC%E3%83%AB

ここまで見た
  • 589
  •  
  • 2014/01/04(土) 17:27:58.24
Unicodeを送られてLINEを初期化されたんですけど、強力なUnicodeありませんか?
ttp://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q11116062531

ここまで見た
  • 590
  •  
  • 2014/01/04(土) 19:02:59.06
裏技コードみたいなものになってるんだな

ここまで見た
  • 591
  •  
  • 2014/01/04(土) 20:39:41.22
https://twitter.com/good_dezaiso

ここまで見た
  • 592
  • 571
  • 2014/01/06(月) 21:11:52.76
結局誰もわからないのかよ…

>>583
欧文書体の世界では
セリフ(明朝体)は6本
サンセリフ(ゴシック体)は5本
が標準のようです。

ここまで見た
  • 593
  •  
  • 2014/01/06(月) 22:15:37.37
記号じゃなく図形聞きたいのかね

ここまで見た
  • 594
  • 571
  • 2014/01/06(月) 22:24:24.27
記号でも図形でも名称があるかどうかが知りたいのですよ。

自分で勝手に名づけても通用しないわけでしょ?

ここまで見た
  • 595
  •  
  • 2014/01/07(火) 00:56:31.16
おれはそもそも詳しくないからあれなんだけど、
たとえ知ってる人がいてもきっと質問意図を測りかねてると思うんだな。

画像の図形を本か何かで見たのならもっと具体的に文脈を明らかにしたほうが助けになると思うし、
あるいは「こういう形の図形って世界のどこかにあるのかなあ?」という素朴な疑問なのか。

ここまで見た
  • 596
  • 571
  • 2014/01/07(火) 01:19:41.54
質問の意図としては
同じ長さの棒が一点から等角度で4本放射状に棒が出ている「十字」
同じ長さの棒が一点から等角度で6本放射状に棒が出ている「セクスタイル」
があるのだから3本、5本なども記号として存在して名称があるのではないかと思ったのです。
https://i.imgur.com/0gPjO4B.gif

この図はPohotshopで自分で描いたので引用元の図書などはありません。

砂時計アラームタイマー
フリックラーニング
ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード