facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 1
  •  
  • 2012/11/30(金) 13:16:02.46
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た
  • 57
  •  
  • 2013/01/08(火) 21:03:09.32
JIS Z 8903廃止なのね

ここまで見た
  • 58
  •  
  • 2013/01/09(水) 07:20:34.61
ああYさんとこね

変体仮名字形の入札、濁点/半濁点つき字形のことを忘れているような

ここまで見た
  • 59
  •  
  • 2013/01/09(水) 16:28:46.12
>>59
戸籍にも住基にも濁点/半濁点付き変体仮名は無いから
とりあえず最初のうちは作らないみたい
でも今後どうするかは謎

ここまで見た
  • 60
  •  
  • 2013/01/09(水) 16:30:30.81
>>59
自分自身を指してしまったorz

ここまで見た
  • 61
  •  
  • 2013/01/09(水) 22:23:43.57
そうなのか…じゃあ本当に行政専用になりそうだな

ここまで見た
  • 62
  •  
  • 2013/01/11(金) 00:54:51.84
合成でなんとかしろって事ではないのかな。
アイヌ語の表現みたいに。

ここまで見た
  • 63
  •  
  • 2013/01/11(金) 02:03:45.26
欧文のストロークみたいな感じで

ここまで見た
  • 64
  •  
  • 2013/01/12(土) 01:02:43.90
>>63
kwsk

ここまで見た
  • 65
  •  
  • 2013/01/13(日) 09:21:45.76
ふむ

ここまで見た
  • 66
  •  
  • 2013/01/14(月) 22:23:13.81
ほう

ここまで見た
  • 67
  •  
  • 2013/01/14(月) 23:00:03.96
すべてが順調にいったとしても
使えるようになるのは2015年頃かのう

ここまで見た
  • 68
  •  
  • 2013/01/16(水) 15:44:53.71
拡張Fきてるし

ここまで見た
  • 69
  •  
  • 2013/01/16(水) 18:54:26.26
irgはいつの頃からか記念写真やめちゃったのね

ここまで見た
  • 70
  •  
  • 2013/01/19(土) 00:08:29.61
Ext Fまで来ると、もうIPAmjとGlyphWikiくらいしか
実装されないんじゃなかろーか

ここまで見た
  • 71
  •  
  • 2013/01/19(土) 23:36:28.62
ExtFどこにきてるの

ここまで見た
  • 72
  •  
  • 2013/01/20(日) 07:02:56.46
あなたのうしろよ

ここまで見た
  • 73
  •  
  • 2013/01/20(日) 21:41:44.70
中国語の漢字もう疲れた... 偏が簡体になったやつがやたらコードポイントを
消費しているような。
もう簡体と繁体もunifyすればよかったんじゃんw

ここまで見た
  • 74
  •  
  • 2013/01/20(日) 23:15:17.97
繁体:簡体が多対一で対応してるのとかへのルール作りを考えるとユニるのがめんどくさい

ここまで見た
  • 75
  •  
  • 2013/01/20(日) 23:26:09.98
Ext.Fどこで見られる?

ここまで見た
  • 76
  •  
  • 2013/01/23(水) 00:14:21.88
unicode とか JIS X 0208 だと、ASCII文字(記号含む)の全角版って、互換性維持の為にあるものだよね?
JIS X 0208 だと、ほぼ使うなと同等なことが書いてあるけど、
今の unicode standard だと使っても全然問題ないみたいに書いてある。

現実的に、フォントと多くの表示環境では、レンダリングされるときのマージンとかスペーシングを考えると、
日本語を書くときは全角を使った方が見栄えが良くなると思う。
ASCII文字の全角版を使わないという選択はとれないんではないの?

日本人は分かち書きなんてしないから、マージンとかスペーシングを気にしないのかもしれないが、
ラテン文字を使う外国人はマージン・スペーシングに関して全角の方が見栄えがいいから、
unicode standard で禁止されてないし、全角文字を使う風潮が流行るんではないかな。このままほっとくと。

実際、CJK文字を含むテキストで何で半角記号(括弧とか、&とか))を使うのか?全角記号を使うべきではって外国人に言われたし。
まともな反論できなかったわ。

ここまで見た
  • 77
  •  
  • 2013/01/23(水) 00:32:25.32
英数字に全角文字使えよ

ここまで見た
  • 78
  •  
  • 2013/01/23(水) 00:40:31.84
>>77
まあ、日本語で書くときの話をしてるから。それに解決になってないし。

追記しとくと、
(日本語)
みたいに全角括弧でくくった場合、括弧の前後にマージンがあるフォントとないフォントがあると思う。
これを半角にしてしまうと、ほとんどのフォントでマージンがないから、前後に空白文字を入れないと、マージンが無くなってしまう。
これが見た目に影響してしまうんだよね。

また、縦書きの場合に
おしっこ&うんこ
みたいに書くと、全角&は正立するが、半角&は90度回転する環境がほとんどだと思う。(?!とかもそうかもね)
じゃあ、CJKだと普通の文字は正立するから、全角で書かないといけないよねってことになる。
今すぐ役に立つものを作る場合は、規格より、現実を優先させないといけないしなぁ。

っつーか、なんでunicodeの互換エリアって使っても問題ないみたいになってしまったんだ?

ここまで見た
  • 79
  •  
  • 2013/01/23(水) 01:01:38.61
>>78
全角って単にコードの話で、
マージンやスペーシングがどうかなんて規定されてないだろ。
横幅が半分でもコードが全角ならそれは全角だよ。

ここまで見た
  • 80
  •  
  • 2013/01/23(水) 01:15:32.71
>>79
そりゃそうだけど、じゃあどうするべきなの?
俺はマージンとか縦書きの時の配置はレンダラが適切に処理しろと思うけど、
現実PCの表示環境でそんなの気にしてないし。

フォント制作者も文字の効用に合わせて作ってるんだろ?
半角と全角でグリフもマージンとかも全く同じフォントなんてほとんど無いし。

現実に合わせても将来がない上に、規格にそってもまともなレンダリングがされない現状って。

ここまで見た
  • 81
  •  
  • 2013/01/23(水) 07:33:02.14
NEC PC-98シリーズには、2バイト半角文字がある。

ここまで見た
  • 82
  •  
  • 2013/01/23(水) 08:00:06.14
括弧とかは全角版を「スペースが予め含まれた括弧」みたいに再定義しておくべきだったかもしれんね。

ここまで見た
  • 83
  •  
  • 2013/01/23(水) 12:42:32.90
縦書きの時に何を正立させて何を回転させるかは今UTR50でやってる。
もっとも、外野が口を突っ込みすぎて座礁しかかってるけど。

ここまで見た
  • 84
  •  
  • 2013/01/23(水) 13:40:47.76
どうせSJIS⇔Unicode変換には演算入るんだから英数やキリルのJIS全角文字はダイアクリティカルマーク様にコンバインで収録すべきだった

ここまで見た
  • 85
  •  
  • 2013/01/23(水) 14:13:01.99
East Asian WidthがAmbiguousなやつどうすんだよって問題も未だ解決されてないし
どんなとき縦中横にするのかとか文字コードだけで解決できる問題とは思えないよな

ここまで見た
  • 86
  •  
  • 2013/01/23(水) 15:05:26.83
>>80
それは単にあんたの使ってる環境やフォントの機能不足だろ。
>半角と全角でグリフもマージンとかも全く同じフォントなんてほとんど無いし。
ヒラギノは文字幅の設定8種類持ってて切替えられる。
OSX上でプロポーショナルにも全角/半角側に統一とかも設定次第で好きにできる。

ここまで見た
  • 87
  •  
  • 2013/01/23(水) 16:45:24.79
「AAAAAA」が全く同じ文字の連続に見えるようなフォントって話だと思ってたけど
OSX+ヒラギノの環境ではそれが可能ってことであってる?

ここまで見た
  • 88
  •  
  • 2013/01/23(水) 17:14:59.80
>>87
そう、OpenTypeの機能。
OSXは標準のテキストエンジンでサポートしてる。
他のプラットフォームでも真面目にサポートしてれば使える。

ここまで見た
  • 89
  •  
  • 2013/01/23(水) 17:43:27.76
WinだとDirectWriteでやることになるのかな

ここまで見た
  • 90
  •  
  • 2013/01/23(水) 17:56:57.04
同じ文字には同じコードを割り当てるべきだと思うの

ここまで見た
  • 91
  •  
  • 2013/01/23(水) 18:44:14.32
あれ、なんか話題のレベルが落ちてきてない?

ここまで見た
  • 92
  •  
  • 2013/01/23(水) 19:20:18.78
ンとソのちがいは、日本人ならわかるけど
カタカナのベ
ひらがなのべのちがいは、日本人でもわからん

ここまで見た
  • 93
  •  
  • 2013/01/23(水) 19:23:02.00
シとツのちがい
うとラのちがい

ここまで見た
  • 94
  •  
  • 2013/01/23(水) 19:27:37.37
>>93
これだね
http://livedoor.blogimg.jp/conbul/imgs/9/7/97efb758.gif

ここまで見た
  • 95
  •  
  • 2013/01/23(水) 21:38:01.20
>>92
何故へとヘではなくべとベなのか

ここまで見た
  • 96
  •  
  • 2013/01/24(木) 01:29:41.99
>>86
OSXは使った事ないし知らなかったわ。すまん。
その外国人もマックユーザっぽいから、そういう風なレンダリングできるのを自分で見れば納得するかも。
You & I も あなた&わたし も ひろゆき(2ch管理人) も hirokyuki (the founder of 2ch) も
前後の文字を見て適切な字形とマージンを自動選択できる表示ソフトがあるってことだよね。
その外国人は上みたいな文字列を適切に表示させることが出来る環境なんて見たことないって言ってたから、
なにか適切な設定してやらないといけないってことかな。どうすればうまく表示させられるの?

ここまで見た
  • 97
  •  
  • 2013/01/24(木) 04:29:08.26
Unicode Consortiumの内部文書へのパスワードを解除するって
ものすごい決断だなあ。これまで水面下でしてきたことも
これからすることもすべて丸裸か…

ここまで見た
  • 98
  •  
  • 2013/01/24(木) 05:26:08.43
>>90
思うね。ふたつあるΩに、つい「オメーガ悪い!」と叫んじまったぜぃ

ここまで見た
  • 99
  •  
  • 2013/01/24(木) 13:30:47.01
ユニコードは日中韓の同じ文字に同じコードを割り当てた所に問題が有った訳だが・・・

ここまで見た
  • 100
  •  
  • 2013/01/24(木) 15:05:11.07
iモードはなぜJIS X 0208にすでにある♪を絵文字に追加したのかw

ここまで見た
  • 101
  •  
  • 2013/01/24(木) 17:40:08.34
http://www.nttdocomo.co.jp/service/communication/imode_mail/function/pictograph/
「るんるん」であって八分音符じゃないから
まあ意味も同じな「!」まで追加してるし色つけたいとかアイコンのかわりに使いたいとか
絵文字の水増ししたいとかそういう理由なんだろうな
どちらかといえば「黒ハート(赤)」のほうが納得いかないし

ここまで見た
  • 102
  •  
  • 2013/01/24(木) 18:28:41.15
絵文字なんて、ミクシィみたく数値参照みたいな形式でいいのに。
なんでコードポイントなんか与える必要があるんだよ。

ここまで見た
  • 103
  •  
  • 2013/01/24(木) 20:38:24.03
絵文字は、排除すべきだ

ここまで見た
  • 104
  •  
  • 2013/01/24(木) 21:39:41.69
無理です

ここまで見た
  • 105
  •  
  • 2013/01/24(木) 21:47:40.50
使うものだけを各自subset化する

ここまで見た
  • 106
  •  
  • 2013/01/25(金) 06:30:50.06
>>103
排除はどうかと思うが、
Unicodeに日本の3キャリアのみの変換テーブルねじ込んだのは許せん
しかも往復できないし

ここまで見た
  • 107
  •  
  • 2013/01/25(金) 09:59:10.09
>しかも往復できないし

ここだよね。

キャリアの絵文字相互変換はぶっちゃけ「なんとなくこんな感じだよね」レベルなんだから、
ユニコード収録のタイミングで半ば強引に整理して、
キャリアのサーバー側を“権威ある国際規格”にあわせるべきだった。

中の人も「後世まで残すとわかってたらもっとマジメに作ったのに」って思っただろ絶対。

ここまで見た
  • 108
  •  
  • 2013/01/25(金) 10:38:04.63
各キャリアの私用領域絵文字は緩やかに廃止して
全部画像ベースのデコメ絵文字に移行すれば何も問題なかったのに
文字コードオタクが調子に乗るから

砂時計アラームタイマー
フリックラーニング
ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード