facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 1
  •  
  • 2012/11/30(金) 13:16:02.46
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た
  • 161
  •  
  • 2013/02/22(金) 19:37:59.78
>>160
マイクロソフトの中の人?

ここまで見た
  • 162
  •  
  • 2013/02/22(金) 19:40:00.44
それっぽいね。同姓同名の他人じゃなければ

ここまで見た
  • 163
  •  
  • 2013/02/23(土) 01:49:18.18
00089も00091もコメントついてるけど
何かやり取りがちぐはぐな気が

ここまで見た
  • 164
  •  
  • 2013/02/23(土) 15:04:59.97
うむ

ここまで見た
  • 165
  •  
  • 2013/02/23(土) 18:05:17.50
>>147
ありがとうございます。
FontForge(fontforge-cygwin_2012_08_02)をインストールしてみました。
Webで調べて、フォントからフォントへのコピーの方法は分かったのですが
保存しても0バイトになってしまい、ただいま格闘中です。

ここまで見た
  • 166
  •  
  • 2013/02/23(土) 18:15:58.01
セキュリティで言えば高木先生に相当するのがその安岡って人?

ここまで見た
  • 167
  •  
  • 2013/02/23(土) 18:31:33.20
半年ROMれ

ここまで見た
  • 168
  •  
  • 2013/02/23(土) 21:31:22.08
あまり深く考えたことなかったけど
東アジア人文情報学研究センターって何なんだろうな
図書館の凄い版?

ここまで見た
  • 169
  •  
  • 2013/02/24(日) 16:48:38.49
Unicode IVS/IVD入門 ―JIS規格の歴史、異体字問題の解説から、Windows 8での対応方法まで
とかいう本がでるらしいのだが

これは買いですか?糞ですか?

ここまで見た
  • 170
  •  
  • 2013/02/24(日) 17:12:09.85
「UnicodeによるJIS X0213実装入門」の続編みたいな内容でしょ。
新たに加わった著者はUnicodeの人だよね。

ここまで見た
  • 171
  •  
  • 2013/02/24(日) 17:21:41.13
Unicode対応って言うか
Windowsは早くシステムロケール
UTF8に対応してケロ

ここまで見た
  • 172
  •  
  • 2013/02/24(日) 17:54:27.91
コマンドプロンプトはutf-8を選べるようになったの?

ここまで見た
  • 173
  •  
  • 2013/02/24(日) 18:05:47.70
(´‥∀‥`)ほう

ここまで見た
  • 174
  •  
  • 2013/02/24(日) 19:26:36.90
>>172
ttp://fine.ap.teacup.com/hepo/30.html

ここまで見た
  • 175
  •  
  • 2013/02/24(日) 19:48:59.90
>>171
むりぽ
blogs.msdn.com/b/michkap/archive/2006/10/11/816996.aspx

ここまで見た
  • 176
  •  
  • 2013/02/24(日) 19:54:52.45
今出来ないのはわかるけど
将来にわたって無理?

ここまで見た
  • 177
  •  
  • 2013/02/24(日) 20:32:51.83
最後の一節はかなり悲観的ですなあ
7年前の記事ではあるけど

ここまで見た
  • 178
  •  
  • 2013/02/25(月) 08:15:24.93
別に全部サポートせんでも
UTF8にする選択肢だけ
用意すりゃええが

ここまで見た
  • 179
  •  
  • 2013/02/25(月) 19:19:03.04
UTF-8にしたら、サイズが1.5倍になるんでしょ。アホかとおもう

ここまで見た
  • 180
  •  
  • 2013/02/25(月) 21:34:04.45
Unicode使いたくてWindows使ってる人は何かの修行ですか?
posixサポートも廃止なんだからUTF-8サポートなんて絶望的だろ。

ここまで見た
  • 181
  •  
  • 2013/02/25(月) 21:43:58.01
Windowsはコンソールを完全にUTF-16仕様にしてくれるだけでいいんだけどな
SJISはcommand.comで対応することにして

ここまで見た
  • 182
  •  
  • 2013/02/25(月) 22:01:45.41
というかいい加減にShift JIS捨てろとw

ここまで見た
  • 183
  •  
  • 2013/02/25(月) 22:09:34.90
とりあえずcygwinで満足する努力が必要。

ここまで見た
  • 184
  •  
  • 2013/02/25(月) 22:11:30.84
Shift_JISですらないよ、未だにWindows-31J
文字化けするのはUnicode使う方が悪いw

ここまで見た
  • 185
  •  
  • 2013/02/26(火) 02:35:23.96
マジ同感。
文字化けはWindwosのせい

ここまで見た
  • 186
  • 146
  • 2013/02/26(火) 22:22:56.55
>>147
できました!ありがとうございました!

ここまで見た
  • 187
  •  
  • 2013/02/26(火) 22:48:20.68
minttyいいね

ここまで見た
  • 188
  •  
  • 2013/02/28(木) 22:10:27.25
JEFのコードブックって
まだ手に入るの?

ここまで見た
  • 189
  •  
  • 2013/03/08(金) 22:20:35.27
(´・ω・`)?

ここまで見た
  • 190
  •  
  • 2013/03/25(月) 15:59:14.92
変体仮名グリフの納入が終わったはずだが、さて。

ここまで見た
  • 191
  •  
  • 2013/03/27(水) 23:17:38.52
和文モールスと武雄市図書館が
つながるとは思わんかった

ここまで見た
  • 192
  •  
  • 2013/04/01(月) 16:40:23.23
住基文字完全変更って大変だな
http://slashdot.jp/story/13/03/31/163258/

ここまで見た
  • 193
  •  
  • 2013/04/01(月) 17:35:25.64
4/1やっていいのは午前中までだ

ここまで見た
  • 194
  •  
  • 2013/04/01(月) 22:34:59.80
スラドなんて年中エイプリルフールだろ

ここまで見た
  • 195
  •  
  • 2013/04/01(月) 22:41:06.50
失礼な
昔の東スポよりマシだぞ

ここまで見た
  • 196
  •  
  • 2013/04/03(水) 09:37:09.74
エイプリルフールじゃなかったのか?

>住基ネットで文字化け 231市町村の1万人分 プログラムミス
http://www.asahi.com/shimen/articles/TKY201304020675.html

ここまで見た
  • 197
  •  
  • 2013/04/03(水) 11:09:33.32
今気付いたが今月はもう4月じゃないか

ここまで見た
  • 198
  •  
  • 2013/04/03(水) 12:37:39.49
原発事故で行政はどこも信用できなくなった

ここまで見た
  • 199
  •  
  • 2013/04/03(水) 16:20:46.09
>>198
それまで信用してたなんて奇特な人だね

ここまで見た
  • 200
  •  
  • 2013/04/03(水) 19:09:21.79
得体の知れない文字コードで管理されている個人情報

ここまで見た
  • 201
  •  
  • 2013/04/03(水) 19:26:15.74
>>198
そこで民間企業が作ったユニコードというわけですね。わかります。

ここまで見た
  • 202
  •  
  • 2013/04/04(木) 07:31:01.03
さて

ここまで見た
  • 203
  •  
  • 2013/04/06(土) 15:58:22.34
そんなわけで

ここまで見た
  • 204
  •  
  • 2013/04/06(土) 17:39:03.94
うん

ここまで見た
  • 205
  •  
  • 2013/04/06(土) 18:00:17.69
話題なさすぎワラタ

ここまで見た
  • 206
  •  
  • 2013/04/07(日) 00:33:20.23
Javaのnative2asciiが出すエスケープ変換をC/C++のプログラム中でやりたいのですが
簡単な方法はありますかね?
あ、入力はUTF-8なんですが。

そういえばあれって名前はasciiと言ってるけど実際にはISO 8859-1以外をエスケープ
するという噂を耳にしたんですが...

ここまで見た
  • 207
  •  
  • 2013/04/07(日) 02:33:07.04
>>206
1.UTF-8をUTF-16に変換します
2.80hより大きなコードポイントをエスケープします

ほらできた!

ここまで見た
  • 208
  •  
  • 2013/04/07(日) 02:43:29.97
>>207
んーと、
UTF-8 -> UTF-16はどうしたらいいですかね。何かおすすめのライブラリはあります?
あるいは自前で変換します?
ASCIIより上をエスケープすべきという主張ですね。
あとサロゲートはどうしたらいいんですかね。
できるだけnative2asciiの挙動と一致させたいのですが。

ここまで見た
  • 209
  •  
  • 2013/04/07(日) 02:51:00.36
ttp://www.seiai.ed.jp/sys/text/java/utf8table.html
UTF-8は1〜4バイト(初期の定義では6バイトまで)の可変長コード
00-7x 1バイト文字 US-ASCIIにおなじ
8x,9x,Ax,Bx 多バイト文字の2バイト目以降
Cx,Dx 2バイト文字の開始バイト
Ex 3バイト文字の開始バイト
Fx 4バイト以上の文字の開始バイト

つまり
00-7fは元の文字
c0-ffなら「u」+バイト列をそれぞれ出せばいいわけだろ

UTF-16なんて必要ないな
native2asciiの挙動?
使いもしねえもの知るかよ

ここまで見た
  • 210
  •  
  • 2013/04/07(日) 02:58:03.93
>>208
1.Unicode規格を読みます
2.規格に従い、UTF-8をUTF-32に変換します
3.規格に従い、UTF-32をUTF16にへんかんします。
このとき、サロペも処理します。

ただしJavaがjarで使用するニセUTF-8が入力の場合は
UTF-8を直接UTF-16に変換する必要があります。

ほらできた!

ここまで見た
  • 211
  •  
  • 2013/04/07(日) 04:27:18.60
# cl引数を変換
--
#include <stdio.h>
#include <string.h>

int main(int argc, char *argv[]) {
unsigned char* b; unsigned char* h = argv[1];
int i, hlen; hlen = strlen(h); memcpy(b, h, hlen);
printf("ori:\n%s\nuni:\n",h);
for(i = 0; i < hlen; i++) {
if ((*(h + i)) < 128) {/* [0-7]*なら元の文字 */
printf("%c", *(h + i));
}else{
if ((*(h + i)) > 191) { printf("\\u"); }/* [cdef]*なら\u追加 */
printf("%02X", *(h + i));
}
}
printf("\n");
}
--
>na r元の8文字
ori:
r元の8文字
uni:
r\uE58583\uE381AE8\uE69687\uE5AD97

砂時計アラームタイマー
フリックゾンビ
ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード