文字コード総合スレ part8 [sc](★0)
-
- 1
- 2012/11/30(金) 13:16:02.46
-
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
-
- 196
- 2013/04/03(水) 09:37:09.74
-
エイプリルフールじゃなかったのか?
>住基ネットで文字化け 231市町村の1万人分 プログラムミス
http://www.asahi.com/shimen/articles/TKY201304020675.html
-
- 197
- 2013/04/03(水) 11:09:33.32
-
今気付いたが今月はもう4月じゃないか
-
- 198
- 2013/04/03(水) 12:37:39.49
-
原発事故で行政はどこも信用できなくなった
-
- 199
- 2013/04/03(水) 16:20:46.09
-
>>198
それまで信用してたなんて奇特な人だね
-
- 200
- 2013/04/03(水) 19:09:21.79
-
得体の知れない文字コードで管理されている個人情報
-
- 201
- 2013/04/03(水) 19:26:15.74
-
>>198
そこで民間企業が作ったユニコードというわけですね。わかります。
-
- 202
- 2013/04/04(木) 07:31:01.03
-
さて
-
- 203
- 2013/04/06(土) 15:58:22.34
-
そんなわけで
-
- 204
- 2013/04/06(土) 17:39:03.94
-
うん
-
- 205
- 2013/04/06(土) 18:00:17.69
-
話題なさすぎワラタ
-
- 206
- 2013/04/07(日) 00:33:20.23
-
Javaのnative2asciiが出すエスケープ変換をC/C++のプログラム中でやりたいのですが
簡単な方法はありますかね?
あ、入力はUTF-8なんですが。
そういえばあれって名前はasciiと言ってるけど実際にはISO 8859-1以外をエスケープ
するという噂を耳にしたんですが...
-
- 207
- 2013/04/07(日) 02:33:07.04
-
>>206
1.UTF-8をUTF-16に変換します
2.80hより大きなコードポイントをエスケープします
ほらできた!
-
- 208
- 2013/04/07(日) 02:43:29.97
-
>>207
んーと、
UTF-8 -> UTF-16はどうしたらいいですかね。何かおすすめのライブラリはあります?
あるいは自前で変換します?
ASCIIより上をエスケープすべきという主張ですね。
あとサロゲートはどうしたらいいんですかね。
できるだけnative2asciiの挙動と一致させたいのですが。
-
- 209
- 2013/04/07(日) 02:51:00.36
-
ttp://www.seiai.ed.jp/sys/text/java/utf8table.html
UTF-8は1〜4バイト(初期の定義では6バイトまで)の可変長コード
00-7x 1バイト文字 US-ASCIIにおなじ
8x,9x,Ax,Bx 多バイト文字の2バイト目以降
Cx,Dx 2バイト文字の開始バイト
Ex 3バイト文字の開始バイト
Fx 4バイト以上の文字の開始バイト
つまり
00-7fは元の文字
c0-ffなら「u」+バイト列をそれぞれ出せばいいわけだろ
UTF-16なんて必要ないな
native2asciiの挙動?
使いもしねえもの知るかよ
-
- 210
- 2013/04/07(日) 02:58:03.93
-
>>208
1.Unicode規格を読みます
2.規格に従い、UTF-8をUTF-32に変換します
3.規格に従い、UTF-32をUTF16にへんかんします。
このとき、サロペも処理します。
ただしJavaがjarで使用するニセUTF-8が入力の場合は
UTF-8を直接UTF-16に変換する必要があります。
ほらできた!
-
- 211
- 2013/04/07(日) 04:27:18.60
-
# cl引数を変換
--
#include <stdio.h>
#include <string.h>
int main(int argc, char *argv[]) {
unsigned char* b; unsigned char* h = argv[1];
int i, hlen; hlen = strlen(h); memcpy(b, h, hlen);
printf("ori:\n%s\nuni:\n",h);
for(i = 0; i < hlen; i++) {
if ((*(h + i)) < 128) {/* [0-7]*なら元の文字 */
printf("%c", *(h + i));
}else{
if ((*(h + i)) > 191) { printf("\\u"); }/* [cdef]*なら\u追加 */
printf("%02X", *(h + i));
}
}
printf("\n");
}
--
>na r元の8文字
ori:
r元の8文字
uni:
r\uE58583\uE381AE8\uE69687\uE5AD97
-
- 212
- 2013/04/07(日) 04:27:30.15
-
馬鹿には無理
-
- 213
- 2013/04/07(日) 05:39:51.63
-
>>208 適当に書いてみた。こんな感じ。
http://ideone.com/2StvbL
-
- 214
- 213
- 2013/04/07(日) 10:01:46.67
-
Windows限定ならこんな漢字
------------
#include <cstdio>
#include <vector>
#include <Windows.h>
using namespace std;
int main()
{
char const *p_org="\xE3\x81\xBE\xE3\x82\x93\xE3\x81\x93z"; // UTF-8文字列。
auto len = ::MultiByteToWideChar(65001, MB_ERR_INVALID_CHARS, p_org, -1, nullptr, 0);
vector<wchar_t> utf16s(len);
::MultiByteToWideChar(65001, MB_ERR_INVALID_CHARS, p_org, -1, &utf16s[0], (int)utf16s.size());
for ( auto &ch : utf16s )
{
if ( ch == 0 )
break;
else if ( ch < 0x80 )
printf("%c", (int)(ch));
else
printf("\\u%04x", (int)(ch));
}
}
-
- 215
- 2013/04/09(火) 03:27:39.08
-
どうせ、UTF8とかサロゲートペアとか順番に解釈しないといけなくなるんだったら、
コードページ切り替え方式でよかったのにな
-
- 216
- 2013/04/09(火) 17:21:58.60
-
ブラジルポルトガル語 と ポルトガルポルトガル語の
アルファベットは同じでしょうか??
ポルトガルポルトガル語のフォントでブラジルポルトガル語が
表現できるのかを調べています。
ご存知の方回答よろしくお願いします。
-
- 217
- 2013/04/09(火) 17:34:57.34
-
同じなので表示できます。
-
- 218
- 2013/04/09(火) 17:35:46.30
-
>>217
回答ありがとうございました。m(__)m
-
- 219
- 2013/04/09(火) 17:59:23.08
-
そーゆーのの違いて基本colorとcolourみたいなもんだろ
-
- 220
- 2013/04/09(火) 18:04:39.90
-
>>219
やっぱり、スペルと発音だけの違いですか。
-
- 221
- 2013/04/09(火) 20:05:31.51
-
厳密に知りたいならポルトガル語 正書法でググるよろし
-
- 222
- 2013/04/10(水) 12:13:56.89
-
>>219
そうか?繁体字と簡体字くらいの違いはあるかも知れんぞ
-
- 223
- 2013/04/12(金) 15:20:03.40
-
なんかそういうのあったな。
ダイアクリティカルマークだったか合字だったか忘れたけど、
コードポイントは同じでも国によって微妙なデザインを使い分けないと現地民にプギャられるってやつ。
-
- 224
- 2013/04/12(金) 21:42:52.95
-
ちょっと点の向きや形が違うと言って大騒ぎ。
しまいにゃ文字幅がどうこう言い出す始末。
そんな現地民が東アジア方面にいるとかいないとか
-
- 225
- 2013/04/12(金) 22:15:53.06
-
ピンインの二声・四声の話かな?
どれぐらい現地民が気にしてるのかわからないけど。
-
- 226
- 2013/04/13(土) 02:20:28.57
-
その国には "立" の一画目が横か縦かを真面目な学問として
研究して金をもらっている連中もいるらしい
-
- 227
- 2013/04/13(土) 03:44:23.55
-
あまり面白い皮肉じゃないな
-
- 228
- 2013/04/13(土) 23:10:53.74
-
研究してる奴らって立たなくなった奴ばっかりなんだろ
-
- 229
- 2013/04/15(月) 12:09:40.57
-
>>226
「龍」の方がおもしろいな
-
- 230
- 2013/04/15(月) 21:27:01.56
-
「正しい字形」は横なのに縦で教えるダブスタ大杉
-
- 231
- 2013/04/15(月) 23:43:58.32
-
>>208
iconv
-
- 232
- 2013/04/16(火) 04:06:42.93
-
>>209
>UTF-16なんて必要ないな
InDesignというDTPソフトにunicodeテキストを配置する場合、
UTF-16BEなんてもんにしなくちゃいけないんざますの。
-
- 234
- 2013/04/16(火) 06:20:11.15
-
要るんです、という話をしただけですのよ。ちなみにわたくしエディタで変換してますわ。
-
- 235
- 2013/04/28(日) 14:29:25.02
-
そして誰も
-
- 236
- 2013/04/29(月) 22:33:06.77
-
今はもう
-
- 237
- 2013/04/30(火) 03:22:01.47
-
初夏
-
- 238
- 2013/05/01(水) 15:50:42.12
-
5月か
早いな
-
- 239
- 2013/05/01(水) 23:51:25.22
-
アレってどうなったんだっけ
-
- 240
- 2013/05/03(金) 22:41:27.92
-
ドレ?
-
- 241
- 2013/05/03(金) 23:27:41.29
-
何のヿ?
-
- 242
- 2013/05/04(土) 19:08:59.48
-
コト点でないのか
-
- 243
- 2013/05/05(日) 00:20:52.26
-
BBS_UNICODE=passは万能ではないってこと?
-
- 244
- 2013/05/05(日) 00:47:04.03
-
てすと ヿ
-
- 245
- 2013/05/05(日) 11:06:17.17
-
数値参照だと出るの?ヿ
このページを共有する
おすすめワード