文字コード総合スレ part8 [sc](★0)
-
- 1
- 2012/11/30(金) 13:16:02.46
-
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
-
- 855
- 2014/04/25(金) 15:01:18.03
-
別にC言語風だからどうでもいいよ
-
- 856
- 2014/04/25(金) 15:34:10.60
-
たまには。PDPエンディアンのことも思い出してあげて
-
- 857
- 2014/04/25(金) 15:49:44.73
-
エンディアン嘘つかない
-
- 859
- 2014/04/25(金) 17:56:44.39
-
>>847
UTF-16文字列はuint16_tの並び。
uint16_tだからCPUによってバイト順が違う。
だからエンコーディングのバイトオーダーが決まってると、
逆順のシステムはネットワークにデータを流す時にバイト順を毎回変えないといけない。
それを防ぐためにバイトオーダー順違いのエンコーディングが定義されてる。
こうしておくと必要なときだけバイト順を変えればいい。
DCE/RPCみたいに接続時にバイトオーダをネゴしてもいいし、
どちらを送られても必ず扱えるようにしてもいい。
-
- 860
- 2014/04/25(金) 18:34:47.40
-
レスありがとう
2つの(代表的な)エンディアンがあってだからBEとLEがありますだと理由付けとして弱い、何か他にあるんじゃないの??って疑問でした。
だから
>処理を速くするためにCPUに合わせた形式でメモリには格納しないといけない。
という事情があると知り納得しました。
-
- 861
- 2014/04/25(金) 20:13:07.53
-
2つしかない。
-
- 862
- 2014/04/25(金) 20:28:19.84
-
Unicode規格のエンコーディングフォームと
エンコーディングスキームの区別が全く
ついていない人が集うスレはここですか?
-
- 863
- 2014/04/25(金) 20:41:42.68
-
>>862
あなたもその一人です。
-
- 864
- 2014/04/25(金) 21:32:54.46
-
キター
パーソナルメディア、Unicode IVS/IVDを活用する異体字検索入力ツールを発売
http://itpro.nikkeibp.co.jp/article/ActiveR/20140422/552244/
-
- 865
- 2014/04/26(土) 07:57:34.66
-
IVS流行るんかねぇ
今3000字くらいだっけ?登録されてるの
-
- 866
- 2014/04/26(土) 20:11:54.73
-
有料なのかよ
babelmap使えばいいな
-
- 867
- 2014/04/27(日) 06:28:54.53
-
先月までレビューをやってた新しいIVDはその後どうなったんだろ
-
- 868
- 2014/04/27(日) 06:55:39.54
-
>>866
しかも10ライセンス単位
それでも一般販売されるようになっただけ一歩前進
-
- 869
- 2014/05/01(木) 02:19:11.86
-
20年以上前に MS-DOS で
grep "\["
ってやって、関係ない漢字が大量にヒットした時の絶望感。
Microsoft を捨てる理由になり得るということを
理解してくれる人は少ない。
-
- 870
- 2014/05/01(木) 02:54:30.27
-
ほー。
-
- 871
- 2014/05/01(木) 06:02:50.85
-
へー。
-
- 872
- 2014/05/01(木) 17:37:23.88
-
MS-DOSにgrep有ったのか
-
- 873
- 2014/05/01(木) 17:56:01.26
-
アスキーの Software Tools for MS-DOS 他、いろいろあったよ
-
- 874
- 2014/05/01(木) 18:34:21.61
-
マイクロソフト以外のツールの出来が悪いと
Microsoft を捨てる理由になり得る のか
-
- 875
- 2014/05/01(木) 19:06:00.71
-
「Microsoft漢字コード」って意味じゃねーの?
-
- 876
- 2014/05/01(木) 21:32:54.04
-
「Microsoft漢字コード」って意味です。
それ以外にも理由は山ほどありましたが。
その後、Pentium マシン買ってとっとと Linux 入れて
Microsoft を捨てました。前世紀のことです。
エンコーディングは当初は euc-jp , 後に utf-8 。
プリインストールされていた windows 98 を有効利用しようと
一応は努力したんですよ。10日間くらい。
-
- 877
- 2014/05/02(金) 03:26:51.56
-
>>873
特に緑の256本にお世話になりました。
-
- 878
- 2014/05/02(金) 08:40:36.13
-
まあバカには難しいからな
-
- 879
- ニュース記事より
- 2014/05/02(金) 12:43:16.91
-
UTF-16 で、+2D 91+A9 52 7D 00+9F 53+ って何ですか?
tp://headlines.yahoo.
co.jp/hl?a=20140427-00000009-asahi-int
-
- 880
- 880
- 2014/05/02(金) 13:14:16.23
-
Internet Explorer を外したら上手くいきました。(._.)
-
- 881
- 2014/05/07(水) 23:28:11.14
-
utf-1のオリジナルの仕様書はどこかに無いですかね?
-
- 882
- 2014/05/08(木) 01:59:00.77
-
>>881
なにそれ? 1bit encode?
-
- 883
- 2014/05/08(木) 02:19:16.15
-
8bitだな
-
- 884
- 2014/05/08(木) 22:39:56.65
-
数字の付け方が途中で変わったからねぇ。
-
- 885
- 2014/05/09(金) 22:59:45.07
-
JIS X 0201の「ヲ」ってなんであんな位置にあるの?
「ワ」と「ン」の間じゃダメだったの?
-
- 886
- 2014/05/10(土) 00:58:26.77
-
不思議だワン
-
- 887
- 2014/05/10(土) 01:01:06.78
-
今主流は、ISO/IEC 8859-15? Windows-1252 ? unicode?
-
- 888
- 2014/05/10(土) 01:09:42.82
-
あらゆる隔たりを越えて使われてるコードってなんだろ
-
- 889
- 2014/05/10(土) 03:27:31.59
-
>>888
ASCIIコード
-
- 890
- 2014/05/10(土) 03:29:41.16
-
JSON
Base64
-
- 891
- 2014/05/10(土) 11:13:27.62
-
せめて文字コードからお願いします
-
- 892
- 2014/05/10(土) 11:17:48.14
-
お客さまの文字コードを戴いてもよろしいでしょうか
-
- 893
- 2014/05/10(土) 11:20:07.72
-
>>881
英語版ウィキペからのリンクで見つけた。
http://kikaku.itscj.ipsj.or.jp/ISO-IR/178.pdf
>>884
UTF-8はUTF-2という名前だったな
-
- 894
- 2014/05/10(土) 13:26:02.15
-
>>893
オリジナルは ISO 10646-1:1993 = Unicode 1.1だな。
-
- 895
- 2014/05/10(土) 15:12:57.31
-
Unicode 1.1だけはunicode.orgのサイト上にもないんだね。
http://www.unicode.org/versions/enumeratedversions.html
無慈悲な(paper only)
-
- 896
- 2014/05/10(土) 20:17:48.99
-
Adobe-Japan1-6が出てもう10年か
これだけ放置ってことは1-7は実質的にキャンセルされたかな
-
- 897
- 2014/05/11(日) 00:27:45.38
-
世の中はWindows-1252か、それをUTF-8化した文字コードが主流だね。
-
- 898
- 2014/05/11(日) 14:18:48.58
-
㐂驒沪𡈽圡玊琢簞箪簟單俱倶傎叱𠮟
咕吒哎噓嘘墟吞呑櫛樿撣
味噌
葛飾区
祇園
進歩
噂
湮滅
恰好
義捐金
眩惑
激昂
幻惑
渾然
駿足
醇朴
饒舌
食事療法
食餌療法
擡頭
醜名
-
- 899
- 2014/05/11(日) 14:22:59.36
-
>>876
外部ツールのgrepが特定の文字コードに対応してなかっただけだろ?
-
- 900
- 2014/05/11(日) 14:24:59.03
-
人名にある漢字
𨌴 U+28334(D860 DF34)
𡍎 U+2134E(D844 DF4E)
𩂗 U+29097(D864 DC97)
𡌛 U+2131B(D844 DF1B)
海 U+FA45
わかりやすい一表式誤字俗字・正字一覧
戸籍の氏又は名の記載・記録に用いる文字
戸籍実務研究会 編 日本加除出版
shift-jisではなくUnicodeで記述してくれ。
むずかしくないぞ!!誤字俗字・正字
小林勝彦 著 日本加除出版
子の名に使える漢字字典
改定常用漢字表対応
戸籍実務研究会 編 日本加除出版
人名用漢字の変遷
子の名に使える漢字の全履歴
日本加除出版株式会社編集部 編
日本加除出版
CJKV日中韓越情報処理 オライリー
新しい国語表記ハンドブック 三省堂
校正必携 日本エディタースクール
記者ハンドブック 共同通信
日本人の知らない日本語
-
- 901
- 2014/05/11(日) 15:03:04.80
-
外字管理と文字同定
合理的な外字作成のために
長村玄 著 日本加除出版
参考
http://blog.livedoor.jp/blackwingcat/archives/983407.html
http://blog.livedoor.jp/blackwingcat/archives/775319.html
🎴
サロゲートペア
1F3B4 花札の坊主
1F3B6
1F4A9
1F4B4
1F5FE
1F5FC
-
- 902
- 2014/05/11(日) 16:31:11.95
-
結局、どれがええんじゃ?
-
- 903
- 2014/05/11(日) 16:59:11.70
-
>>898
邦題『湮滅 』の仏語原文はeのリポグラムで書かれているそうで、
翻訳の方も「い段」の仮名がなかったりのこだわり本。
どうでもいいな、スレチだし
-
- 904
- 参考
- 2014/05/11(日) 22:41:39.55
-
http://www.amazon.co.jp/dp/4899772939/
文字コード「超」研究 改訂第2版
深沢千尋
http://www.amazon.co.jp/dp/477414164X/
プログラマのための文字コード技術入門 (WEB+DB PRESS plus)
矢野啓介
http://www.amazon.co.jp/dp/4891006080/
UnicodeによるJIS X0213実装入門―情報システムの新たな日本語処理環境
(マイクロソフト公式解説書―マイクロソフトITプロフェッショナルシリーズ)
田丸健三郎
http://www.amazon.co.jp/dp/4822294838/
Unicode IVS/IVD入門
田丸健三郎 小林龍生
http://www.amazon.co.jp/Unicode/dp/4798100307/
Unicode標準入門 発売日 2001/05
トニーグラハム
-
- 905
- 2014/05/12(月) 01:09:45.43
-
Unicode IVS/IVD入門は誤植とツッコミどころ満載(著者のせいというよりは編集が仕事してない)なので、
togetterだかにまとめられてるツッコミを確認しながら読むべし。
このページを共有する
おすすめワード