文字コード総合スレ part8 [sc](★0)
-
- 1
- 2012/11/30(金) 13:16:02.46
-
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
-
- 898
- 2014/05/11(日) 14:18:48.58
-
㐂驒沪𡈽圡玊琢簞箪簟單俱倶傎叱𠮟
咕吒哎噓嘘墟吞呑櫛樿撣
味噌
葛飾区
祇園
進歩
噂
湮滅
恰好
義捐金
眩惑
激昂
幻惑
渾然
駿足
醇朴
饒舌
食事療法
食餌療法
擡頭
醜名
-
- 899
- 2014/05/11(日) 14:22:59.36
-
>>876
外部ツールのgrepが特定の文字コードに対応してなかっただけだろ?
-
- 900
- 2014/05/11(日) 14:24:59.03
-
人名にある漢字
𨌴 U+28334(D860 DF34)
𡍎 U+2134E(D844 DF4E)
𩂗 U+29097(D864 DC97)
𡌛 U+2131B(D844 DF1B)
海 U+FA45
わかりやすい一表式誤字俗字・正字一覧
戸籍の氏又は名の記載・記録に用いる文字
戸籍実務研究会 編 日本加除出版
shift-jisではなくUnicodeで記述してくれ。
むずかしくないぞ!!誤字俗字・正字
小林勝彦 著 日本加除出版
子の名に使える漢字字典
改定常用漢字表対応
戸籍実務研究会 編 日本加除出版
人名用漢字の変遷
子の名に使える漢字の全履歴
日本加除出版株式会社編集部 編
日本加除出版
CJKV日中韓越情報処理 オライリー
新しい国語表記ハンドブック 三省堂
校正必携 日本エディタースクール
記者ハンドブック 共同通信
日本人の知らない日本語
-
- 901
- 2014/05/11(日) 15:03:04.80
-
外字管理と文字同定
合理的な外字作成のために
長村玄 著 日本加除出版
参考
http://blog.livedoor.jp/blackwingcat/archives/983407.html
http://blog.livedoor.jp/blackwingcat/archives/775319.html
🎴
サロゲートペア
1F3B4 花札の坊主
1F3B6
1F4A9
1F4B4
1F5FE
1F5FC
-
- 902
- 2014/05/11(日) 16:31:11.95
-
結局、どれがええんじゃ?
-
- 903
- 2014/05/11(日) 16:59:11.70
-
>>898
邦題『湮滅 』の仏語原文はeのリポグラムで書かれているそうで、
翻訳の方も「い段」の仮名がなかったりのこだわり本。
どうでもいいな、スレチだし
-
- 904
- 参考
- 2014/05/11(日) 22:41:39.55
-
http://www.amazon.co.jp/dp/4899772939/
文字コード「超」研究 改訂第2版
深沢千尋
http://www.amazon.co.jp/dp/477414164X/
プログラマのための文字コード技術入門 (WEB+DB PRESS plus)
矢野啓介
http://www.amazon.co.jp/dp/4891006080/
UnicodeによるJIS X0213実装入門―情報システムの新たな日本語処理環境
(マイクロソフト公式解説書―マイクロソフトITプロフェッショナルシリーズ)
田丸健三郎
http://www.amazon.co.jp/dp/4822294838/
Unicode IVS/IVD入門
田丸健三郎 小林龍生
http://www.amazon.co.jp/Unicode/dp/4798100307/
Unicode標準入門 発売日 2001/05
トニーグラハム
-
- 905
- 2014/05/12(月) 01:09:45.43
-
Unicode IVS/IVD入門は誤植とツッコミどころ満載(著者のせいというよりは編集が仕事してない)なので、
togetterだかにまとめられてるツッコミを確認しながら読むべし。
-
- 906
- 2014/05/12(月) 11:07:44.74
-
互換漢字の表が正規化で全部統合漢字に化けていたのはひどかった
-
- 907
- 2014/05/12(月) 15:46:50.90
-
>>897
はあ?
-
- 908
- 2014/05/12(月) 15:57:25.31
-
犭𪜪2A72A𪜸2A738𪜽2A73D𪝆2A746𪝟2A75F𪝘2A758
-
- 909
- 2014/05/12(月) 21:42:02.38
-
>>885
最初無くて(「オ」で代用してたのかな?)後から追加されたという説がある。
-
- 910
- 2014/05/13(火) 13:59:51.38
-
>>906
そりゃ回収すべきだなあ。
つーか著者も中で正規化についてふれてるはずだから、
予め事故が起きないように原稿データを作成する
もしくはゲラで気にして眺めるのが当然。
それができていない、ということは、Excelの入門書とかにありがちな
入門者の「ための」本じゃなく、入門者が「書いた」本の類か。
-
- 911
- 2014/05/13(火) 15:44:02.57
-
いや、著者はどっちもそれなりな人。経緯はまとめがあるのでそっちを読んでくれ。
-
- 912
- 2014/05/13(火) 19:28:52.12
-
>>909
そんな説があったのか
記号消したのかな
-
- 913
- 2014/05/13(火) 19:39:30.11
-
主に携帯電話絵文字が割り当てられた、UNICODE u1f330〜u1f36f, u1f400〜u1f41f
をtwitter, mixi, Facebookで表示させてみた。
mixiのWeb serverは前から独自の絵文字表示機能があるが、元からある絵文
字から、その文字コードに対応する絵文字を拾いだしてを画像データ
(恐らくGIF)で表示しているみたい。。
twitterのPC(Windows7)のブラウザによる表示でも同様。
Nexus7でのブラウザ表示、smart phoneでのtwitterでは、Web serverの
絵文字表示機能に対応しておらず、文字コードに対応する絵文字をフォント
で表示させようとしているみたい。
表示させる文字コードに対応する絵文字のフォントデータがその端末にない
場合は表示されない。
-
- 914
- 2014/05/13(火) 19:47:48.70
-
UNICODE表示
u1f330〜u1f36f
🌰🌱🌲🌳🌴🌵■🌷🌸🌹🌺🌻🌼🌽🌾🌿
🍀🍁🍂🍃🍄🍅🍆🍇🍈🍉🍊🍋🍌🍍🍎🍏
🍐🍑🍒🍓🍔🍕🍖🍗🍘🍙🍚🍛🍜🍝🍞🍟
🍠🍡🍢🍣🍤🍥🍦🍧🍨🍩🍪🍫🍬🍭🍮🍯
u1f400〜u1f41f
🐀🐁🐂🐃🐄🐅🐆🐇🐈🐉🐊🐋🐌🐍🐎🐏
🐐🐑🐒🐓🐔🐕🐖🐗🐘🐙🐚🐛🐜🐝🐞🐟
-
- 915
- 2014/05/13(火) 20:17:04.28
-
そもそもサロゲートペアに対応しているかという話も。
-
- 917
- 2014/05/14(水) 12:07:15.19
-
JIS2004対応MSゴシック MS明朝フォントパッケージ
Office製品のJIS X 0213:2004への対応状況
go.microsoft.com/fwlink/?LinkID=76814 go.microsoft.com/?LinkID=6179681
JIS X 0213:2004 Unicode 実装ガイド Microsoft
http://www.microsoft.com/china/windows2000/downloads/18030.mspx
http://blog.livedoor.jp/blackwingcat/archives/983407.html
ISO 10646:2003 + 修正 1 繁体字中国語サポート (HKSCS 2004)
Windows XP および Windows Server 2003 用の Windows XP フォント パックhttp://support.microsoft.com/kb/977801/ja
Traditional Chinese ClearType fonts for Windows XP - 繁體中文
http://www.microsoft.com/zh-tw/download/details.aspx?id=12072
Simplified Chinese ClearType fonts for Windows XP
http://www.microsoft.com/en-us/download/details.aspx?id=14577
Korean ClearType fonts for Windows XP
http://www.microsoft.com/en-us/download/details.aspx?id=10490
汎用電子情報交換環境整備プログラム文字対応作業委員会資料
平成19年度経済産業省委託
汎用電子情報交換環境整備プログラム文字対応作業委員会資料(「地名外字」資料)
2008 年3 月発行、独立行政法人国立国語研究所
平成19年度 汎用電子情報交換環境整備プログラム文字対応作業委員会資料 地名外字 資料
http://www.ninjal.ac.jp/archives/hanyo/
http://www.ninjal.ac.jp/archives/hanyo/chimeigaiji.pdf
http://www.ninjal.ac.jp/archives/hanyo/jisyohikeisaiji.pdf
http://kanji-database.sourceforge.net/dict/daikanwa/index.html
http://hp.vector.co.jp/authors/VA000964/html/daikanwa.htm
http://webcat.nacsis.ac.jp/cgi-bin/shsproc?id=BN13621753
-
- 918
- 2014/05/14(水) 13:26:00.05
-
これはいったい何の話?
-
- 919
- 2014/05/14(水) 20:54:01.03
-
あまぞんのれびゅーって面白いよね。
専門書の場合、みんなちゃんと根拠を出して
貶しているのに必ず一人だけ闇雲に
マンセーする人がいる。
やっぱ、工作員かな。
-
- 920
- 2014/05/14(水) 20:57:31.09
-
漢字データベースはデータファイルへのリンク切れを直してほしいぞ
( /kawabata/kanji-data-base-* → /cjkvi/cjkvi-* )
-
- 921
- 2014/05/14(水) 21:02:55.66
-
> http://webcat.nacsis.ac.jp/cgi-bin/shsproc?id=BN13621753
ていうか貼る前に飛べるかどうか確認くらいしろ
botかよ
-
- 922
- 2014/05/14(水) 21:26:48.11
-
http://ci.nii.ac.jp/ncid/BN13621753
これなのかな?
-
- 923
- 2014/05/14(水) 22:29:58.06
-
サイニーってなんか名前がえろいよね
-
- 924
- 2014/05/15(木) 00:27:38.91
-
>>919 一人で言ってろw
-
- 925
- 2014/05/15(木) 01:21:02.79
-
Excel から Cのdllに文字列を渡すとき、VBAからは
ByVal as String を渡して C側で LPCSTR で受け取るのがパターンだけど、
ワークシートから直接呼ぶ場合はC側は BSTR等 で受けなきゃいけない。
そこで C側は BSTR に統一しておいて、VBAからは
StrConv( xxx, vbUnicode) をかましてやればいいことが分かった。
ところが、StrConv("まみむめも", vbUnicode) を渡したら化ける。
ひらがなだと"め"以降が、かたかなだと"ム"以降がダメなようだ。
-
- 926
- 2014/05/15(木) 23:22:03.55
-
http://ci.nii.ac.jp/ncid/BN13621753
大漢和辞典
諸橋轍次著
藍燈文化事業股份有限公司, 1992.6
修訂版 / 鎌田正, 米山寅太郎修訂
出版地:台北
大学図書館所蔵 2件
実践女子大学 図書館
函館大谷短期大学 図書館
-
- 927
- 2014/05/17(土) 00:34:57.36
-
毦?厽厸叕忑忐忐臋膐臡娚妕嫏釱?腥觕槀晟猋
-
- 928
- 2014/05/17(土) 07:02:20.43
-
Moji_Johoコレクション登録キター
http://unicode-inc.blogspot.jp/2014/05/new-version-of-unicode-ideographic.html
-
- 929
- 2014/05/23(金) 20:30:12.89
-
>>899
なんで10日もたってから反応してくれたのか知らないけど一応返事しとくよ。
確かに grep はシフトJIS に対応してなかったけど問題はそこではない。
-
- 930
- 2014/05/23(金) 22:20:35.88
-
じゃあ違う所に問題があるってことになるんだが、
それを書かないのはなんで?
-
- 931
- 2014/05/25(日) 17:43:33.84
-
シフトJIS のせいだと理解してくれた人もいるのだから充分だと思う。
それ以上書かなかったのは
「自分のブログでやれ!」
というような内容だから。
20年以上も前の極めて個人的な事情を本当に知りたい?
-
- 932
- 2014/05/25(日) 19:07:02.17
-
A「シフトJISじゃなくツールの問題」
B「いえ問題はそこじゃない」
A「じゃどこだよ」
B「シフトJISの問題だけど詳細は言えませぬ」
なんかオボカタを彷彿させられたわ
-
- 933
- 2014/05/25(日) 23:53:20.28
-
>>869-877を読む限りgrepがウンコだったとしか読めないのだが
マイクロソフトが嫌いな人はなんでもマイクロソフトのせいにしたがるんだろうな
-
- 934
- 2014/05/26(月) 01:01:24.96
-
シフトJISって書くのはShift_JISと区別する意図があるという理解でよろしいか
-
- 935
- 2014/05/26(月) 01:05:37.47
-
シフと辞す
-
- 936
- 2014/05/26(月) 04:46:50.66
-
>>931
氏ね
-
- 937
- 2014/05/26(月) 06:15:33.67
-
>>931
小出しにしないで、何がどうしてどうなったのかを1スレで書けるなら書いてもいいよ。
-
- 938
- 2014/05/26(月) 07:02:01.76
-
>>934
そらそうだろ
Shift_JISなんて使ってる人は見たことがない
-
- 939
- 2014/05/26(月) 09:00:03.21
-
>>931
実に興味深いので、ぜひともうかがいたい
-
- 940
- 2014/05/26(月) 09:29:56.46
-
シフトJIS
Shift_JIS
S-JIS
MS932
他もあったと思うが何がちがうん?
-
- 941
- 2014/05/26(月) 11:51:57.08
-
あだ名が違うだけなんよ
-
- 942
- 2014/05/26(月) 12:31:29.88
-
UTF-8ってバイトストリームのくせになんでBOMなんてものがあるの?
-
- 943
- 2014/05/26(月) 12:35:07.83
-
>>942
深謀遠慮の馬鹿の所為。
-
- 944
- 2014/05/26(月) 12:37:23.58
-
>943
http://www.w3.org/International/questions/qa-byte-order-mark.en.php
> In the UTF-8 encoding, the presence of the BOM is not essential because,
> unlike the UTF-16 encodings, there is no alternative sequence of bytes in a character.
> However, the BOM may still occur in UTF-8 encoded text, either as a
> by-product of an encoding conversion or because it was added
> by an editor to flag the content as UTF-8.
> In this situation, the BOM is often called a UTF-8 signature.
ということで、UTF-8のBOMは、BOMと似ているバイトデータですが、
BOMという呼び名が気になるなら、UTF-8 signatureと呼びましょう。
-
- 945
- 2014/05/26(月) 12:42:12.84
-
なぜUTF-8 signatureがあるかといえば、
文字化け防止ですね。
マルチバイト文字列を使った文書の場合、
UTF-8で書いていても、他の文字コードだと
誤判定する可能性がある。
その可能性まで考慮する場合、つけても
いいということになっています。
そこまで考えるかどうかですね。
-
- 946
- 2014/05/26(月) 12:57:20.58
-
>>940
文字集合が違うものがある。
-
- 947
- 2014/05/26(月) 13:06:36.83
-
>>946
それはシフトJISの中で
78年とか83年とかって言われるやつ?
-
- 948
- 2014/05/26(月) 17:54:55.99
-
MS932なんて明らかに別物じゃない
-
- 949
- 2014/05/26(月) 18:41:56.31
-
>>940
シフトJIS:Shift_JISの俗称
Shift_JIS:正式名書 JIS X 0208とかIANAではこれが使われてる
S-JIS:Shift_JISの略称
MS932:MSによるShift_JISの拡張
あってる?
このページを共有する
おすすめワード