文字コード総合スレ part8 [sc](★0)
-
- 1
- 2012/11/30(金) 13:16:02.46
-
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
-
- 744
- 2014/02/09(日) 12:11:18.01
-
CP9ってなんだっけ?
-
- 745
- 2014/02/09(日) 12:18:27.99
-
9は存在しない(あるいはすでに廃止されている)ようだ。
http://www-01.ibm.com/software/globalization/ccsid/ccsid_registered.html
-
- 746
- 2014/02/11(火) 06:33:45.22
-
シフトJISだがShift_JISではないということ。
-
- 747
- 2014/02/12(水) 15:59:51.17
-
\xe3って何ですか?
調べてみても、あまりよく分からなかったのですが
Unicodeだと思うのですが
-
- 748
- 2014/02/12(水) 16:20:39.29
-
それはどこに出てきたの?
-
- 749
- 2014/02/12(水) 17:39:05.51
-
Shift-JISのサイトってどっかない?
有名どころがいいんだけど
ニュースサイトとか
-
- 750
- 2014/02/12(水) 18:32:39.71
-
2ちゃんねるっていうサイトがShift-JISで有名だよ
-
- 751
- 2014/02/12(水) 18:37:46.88
-
なんてこった、文字通り灯台下暗しだな......
でも教えてくれてありがと、助かった
-
- 752
- 2014/02/12(水) 18:52:22.74
-
和んだ
-
- 753
- 2014/02/13(木) 06:10:27.65
-
>>747
それが出てきた文脈が大事なんだけど…
何かの処理系で非ASCIIをエスケープシーケンスを用いたUnicodeで表記したものじゃないの?
U+00E3ならãを表してる。
-
- 754
- 2014/02/13(木) 15:53:43.39
-
正規表現じゃない?
-
- 755
- 2014/02/13(木) 19:42:23.41
-
これが入札した変体仮名グリフなのかな
mojikiban.ipa.go.jp/3467.html
-
- 756
- 2014/02/13(木) 19:54:45.85
-
http://togech.jp/2014/02/10/5969
-
- 757
- 2014/02/15(土) 23:52:34.39
-
可の符号位置は上の横棒があるのとないのとで2つ必要な気がする
-
- 758
- 2014/02/24(月) 23:25:58.95
-
EUC-JPがASCIIの「拡張」であって「上位互換」でないのはなぜ?
8ビットコードで0X7F以下はASCIIそのものなんだから上位互換でないの?
-
- 759
- 2014/02/24(月) 23:29:14.48
-
上位互換でいいんじゃないの。
両方ISO 2022に適合してるわけだし。
-
- 760
- 758
- 2014/02/25(火) 00:11:50.69
-
PHP使ってる人だとわかると思うんだけど
PHPのhtmlspecialchars()の第3引数にエンコードを指定するんだ
本家のドキュメントにこの関数に与える引数において事実上同等のエンコードが列挙されてるんだが
そこになぜEUC-JPが入ってないのがわからない
-
- 761
- 2014/02/25(火) 00:31:50.61
-
PHPとか知らんが、http://jp1.php.net/htmlspecialcharsを見る限り、
ASCII, ISO-8859-1, UTF-8しか順序関係はないんじゃないの?
-
- 762
- 2014/02/25(火) 00:48:04.45
-
いくつか資料を見てもASCIIをそのままま持ってくるようなこと書いてあるけど
ASCIIの0x5cはバックスラッシュだしEUC-JPの0x5cは円記号だよね
-
- 763
- 2014/02/25(火) 01:45:14.76
-
>>762
いいえ、バックスラッシュです。
-
- 765
- 2014/02/25(火) 01:55:49.74
-
資料疑うなら根拠を書けよw
-
- 766
- 758
- 2014/02/25(火) 01:59:52.01
-
& ' " < > これらを変換するためのhtmlspecialchars()は関数なんですね
http://jp1.php.net/htmlspecialcharsに挙げられてる同等に扱われるエンコーディングは
↑の文字をASCIIと同じ符号位置で扱ってるエンコーディングなんです
符号表的に同じ位置にあるから引数にどれをいれても動作は同等ですよー とドキュメントに書いてる
でもEUC-JPが入ってないのはどうしてなの?これも同じ符号位置に& ' " < >があるはずなのに!ってのが疑問です
-
- 767
- 2014/02/25(火) 02:08:59.64
-
マイナーエンコーディングだからじゃないの?
必要ならpatch書いて送ろう。
-
- 768
- 2014/02/25(火) 22:58:26.60
-
むかしむかし、ある男がSafariの中の人に
「どうしてSafariはEUC-JPの0x5cを円記号で表示するんだよ! バグじゃね?」
と聞いてみたそうな。
中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」
とのことじゃった。
そうしてそのメジャーなブラウザとSafariでは0x5cが円記号で表示されるのじゃった。
めでたしめでたし
-
- 769
- 2014/03/01(土) 06:36:12.48
-
もう一回言って?
-
- 770
- 2014/03/01(土) 16:36:12.72
-
むかしむかし、ある男がSafariの中の人に
「どうしてSafariはEUC-JPの0x5cを円記号で表示するんだよ! バグじゃね?」
と聞いてみたそうな。
中の人思った「日本ではバックスラッシュは円記号で表示されるだけで同じ文字なんだよ。
これは国とフォントの問題だ。でもこいつバカっぽいから話もてわからないだろうな。
よし馬鹿向けの回答で」
中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」
とのことじゃった。
>>768は納得した。
-
- 771
- 2014/03/01(土) 17:01:38.49
-
結局「当人も馬鹿なのでそうなった」というパターンに見えるがw
-
- 772
- 2014/03/01(土) 17:13:11.00
-
Safariの場合はEUC-JPの0x5CをU+00A5にわざわざ変換する処理によるもの
なのでフォント以前の問題
-
- 773
- 2014/03/01(土) 17:15:58.03
-
中の人思った「でも馬鹿にはその説明は理解できないから」
中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」
>>768は納得した。
-
- 774
- 2014/03/01(土) 17:21:00.98
-
チョイッ \(..*\) (/*..)/ ポイッ
-
- 775
- 2014/03/01(土) 20:24:39.77
-
>>770
>日本ではバックスラッシュは円記号で表示されるだけで同じ文字なんだよ。
別に馬鹿による解答はお願いしていませんが
-
- 776
- 2014/03/01(土) 23:34:03.52
-
>>770が馬鹿だと納得した。
-
- 777
- 2014/03/02(日) 11:40:45.99
-
急にレベル落ちたな
-
- 778
- 2014/03/07(金) 20:55:49.73
-
文字コード関連の論文ってどこがメジャーですか?
探しても全然でてこない
-
- 779
- 2014/03/07(金) 21:33:27.70
-
>>778
>>3
Unicode Home Page
http://www.unicode.org/
ISO-IR - 2.8.1 Coding systems with Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
-
- 780
- 2014/03/07(金) 22:35:48.09
-
論文とはちょっと違うような。
文字コード関連で論文書いてると言ったら
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications.html
が真っ先に思い浮かんだ
-
- 781
- 2014/03/07(金) 22:42:10.26
-
UnicodeやISOのTRその他の方が激しい追求を受けると思いますが。
-
- 782
- 2014/03/08(土) 09:20:49.63
-
でも上記のリンクはTRじゃないよ
むしろこっちでしょ
http://std.dkuug.dk/jtc1/sc2/wg2/
-
- 783
- 2014/03/08(土) 09:23:43.86
-
っていうか>>3から引用しただけ?
-
- 784
- 2014/03/08(土) 17:39:51.62
-
はてさて
-
- 785
- 2014/03/11(火) 23:28:53.24
-
>>778
文字研究会
https://sites.google.com/site/mojiken/
-
- 786
- 2014/03/11(火) 23:42:26.16
-
Unicode の EastAsianWidth.txt について、
00C1;N # LATIN CAPITAL LETTER A WITH ACUTE
00E1;A # LATIN SMALL LETTER A WITH ACUTE
のように同じ文字で大文字小文字の違いしか無さそうなのに
幅の扱いが異なるものがあるのですが、
このようなことになっている理由は何でしょうか?
-
- 787
- 2014/03/12(水) 00:19:12.34
-
一方しか含まれていないコード体系があるとかじゃね
知らんけど
-
- 788
- 2014/03/12(水) 02:11:29.05
-
そんなのあったっけ?
JIS X 0212から追加されてるみたいだけど
-
- 789
- 2014/03/12(水) 16:49:07.31
-
なんで文字に番号振るだけなのに
研究とかしてんの?
-
- 790
- 2014/03/12(水) 16:55:22.46
-
「文字とは何か」という哲学的な命題が背後にあるから
-
- 791
- 2014/03/12(水) 19:11:13.07
-
>>788
日本の0212はSJIS対象外だから無視w
あれはほぼPC,Macの文字コード範囲くらいしか互換対象になってない。
中国のPCで大文字だけ使えたらしい。
-
- 792
- 786
- 2014/03/12(水) 22:16:09.94
-
>>787
調べてみたら、 GB 2312 だと小文字の方しか含まれていないようでした。
ttp://zh.wikipedia.org/wiki/%C3%81
JIS X 0212 などが反映されていない、というのは、
そもそも East Asian Width が古い文字コードとの互換性のためのものなので、
比較的新しい文字コードには対応しない、ということですかね。
うーん、ややこしい。
-
- 793
- 2014/03/16(日) 19:03:10.60
-
Unicodeで互換用に残されてるけど使うべきじゃない文字ってどこかにまとまってる?
-
- 794
- 2014/03/20(木) 21:44:45.24
-
バベルのページ見てたら
「バベルでの変換は特に明記していない限り MS-Windows の IE をお手本にしています。」
ってあるけどIEの変換方法って公開してるんだっけ?探しても見つからないんだけど
このページを共有する
おすすめワード