facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 1
  •  
  • 2012/11/30(金) 13:16:02.46
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た
  • 724
  •  
  • 2014/02/07(金) 21:23:20.21
>ja_JP.UTF-8
何ですか?それは

>UFT-8
Unicode規格で定められたテキスト円コーディングのこと

ここまで見た
  • 725
  •  
  • 2014/02/07(金) 21:52:06.24
ドル建てで

ここまで見た
  • 726
  •  
  • 2014/02/07(金) 21:57:57.94
>>724
>>ja_JP.UTF-8
>何ですか?それは

ANSI C ロケール名です。

language[_territory][. codeset] [@modifier]

ここまで見た
  • 727
  •  
  • 2014/02/07(金) 23:29:37.63
>>724

ここまで見た
  • 728
  •  
  • 2014/02/08(土) 01:08:20.49
>>709
x-japmacanese HAHAHA!

ここまで見た
  • 729
  •  
  • 2014/02/08(土) 06:12:59.83
>>726
「ANSI C ロケール名」とは何なのか。
定義を教えて下さい。

ここまで見た
  • 730
  •  
  • 2014/02/08(土) 11:03:51.90
書いてあるがな

ここまで見た
  • 731
  •  
  • 2014/02/08(土) 12:19:47.04
なるほど。では改めて。

>UFT-8
Unicode規格で定められたテキスト円コーディングのこと

>ja_JP.UTF-8
>>723が考えた書式の文字列。特に意味はない。

ここまで見た
  • 732
  •  
  • 2014/02/08(土) 12:54:03.29
君の頭の中では面白いのか?

ここまで見た
  • 733
  •  
  • 2014/02/08(土) 13:00:43.22
>>723
文字集合とエンコード方式の違い

なぜかOracleだが丁寧に書いてあるからいいだろう
国際化対応言語環境の利用ガイド
http://docs.oracle.com/cd/E26924_01/html/E27144/glmbx.html

ここまで見た
  • 734
  •  
  • 2014/02/08(土) 13:03:11.48
知らない言葉を見れば分からないといって荒らし
知っている言葉があれば関係ないところでひけらかして暴れる

サウイフモノニ
ワタシハナリタイ

ここまで見た
  • 735
  •  
  • 2014/02/08(土) 13:06:16.13
>>733
Sun由来のSolarisドキュメント

ここまで見た
  • 736
  •  
  • 2014/02/08(土) 15:35:34.13
特定のソフトウェア製品で使われる
あることを意味する文字列と
一般的な文字コードの名称を一緒にするなってことだろ

ここまで見た
  • 737
  •  
  • 2014/02/08(土) 15:39:36.12
ANSI Cロケールと無縁なシステムなんてないだろw

ここまで見た
  • 738
  •  
  • 2014/02/08(土) 15:46:35.94
>>731 いつまで嘘垂れ流し続けるんだ

ここまで見た
  • 739
  •  
  • 2014/02/09(日) 00:42:57.53
>>710
Macのやつね。Javaのnative2asciiと同じ形式(完全に同じかはわかんない)

ここまで見た
  • 740
  •  
  • 2014/02/09(日) 01:44:36.74
>>708
ていうか Shift-jisってcp932とは違うと思うんだけど実際には多くのサイトが
cp932の意味で使ってるよね。あと euc-jp にも似たような事情が。

こういうのに悩まされたことが、俺にはありました。

ここまで見た
  • 741
  •  
  • 2014/02/09(日) 02:52:50.51
cp932はShift-jisなので問題ない

ここまで見た
  • 742
  •  
  • 2014/02/09(日) 05:29:52.25
>>739
ごめん言ってみただけなの、なのに、ありがとう。

ここまで見た
  • 743
  •  
  • 2014/02/09(日) 12:09:50.75
CP932はシフトJISだがシフトJISがCP932とは限らない

ここまで見た
  • 744
  •  
  • 2014/02/09(日) 12:11:18.01
CP9ってなんだっけ?

ここまで見た
  • 745
  •  
  • 2014/02/09(日) 12:18:27.99
9は存在しない(あるいはすでに廃止されている)ようだ。
http://www-01.ibm.com/software/globalization/ccsid/ccsid_registered.html

ここまで見た
  • 746
  •  
  • 2014/02/11(火) 06:33:45.22
シフトJISだがShift_JISではないということ。

ここまで見た
  • 747
  •  
  • 2014/02/12(水) 15:59:51.17
\xe3って何ですか?
調べてみても、あまりよく分からなかったのですが
Unicodeだと思うのですが

ここまで見た
  • 748
  •  
  • 2014/02/12(水) 16:20:39.29
それはどこに出てきたの?

ここまで見た
  • 749
  •  
  • 2014/02/12(水) 17:39:05.51
Shift-JISのサイトってどっかない?
有名どころがいいんだけど
ニュースサイトとか

ここまで見た
  • 750
  •  
  • 2014/02/12(水) 18:32:39.71
2ちゃんねるっていうサイトがShift-JISで有名だよ

ここまで見た
  • 751
  •  
  • 2014/02/12(水) 18:37:46.88
なんてこった、文字通り灯台下暗しだな......
でも教えてくれてありがと、助かった

ここまで見た
  • 752
  •  
  • 2014/02/12(水) 18:52:22.74
和んだ

ここまで見た
  • 753
  •  
  • 2014/02/13(木) 06:10:27.65
>>747
それが出てきた文脈が大事なんだけど…
何かの処理系で非ASCIIをエスケープシーケンスを用いたUnicodeで表記したものじゃないの?
U+00E3ならãを表してる。

ここまで見た
  • 754
  •  
  • 2014/02/13(木) 15:53:43.39
正規表現じゃない?

ここまで見た
  • 755
  •  
  • 2014/02/13(木) 19:42:23.41
これが入札した変体仮名グリフなのかな
mojikiban.ipa.go.jp/3467.html

ここまで見た
  • 756
  •  
  • 2014/02/13(木) 19:54:45.85
http://togech.jp/2014/02/10/5969

ここまで見た
  • 757
  •  
  • 2014/02/15(土) 23:52:34.39
可の符号位置は上の横棒があるのとないのとで2つ必要な気がする

ここまで見た
  • 758
  •  
  • 2014/02/24(月) 23:25:58.95
EUC-JPがASCIIの「拡張」であって「上位互換」でないのはなぜ?
8ビットコードで0X7F以下はASCIIそのものなんだから上位互換でないの?

ここまで見た
  • 759
  •  
  • 2014/02/24(月) 23:29:14.48
上位互換でいいんじゃないの。
両方ISO 2022に適合してるわけだし。

ここまで見た
  • 760
  • 758
  • 2014/02/25(火) 00:11:50.69
PHP使ってる人だとわかると思うんだけど
PHPのhtmlspecialchars()の第3引数にエンコードを指定するんだ
本家のドキュメントにこの関数に与える引数において事実上同等のエンコードが列挙されてるんだが
そこになぜEUC-JPが入ってないのがわからない

ここまで見た
  • 761
  •  
  • 2014/02/25(火) 00:31:50.61
PHPとか知らんが、http://jp1.php.net/htmlspecialcharsを見る限り、
ASCII, ISO-8859-1, UTF-8しか順序関係はないんじゃないの?

ここまで見た
  • 762
  •  
  • 2014/02/25(火) 00:48:04.45
いくつか資料を見てもASCIIをそのままま持ってくるようなこと書いてあるけど
ASCIIの0x5cはバックスラッシュだしEUC-JPの0x5cは円記号だよね

ここまで見た
  • 763
  •  
  • 2014/02/25(火) 01:45:14.76
>>762
いいえ、バックスラッシュです。

ここまで見た
  • 764
  • 758
  • 2014/02/25(火) 01:50:52.80
>>761
うーん そうなんですかね
マニュアルにこう書いてあるんだから、意味は深く考えなくていいじゃん 
で解決といえば解決なんですけども

>>762
バックスラッシュです
GL領域はまんまASCIIだったはず

ここまで見た
  • 765
  •  
  • 2014/02/25(火) 01:55:49.74
資料疑うなら根拠を書けよw

ここまで見た
  • 766
  • 758
  • 2014/02/25(火) 01:59:52.01
& ' " < > これらを変換するためのhtmlspecialchars()は関数なんですね
http://jp1.php.net/htmlspecialcharsに挙げられてる同等に扱われるエンコーディングは
↑の文字をASCIIと同じ符号位置で扱ってるエンコーディングなんです 
符号表的に同じ位置にあるから引数にどれをいれても動作は同等ですよー とドキュメントに書いてる
でもEUC-JPが入ってないのはどうしてなの?これも同じ符号位置に& ' " < >があるはずなのに!ってのが疑問です

ここまで見た
  • 767
  •  
  • 2014/02/25(火) 02:08:59.64
マイナーエンコーディングだからじゃないの?
必要ならpatch書いて送ろう。

ここまで見た
  • 768
  •  
  • 2014/02/25(火) 22:58:26.60
むかしむかし、ある男がSafariの中の人に
「どうしてSafariはEUC-JPの0x5cを円記号で表示するんだよ! バグじゃね?」
と聞いてみたそうな。
中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」
とのことじゃった。

そうしてそのメジャーなブラウザとSafariでは0x5cが円記号で表示されるのじゃった。
めでたしめでたし

ここまで見た
  • 769
  •  
  • 2014/03/01(土) 06:36:12.48
もう一回言って?

ここまで見た
  • 770
  •  
  • 2014/03/01(土) 16:36:12.72
むかしむかし、ある男がSafariの中の人に
「どうしてSafariはEUC-JPの0x5cを円記号で表示するんだよ! バグじゃね?」
と聞いてみたそうな。

中の人思った「日本ではバックスラッシュは円記号で表示されるだけで同じ文字なんだよ。
これは国とフォントの問題だ。でもこいつバカっぽいから話もてわからないだろうな。
よし馬鹿向けの回答で」

中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」
とのことじゃった。

>>768は納得した。

ここまで見た
  • 771
  •  
  • 2014/03/01(土) 17:01:38.49
結局「当人も馬鹿なのでそうなった」というパターンに見えるがw

ここまで見た
  • 772
  •  
  • 2014/03/01(土) 17:13:11.00
Safariの場合はEUC-JPの0x5CをU+00A5にわざわざ変換する処理によるもの
なのでフォント以前の問題

ここまで見た
  • 773
  •  
  • 2014/03/01(土) 17:15:58.03
中の人思った「でも馬鹿にはその説明は理解できないから」

中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」

>>768は納得した。

ここまで見た
  • 774
  •  
  • 2014/03/01(土) 17:21:00.98
チョイッ \(..*\) (/*..)/ ポイッ

フリック回転寿司
フリック回転寿司
ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード