facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 1
  •  
  • 2012/11/30(金) 13:16:02.46
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た
  • 760
  • 758
  • 2014/02/25(火) 00:11:50.69
PHP使ってる人だとわかると思うんだけど
PHPのhtmlspecialchars()の第3引数にエンコードを指定するんだ
本家のドキュメントにこの関数に与える引数において事実上同等のエンコードが列挙されてるんだが
そこになぜEUC-JPが入ってないのがわからない

ここまで見た
  • 761
  •  
  • 2014/02/25(火) 00:31:50.61
PHPとか知らんが、http://jp1.php.net/htmlspecialcharsを見る限り、
ASCII, ISO-8859-1, UTF-8しか順序関係はないんじゃないの?

ここまで見た
  • 762
  •  
  • 2014/02/25(火) 00:48:04.45
いくつか資料を見てもASCIIをそのままま持ってくるようなこと書いてあるけど
ASCIIの0x5cはバックスラッシュだしEUC-JPの0x5cは円記号だよね

ここまで見た
  • 763
  •  
  • 2014/02/25(火) 01:45:14.76
>>762
いいえ、バックスラッシュです。

ここまで見た
  • 764
  • 758
  • 2014/02/25(火) 01:50:52.80
>>761
うーん そうなんですかね
マニュアルにこう書いてあるんだから、意味は深く考えなくていいじゃん 
で解決といえば解決なんですけども

>>762
バックスラッシュです
GL領域はまんまASCIIだったはず

ここまで見た
  • 765
  •  
  • 2014/02/25(火) 01:55:49.74
資料疑うなら根拠を書けよw

ここまで見た
  • 766
  • 758
  • 2014/02/25(火) 01:59:52.01
& ' " < > これらを変換するためのhtmlspecialchars()は関数なんですね
http://jp1.php.net/htmlspecialcharsに挙げられてる同等に扱われるエンコーディングは
↑の文字をASCIIと同じ符号位置で扱ってるエンコーディングなんです 
符号表的に同じ位置にあるから引数にどれをいれても動作は同等ですよー とドキュメントに書いてる
でもEUC-JPが入ってないのはどうしてなの?これも同じ符号位置に& ' " < >があるはずなのに!ってのが疑問です

ここまで見た
  • 767
  •  
  • 2014/02/25(火) 02:08:59.64
マイナーエンコーディングだからじゃないの?
必要ならpatch書いて送ろう。

ここまで見た
  • 768
  •  
  • 2014/02/25(火) 22:58:26.60
むかしむかし、ある男がSafariの中の人に
「どうしてSafariはEUC-JPの0x5cを円記号で表示するんだよ! バグじゃね?」
と聞いてみたそうな。
中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」
とのことじゃった。

そうしてそのメジャーなブラウザとSafariでは0x5cが円記号で表示されるのじゃった。
めでたしめでたし

ここまで見た
  • 769
  •  
  • 2014/03/01(土) 06:36:12.48
もう一回言って?

ここまで見た
  • 770
  •  
  • 2014/03/01(土) 16:36:12.72
むかしむかし、ある男がSafariの中の人に
「どうしてSafariはEUC-JPの0x5cを円記号で表示するんだよ! バグじゃね?」
と聞いてみたそうな。

中の人思った「日本ではバックスラッシュは円記号で表示されるだけで同じ文字なんだよ。
これは国とフォントの問題だ。でもこいつバカっぽいから話もてわからないだろうな。
よし馬鹿向けの回答で」

中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」
とのことじゃった。

>>768は納得した。

ここまで見た
  • 771
  •  
  • 2014/03/01(土) 17:01:38.49
結局「当人も馬鹿なのでそうなった」というパターンに見えるがw

ここまで見た
  • 772
  •  
  • 2014/03/01(土) 17:13:11.00
Safariの場合はEUC-JPの0x5CをU+00A5にわざわざ変換する処理によるもの
なのでフォント以前の問題

ここまで見た
  • 773
  •  
  • 2014/03/01(土) 17:15:58.03
中の人思った「でも馬鹿にはその説明は理解できないから」

中の人いわく、「インターネットでメジャーなブラウザに挙動を合わせている」

>>768は納得した。

ここまで見た
  • 774
  •  
  • 2014/03/01(土) 17:21:00.98
チョイッ \(..*\) (/*..)/ ポイッ

ここまで見た
  • 775
  •  
  • 2014/03/01(土) 20:24:39.77
>>770
>日本ではバックスラッシュは円記号で表示されるだけで同じ文字なんだよ。

別に馬鹿による解答はお願いしていませんが

ここまで見た
  • 776
  •  
  • 2014/03/01(土) 23:34:03.52
>>770が馬鹿だと納得した。

ここまで見た
  • 777
  •  
  • 2014/03/02(日) 11:40:45.99
急にレベル落ちたな

ここまで見た
  • 778
  •  
  • 2014/03/07(金) 20:55:49.73
文字コード関連の論文ってどこがメジャーですか?
探しても全然でてこない

ここまで見た
  • 779
  •  
  • 2014/03/07(金) 21:33:27.70
>>778

>>3
Unicode Home Page
http://www.unicode.org/
ISO-IR - 2.8.1 Coding systems with Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm

ここまで見た
  • 780
  •  
  • 2014/03/07(金) 22:35:48.09
論文とはちょっと違うような。
文字コード関連で論文書いてると言ったら
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications.html
が真っ先に思い浮かんだ

ここまで見た
  • 781
  •  
  • 2014/03/07(金) 22:42:10.26
UnicodeやISOのTRその他の方が激しい追求を受けると思いますが。

ここまで見た
  • 782
  •  
  • 2014/03/08(土) 09:20:49.63
でも上記のリンクはTRじゃないよ
むしろこっちでしょ
http://std.dkuug.dk/jtc1/sc2/wg2/

ここまで見た
  • 783
  •  
  • 2014/03/08(土) 09:23:43.86
っていうか>>3から引用しただけ?

ここまで見た
  • 784
  •  
  • 2014/03/08(土) 17:39:51.62
はてさて

ここまで見た
  • 785
  •  
  • 2014/03/11(火) 23:28:53.24
>>778
文字研究会
https://sites.google.com/site/mojiken/

ここまで見た
  • 786
  •  
  • 2014/03/11(火) 23:42:26.16
Unicode の EastAsianWidth.txt について、

00C1;N # LATIN CAPITAL LETTER A WITH ACUTE
00E1;A # LATIN SMALL LETTER A WITH ACUTE

のように同じ文字で大文字小文字の違いしか無さそうなのに
幅の扱いが異なるものがあるのですが、
このようなことになっている理由は何でしょうか?

ここまで見た
  • 787
  •  
  • 2014/03/12(水) 00:19:12.34
一方しか含まれていないコード体系があるとかじゃね
知らんけど

ここまで見た
  • 788
  •  
  • 2014/03/12(水) 02:11:29.05
そんなのあったっけ?
JIS X 0212から追加されてるみたいだけど

ここまで見た
  • 789
  •  
  • 2014/03/12(水) 16:49:07.31
なんで文字に番号振るだけなのに
研究とかしてんの?

ここまで見た
  • 790
  •  
  • 2014/03/12(水) 16:55:22.46
「文字とは何か」という哲学的な命題が背後にあるから

ここまで見た
  • 791
  •  
  • 2014/03/12(水) 19:11:13.07
>>788
日本の0212はSJIS対象外だから無視w
あれはほぼPC,Macの文字コード範囲くらいしか互換対象になってない。
中国のPCで大文字だけ使えたらしい。

ここまで見た
  • 792
  • 786
  • 2014/03/12(水) 22:16:09.94
>>787
調べてみたら、 GB 2312 だと小文字の方しか含まれていないようでした。
ttp://zh.wikipedia.org/wiki/%C3%81

JIS X 0212 などが反映されていない、というのは、
そもそも East Asian Width が古い文字コードとの互換性のためのものなので、
比較的新しい文字コードには対応しない、ということですかね。

うーん、ややこしい。

ここまで見た
  • 793
  •  
  • 2014/03/16(日) 19:03:10.60
Unicodeで互換用に残されてるけど使うべきじゃない文字ってどこかにまとまってる?

ここまで見た
  • 794
  •  
  • 2014/03/20(木) 21:44:45.24
バベルのページ見てたら
「バベルでの変換は特に明記していない限り MS-Windows の IE をお手本にしています。」
ってあるけどIEの変換方法って公開してるんだっけ?探しても見つからないんだけど

ここまで見た
  • 795
  •  
  • 2014/03/20(木) 22:12:54.66
バベルってのが分からんが、MS純正の文字コードAPIの変換使ってるだけなんじゃないの?

ここまで見た
  • 796
  •  
  • 2014/03/20(木) 23:08:51.90
>>795
えっそういうことなの
バベルは>>9のやつです

ここまで見た
  • 797
  •  
  • 2014/04/01(火) 00:33:15.13
さて

ここまで見た
  • 798
  •  
  • 2014/04/05(土) 21:32:13.78
cp932 = シフトJIS?
シフトJISっていう名称はどこかに登録されてる?
Shift_JISはIANAで登録されてると思うけど

ここまで見た
  • 799
  •  
  • 2014/04/05(土) 21:46:04.47
>>798
されていない

ここまで見た
  • 800
  •  
  • 2014/04/06(日) 08:01:34.90
JISの用語は「シフト符号化表現」だっけ?

あと、正式でない用語は、正確に実装されていないものとか、似たものを総称してとか、
そういうものを表現するために便利に使われている。

ここまで見た
  • 801
  •  
  • 2014/04/06(日) 15:32:34.79
JIS X 0208:1997ではね。
JIS X 0213:2004移行はShift_JIS-2004だよ。
JIS X 0213で文字増えた文も含むのはShift_JISX0213で。

ここまで見た
  • 802
  •  
  • 2014/04/06(日) 16:46:46.91
JISのシフトJISなんて当時の世の中の標準を
無視できなくなって遅れて書いただけだろ。
世間で「シフトJIS」と言ったときには
JISのそれを指すことなど安岡信者とその取り巻きを除いて
皆無に近い

ここまで見た
  • 803
  •  
  • 2014/04/06(日) 17:21:32.69
カッチリした規格があるのは重要。

ここまで見た
  • 804
  •  
  • 2014/04/06(日) 20:48:52.12
どの文字コードであれ正解は役所とかで実際に運用されている文字コードが正解になる
つまり何が正しいかの探求は役所への取材から始まる

ここまで見た
  • 805
  •  
  • 2014/04/06(日) 22:15:42.61
職場の愚痴はマ板行けよ。

ここまで見た
  • 806
  •  
  • 2014/04/07(月) 06:25:47.71
やなこったw

ここまで見た
  • 807
  •  
  • 2014/04/07(月) 09:46:47.69
経産省は役所じゃないのか

ここまで見た
  • 808
  •  
  • 2014/04/07(月) 09:49:42.18
>>798
Windows-31JだけどIEが対応していないので事実上使えない
Encoding StandardではShift_JIS = cp932 - PUA

ここまで見た
  • 809
  •  
  • 2014/04/07(月) 11:17:13.52
ぷあっ

ここまで見た
  • 810
  •  
  • 2014/04/08(火) 19:37:24.54
大江健三郎もびっくり、あいまいな日本のエンコーディング
もう疲れたからユニコードでいいです。
昨日ウブンツを適当に入れて日本のホームページを見たら
一部の漢字が見慣れない形をしていましたが
そのぐらいのことは我慢します。

ここまで見た
  • 811
  •  
  • 2014/04/11(金) 23:11:28.88
http://slashdot.jp/~yasuoka/journal/579915
安岡センセイ迷走してるみたいだけど結局何が言いたいのだろう

砂時計アラームタイマー
フリックラーニング
ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード