文字コード総合スレ part8 [sc](★0)
-
- 1
- 2012/11/30(金) 13:16:02.46
-
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
-
- 942
- 2014/05/26(月) 12:31:29.88
-
UTF-8ってバイトストリームのくせになんでBOMなんてものがあるの?
-
- 943
- 2014/05/26(月) 12:35:07.83
-
>>942
深謀遠慮の馬鹿の所為。
-
- 944
- 2014/05/26(月) 12:37:23.58
-
>943
http://www.w3.org/International/questions/qa-byte-order-mark.en.php
> In the UTF-8 encoding, the presence of the BOM is not essential because,
> unlike the UTF-16 encodings, there is no alternative sequence of bytes in a character.
> However, the BOM may still occur in UTF-8 encoded text, either as a
> by-product of an encoding conversion or because it was added
> by an editor to flag the content as UTF-8.
> In this situation, the BOM is often called a UTF-8 signature.
ということで、UTF-8のBOMは、BOMと似ているバイトデータですが、
BOMという呼び名が気になるなら、UTF-8 signatureと呼びましょう。
-
- 945
- 2014/05/26(月) 12:42:12.84
-
なぜUTF-8 signatureがあるかといえば、
文字化け防止ですね。
マルチバイト文字列を使った文書の場合、
UTF-8で書いていても、他の文字コードだと
誤判定する可能性がある。
その可能性まで考慮する場合、つけても
いいということになっています。
そこまで考えるかどうかですね。
-
- 946
- 2014/05/26(月) 12:57:20.58
-
>>940
文字集合が違うものがある。
-
- 947
- 2014/05/26(月) 13:06:36.83
-
>>946
それはシフトJISの中で
78年とか83年とかって言われるやつ?
-
- 948
- 2014/05/26(月) 17:54:55.99
-
MS932なんて明らかに別物じゃない
-
- 949
- 2014/05/26(月) 18:41:56.31
-
>>940
シフトJIS:Shift_JISの俗称
Shift_JIS:正式名書 JIS X 0208とかIANAではこれが使われてる
S-JIS:Shift_JISの略称
MS932:MSによるShift_JISの拡張
あってる?
-
- 950
- 2014/05/26(月) 19:16:08.25
-
>>944
どこの馬の骨ともわからないサイトを引用して嬉しいか?
-
- 951
- 2014/05/26(月) 19:17:17.33
-
>>949
全然ダメ話にならない
安岡に洗脳された?
-
- 952
- 2014/05/26(月) 19:36:56.51
-
>>950
www.w3.org だよ。
http://ja.wikipedia.org/wiki/World_Wide_Web_Consortium
> World Wide Web Consortium(ワールド・ワイド・ウェブ・コンソーシアム)は、
> World Wide Webで使用される各種技術の標準化を推進する為に設立された
> 標準化団体、非営利団体。略称はW3C(ダブリュースリーシー)。
ま、知っていて言ってるんだろうけどねw
もしかしてw3がUTF-8 signatureを使用しても
いいものとして解説してるの知って悔しかった?
MS独自の仕様とかじゃないんだよw
-
- 953
- 2014/05/26(月) 19:42:54.92
-
>>952
unicodeの公式はこっちじゃないの?
http://www.unicode.org/
BOMのFAQは
http://www.unicode.org/faq/utf_bom.html
-
- 954
- 2014/05/26(月) 21:15:37.40
-
いや、「どこの馬の骨ともわからない」という
無知を馬鹿にしてるだけだからw
-
- 955
- 2014/05/26(月) 21:59:26.38
-
>>951
正解よろ
-
- 956
- 2014/05/26(月) 22:20:10.75
-
>>955
シフトJIS:Windows-31とかShift_JISなどの総称・俗称
S-JIS:シフトJISと同じ
Shift_JIS:シフトJIS系文字コードの一つ。IANAでの正式名称
Windows-31J:シフトJIS系文字コードの一つ。IANAでの正式名称
ms932:Windows-31Jと同じ。俗称
-
- 957
- 2014/05/26(月) 23:00:00.47
-
>>956
と言うことは
Shift_JISとWindows-31Jの2種類があるんだね
どのあたりのコード規格が違って2種類なの?
入ってるフォントや文字が違うってのは除いてね
-
- 958
- 2014/05/26(月) 23:00:05.62
-
何も説明してないな
-
- 959
- 2014/05/26(月) 23:02:22.93
-
>>957
> 入ってるフォントや文字が違うってのは除いてね
文字コードっていうのは、普通
入っているフォントや文字が違うものなんだけど、
その一番重要な部分を除く理由は何?
-
- 960
- 2014/05/26(月) 23:13:34.23
-
>>957
Shift_JISはJIS X 0208文字とJIS X 0201文字を含む
Windows-31Jはさらに「NEC特殊文字」「IBM拡張文字」を含む
-
- 961
- 2014/05/27(火) 01:20:43.41
-
>>959
コード体系と文字は別でしょ
Shift_JISでも78年文字とか83年文字とか
最近だと何年まで進んでるのかわからないけど
あと、同じコード位置でも機種依存やOS依存で違うし
これらはコード体系は同じと思ってる
ちがう?
-
- 962
- 2014/05/27(火) 03:20:26.43
-
wikipedia貼ってどやとかもう生きていられない次元
-
- 963
- 2014/05/27(火) 11:43:03.63
-
>>961
> コード体系と文字は別でしょ
別ではない。昔は厳密に区別されていなかった。
厳密に区別されるようになったのはUNICODEから
-
- 964
- 2014/05/27(火) 17:40:32.44
-
>>963
昔って83年以前?
その時点でShiftJISの78規格文字とか83規格文字はあったが
規格はShiftJISだったが
機種依存文字も各社バラバラだったが
文字とコードが一緒だとどうなってたの?
意識してない人も居たってところでしょ
-
- 965
- 2014/05/27(火) 17:47:14.30
-
文字化けというお化けが出る
-
- 966
- 2014/05/27(火) 18:06:25.64
-
>>937
ありがとう。書くよ。
エンコーディングの表記は "Shift_JIS" でいい?
grep の件は Shift_JIS だから起こった。
現在なら Shift_JIS に対応しているのを使えばいいと思うかもしれないけど
インターネット以前の時代だ。
パソコン通信はあったけど、そういうのを使える環境ではなかった。
情報は雑誌や書籍が頼りで、ソフトもそれらの付録の
フロッピーディスクが頼りだった。情報弱者だ。
しかし grep の件のような問題が起こらないエンコーディングが
あるということが解る程度には勉強していた。
自分で書くプログラムでは Shift_JIS にも一応は対応したし
海外産のプログラムを改造したこともあるが、それは
Shift_JIS だから必要なわけで、本当はやりたくない。
nkf はあったから、パイプ処理でなんとかなる場合もあるが
MS-DOS ではパイプ処理はあまり使いやすいものではない。
もし、コンソールドライバにエンコーディングを切り替えるオプションがあれば
海外のプログラムを無修正で使えたかもしれないのだが。
Shift_JIS でなければ何も問題は起こらないというわけではない。
grep もそうだ。しかし Shift_JIS でなければ起こらない問題が多すぎる。
つまり、grep が Shift_JIS に対応していないのが悪いのではなく
Shift_JIS を使っているのが不合理だという立場だ。
-
- 967
- 2014/05/27(火) 19:15:40.23
-
>grep が Shift_JIS に対応していないのが悪いのではなく
>Shift_JIS を使っているのが不合理
駅に車を違法駐車するひとが
「みんなやってるし取り締まる方が不合理」
と開き直ったような思考だな
-
- 968
- 2014/05/27(火) 20:37:49.77
-
>>966
結局シフトJISに対応してない問題しかないじゃないか(呆れ)
-
- 969
- 2014/05/27(火) 21:12:56.49
-
雑誌付録のソフトて大抵日本語対応てか作者日本人だから自然に対応してたよな
VectorがCD-ROMの頃で収録数増やすのにBSDとか海外製のオープンソースものが入ってきてた感じ
-
- 970
- 2014/05/27(火) 21:27:36.82
-
MS-DOSの時代にShift_JISなんてあったっけ?
シフトジスが1983年ぐらいとしてShift_JISは1997年じゃないの
-
- 971
- 2014/05/28(水) 01:03:28.34
-
x-sjis
-
- 972
- 2014/05/28(水) 02:31:34.80
-
PC-8801mk2FR (1985年11月発売)
ttp://121ware.com/support/product/data/spec/cpu/b041-1.html
PC-8801mk2MR (1985年11月発売)
ttp://121ware.com/support/product/data/spec/cpu/b042-1.html
私の記憶が正しければ、少なくともNEC製パソコンに関しては上記2機種以降
(FR/MR/FH/MH/FA/MA/FE/MA2/FE2/MC/VA/VA2/VA3)に標準添付された
N88-日本語BASICで、シフトJISコードが採用されていたはず。(MS-DOS全盛期より前)
実際、私も高校時代にPC-8801mk2FRの実機で日本語BASICをよく使っていたものだ。
それより一体いつの間に「シフトJIS」(シフトジス)と「Shift_JIS」が別物って話になってんだ?
上記のN88-日本語BASICにNEC独自の2バイト文字が一部含まれていたのは確かだったように記憶しているが、
基本的には呼び方が少し異なるだけで同じ文字コードを指すんじゃないのか?
-
- 973
- 2014/05/28(水) 06:56:42.97
-
いやShift_(アンダースコア)JISだけは別格のキワモノ
-
- 974
- 2014/05/28(水) 09:38:18.25
-
コードとフォントを区分けできない奴らが多いんだから
回答も適当なもんだ
-
- 975
- 2014/05/28(水) 09:48:09.99
-
シフトJISでもShift_JISでも良いんだけど
>Shift_JIS でなければ起こらない問題が多すぎる
これちゃんと説明しないと話にならん
-
- 976
- 2014/05/28(水) 09:53:02.69
-
もう済んだことを蒸し返すな。
説明させたら、まったくShift_JISのせいではなかった。
これが事実。
-
- 977
- 2014/05/28(水) 10:45:31.20
-
シフトジス
これ以降広い意味ではこれを使うこととする。
-
- 978
- 2014/05/28(水) 14:34:33.72
-
>>974
符号と字形っていうかコードとグリフじゃなくて?
-
- 979
- 2014/05/28(水) 16:42:18.75
-
えらく伸びていると思ったら
-
- 980
- 2014/05/28(水) 18:04:52.73
-
x-sjis とかが Shift_JIS になったのが 1997 年頃
-
- 981
- 2014/05/28(水) 19:34:38.71
-
x-sjisに定義なんて無かったんじゃないの?
Shift_JISがIANAで定義されてそのとき初めて
JIS X0208+0201という定義がされたのだと思ってたけど。
-
- 982
- 2014/05/28(水) 20:27:02.63
-
2バイト目にASCII文字と同じバイトが出現しうるからEUC-JPなら必要なかった
対応が余分に必要になるってよくある話?
Perlだとこういう問題が知られている。
http://homepage1.nifty.com/nomenclator/perl/shiftjis.htm
-
- 983
- 2014/05/28(水) 21:14:42.01
-
どこまで読んでも
「文字列をASCII+アルファの未知のデータと仮定して処理したら誤動作した」
でしかないんだよな。
言語やツールの仕様に「\や@と同じバイトは現れない文字コードが前提」
と言う制約が有るわけでもないのに。
-
- 984
- 2014/05/28(水) 21:23:03.13
-
文字コードって就職先あんの?
-
- 985
- 2014/05/28(水) 21:44:20.16
-
>>984
無いよ。
このスレを見てわかるとおり
文字コードにこだわる人=アスぺ基地外だからね
-
- 986
- 2014/05/28(水) 21:52:01.58
-
あとIMEのスレもキチガイ率高いな
文字にこだわるやつはキチガイ予備軍なんじゃね?
と思ったけどフォントスレはそうでもないな
-
- 987
- 2014/05/28(水) 22:00:10.73
-
Macのが最も素晴らしいだとかフォントのライセンス無視して改造して配ってたり
GDI++だったか妙なレンダリングに拘ってたりするイメージがあるけど
-
- 988
- 2014/05/28(水) 22:11:07.99
-
なんかそういうのとは毛色が違うんだよなぁ
フォント関係のとこのやつははうぜぇやつ止まり
コードやIMEのとこにいるやつはキチガイ臭がプンプンする
-
- 989
- 2014/05/28(水) 22:56:37.48
-
てすぽ
-
- 990
- 2014/05/28(水) 23:58:57.25
-
落ちたか?
-
- 991
- 2014/05/29(木) 00:37:00.53
-
>>981
Windows-31JはIANAに登録されてた。
このページを共有する
おすすめワード