文字コード総合スレ part8 [sc] | レス841-892 | 2ch過去ログ

★お気に入り追加

■ このスレッドは過去ログ倉庫に格納されています

1 2012/11/30(金) 13:16:02.46

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

砂時計アラームタイマー

フリックゾンビ

ここまで見た

841 2014/04/23(水) 21:52:29.17: 最初から UTF-16 も UTF-32 も可変長だけど
未だに固定長と思ってるやつなんかいるんだ？
そりゃすげーや

ここまで見た

842 2014/04/23(水) 21:58:56.82: そりゃ日本の官公庁相手に仕事してる分には
たいていそれで許されるからな

ここまで見た

843 2014/04/23(水) 22:22:44.74: >>841
「code pointを複数組み合わせた可変長で文字(grapheme)を表現する」っていう
Unicodeの基本をどうしても理解できない(認めたくない)人がいるんですよ。

ここまで見た

844 2014/04/23(水) 23:13:15.72: >>842

お役所が扱う人名なんて、それが許されない筆頭じゃなかろうか。

ここまで見た

845 2014/04/24(木) 11:06:30.10: Unicode1.0の頃はUCS-2。UTF-16は2.0から。
UCS-2はBMPの固定長エンコーディング。
まだ固定長原理主義者が多い頃だったから。

けどそれじゃBMP以外や合成文字どうすんねん、
規格の中で矛盾してるだろ、固定長原理主義無理だろってことで、
その辺入れたUTF-16になった。
たしかUTF系はベル研のケン・トンプソンが考えた8が最初。

うろ覚え書き込みだから、修正よろ。

ここまで見た

846 2014/04/25(金) 00:12:43.23: 修正不可能なくらい間違いまくってるよ。
そもそもUCSは文字集合を定めるものであり、UTFは個々の文字を
どう表現するかを定めるものであってまったく別の概念だし。

ここまで見た

847 2014/04/25(金) 08:45:09.27: CPUのエンディアンが複数あるため、UTF-16にはBEとLEがあります。
どのサイトも説明見ると大体こんなような事書いてあるけど意味が分からない
エンディアンがどうこうってエンコーディングの内部で解決されるべき問題でしょ？
CPUに合わせてLEを使うと速いですよって事？

ここまで見た

848 2014/04/25(金) 08:57:28.13: 絵文字統一か

ここまで見た

849 2014/04/25(金) 13:03:42.00: >>847
確かにその説明はおかしいと思う。
画像フォーマットでもtiffにはエンディアンの指定があるが、普通はどちらにも対応する。

ここまで見た

850 2014/04/25(金) 13:20:19.28: >>847
ちゃんとエンコーディングでBE,LEが考慮されてるでしょ？
それともBEとLEの存在自体が問題だといってんの？
何がおかしいかわからない

ここまで見た

851 2014/04/25(金) 13:55:02.90: 何を悩んでいるのかしら無いけど、
初期のUTF16の話として16bit固定っていうのはわかるよね？

C言語風に書くならば、WCHAR型（16bit）となって、
WCHAR *text = "あいうえお";
こういう定義になる。

この時のメモリ配列はC言語の仕様によりCPUのエンディアンによって変わる。
このメモリ内容がUTF-16BEやUTF-16LEなんだよ。

ファイルに保存するときはどちらかに統一してもいいが、
処理を速くするためにCPUに合わせた形式でメモリには格納しないといけない。
だからUTF16-BEかUTF16-LEというものが生まれることになる。

メモリ内で使うために、UTF16-BE と UTF16-LE の存在を無くすことは出来ない。
そのメモリ内容をそのまま保存することもある。テキストファイルではなくて
構造体データの一部としてテキストが含まれている場合とか、一項目ずつ保存するのではなくて
メモリの構造体データを丸ごと保存したりするからね。

だから、UTF16-BEかUTF16-LEという存在はCPUのエンディアンの存在によって生まれ、
それを保存するファイルに格納されたデータの呼び名にもなる。

ここまで見た

852 2014/04/25(金) 14:14:58.98: テキストファイルで保存するときでもLEとBEを選べるエディタがあるんだが
それはおかしいのか？

ここまで見た

853 2014/04/25(金) 14:19:55.61: 世の中に二つの形式があるのなら、
二つの形式を選べるのが普通でしょう？

エンディアンが違うCPUとの間でもファイルの交換や、
ネットワーク通信できるんだから。

ここまで見た

854 2014/04/25(金) 14:57:01.01: > C言語風に書くならば、WCHAR型（16bit）となって、
> WCHAR *text = "あいうえお";
> こういう定義になる。
WCHAR *text = L"あいうえお";
じゃね？

ここまで見た

855 2014/04/25(金) 15:01:18.03: 別にC言語風だからどうでもいいよ

ここまで見た

856 2014/04/25(金) 15:34:10.60: たまには。PDPエンディアンのことも思い出してあげて

ここまで見た

857 2014/04/25(金) 15:49:44.73: エンディアン嘘つかない

ここまで見た

858 2014/04/25(金) 17:51:44.43: >>845
UCSとUTFの区別は最初はなかった。
最初はUCSのみ。
>>845も書いてるけど。

ここまで見た

859 2014/04/25(金) 17:56:44.39: >>847
UTF-16文字列はuint16_tの並び。
uint16_tだからCPUによってバイト順が違う。
だからエンコーディングのバイトオーダーが決まってると、
逆順のシステムはネットワークにデータを流す時にバイト順を毎回変えないといけない。
それを防ぐためにバイトオーダー順違いのエンコーディングが定義されてる。
こうしておくと必要なときだけバイト順を変えればいい。
DCE/RPCみたいに接続時にバイトオーダをネゴしてもいいし、
どちらを送られても必ず扱えるようにしてもいい。

ここまで見た

860 2014/04/25(金) 18:34:47.40: レスありがとう
2つの(代表的な)エンディアンがあってだからBEとLEがありますだと理由付けとして弱い、何か他にあるんじゃないの？？って疑問でした。
だから
>処理を速くするためにCPUに合わせた形式でメモリには格納しないといけない。
という事情があると知り納得しました。

ここまで見た

861 2014/04/25(金) 20:13:07.53: 2つしかない。

ここまで見た

862 2014/04/25(金) 20:28:19.84: Unicode規格のエンコーディングフォームと
エンコーディングスキームの区別が全く
ついていない人が集うスレはここですか？

ここまで見た

863 2014/04/25(金) 20:41:42.68: >>862
あなたもその一人です。

ここまで見た

864 2014/04/25(金) 21:32:54.46: キター
パーソナルメディア、Unicode　IVS／IVDを活用する異体字検索入力ツールを発売
http://itpro.nikkeibp.co.jp/article/ActiveR/20140422/552244/

ここまで見た

865 2014/04/26(土) 07:57:34.66: IVS流行るんかねぇ
今3000字くらいだっけ？登録されてるの

ここまで見た

866 2014/04/26(土) 20:11:54.73: 有料なのかよ
babelmap使えばいいな

ここまで見た

867 2014/04/27(日) 06:28:54.53: 先月までレビューをやってた新しいIVDはその後どうなったんだろ

ここまで見た

868 2014/04/27(日) 06:55:39.54: >>866
しかも10ライセンス単位
それでも一般販売されるようになっただけ一歩前進

ここまで見た

869 2014/05/01(木) 02:19:11.86: 20年以上前に MS-DOS で
grep "\["
ってやって、関係ない漢字が大量にヒットした時の絶望感。
Microsoft を捨てる理由になり得るということを
理解してくれる人は少ない。

ここまで見た

870 2014/05/01(木) 02:54:30.27: ほー。

ここまで見た

871 2014/05/01(木) 06:02:50.85: へー。

ここまで見た

872 2014/05/01(木) 17:37:23.88: MS-DOSにgrep有ったのか

ここまで見た

873 2014/05/01(木) 17:56:01.26: アスキーの Software Tools for MS-DOS 他、いろいろあったよ

ここまで見た

874 2014/05/01(木) 18:34:21.61: マイクロソフト以外のツールの出来が悪いと
Microsoft を捨てる理由になり得る　のか

ここまで見た

875 2014/05/01(木) 19:06:00.71: 「Microsoft漢字コード」って意味じゃねーの？

ここまで見た

876 2014/05/01(木) 21:32:54.04: 「Microsoft漢字コード」って意味です。
それ以外にも理由は山ほどありましたが。
その後、Pentium マシン買ってとっとと Linux 入れて
Microsoft を捨てました。前世紀のことです。
エンコーディングは当初は euc-jp , 後に utf-8 。

プリインストールされていた windows 98 を有効利用しようと
一応は努力したんですよ。10日間くらい。

ここまで見た

877 2014/05/02(金) 03:26:51.56: >>873
特に緑の256本にお世話になりました。

ここまで見た

878 2014/05/02(金) 08:40:36.13: まあバカには難しいからな

ここまで見た

879

ニュース記事より

2014/05/02(金) 12:43:16.91: UTF-16 で、+2D 91+A9 52 7D 00+9F 53+ って何ですか？
tp://headlines.yahoo.
co.jp/hl?a=20140427-00000009-asahi-int

ここまで見た

880

880

2014/05/02(金) 13:14:16.23: Internet Explorer を外したら上手くいきました。(._.)

ここまで見た

881 2014/05/07(水) 23:28:11.14: utf-1のオリジナルの仕様書はどこかに無いですかね？

ここまで見た

882 2014/05/08(木) 01:59:00.77: >>881
なにそれ？ 1bit encode?

ここまで見た

883 2014/05/08(木) 02:19:16.15: 8bitだな

ここまで見た

884 2014/05/08(木) 22:39:56.65: 数字の付け方が途中で変わったからねぇ。

ここまで見た

885 2014/05/09(金) 22:59:45.07: JIS X 0201の「ヲ」ってなんであんな位置にあるの？
「ワ」と「ン」の間じゃダメだったの？

ここまで見た

886 2014/05/10(土) 00:58:26.77: 不思議だワン

ここまで見た

887 2014/05/10(土) 01:01:06.78: 今主流は、ISO/IEC 8859-15? Windows-1252 ? unicode?

ここまで見た

888 2014/05/10(土) 01:09:42.82: あらゆる隔たりを越えて使われてるコードってなんだろ

ここまで見た

889 2014/05/10(土) 03:27:31.59: >>888
ASCIIコード

ここまで見た

890 2014/05/10(土) 03:29:41.16: JSON
Base64

ここまで見た

891 2014/05/10(土) 11:13:27.62: せめて文字コードからお願いします

ここまで見た

892 2014/05/10(土) 11:17:48.14

お客さまの文字コードを戴いてもよろしいでしょうか

フリック回転寿司

フリック回転寿司

ここまで見た

★お気に入り追加

このページを共有する

おすすめワード

スレッドランキング

1位成田悠輔氏「人権を声高に叫ぶ人ほど、自分の守りたい人権の...(68)
2024-11-11 21:00 [sc] 2位【音楽】「あなたにとって、最も偉大なベーシストは？」　ベー...(147)
2024-11-11 20:49 [sc] 3位【芸能】恋愛経験なしのやす子「1人暮らし寂しくなって」ペッ...(80)
2024-11-11 20:42 [sc] 4位「誰かわからなかった」北乃きい『旅サラダ』で見せた “痩せビ...(79)
2024-11-11 20:26 [sc] 5位粗品、文春訴訟終結の松本人志に「まだちょっと復帰早ない？ど...(215)
2024-11-11 20:25 [sc]

6位【視聴率】神木隆之介主演、日曜劇場『海に眠るダイヤモンド』...(189)
2024-11-11 19:48 [sc] 7位【野球】佐々木朗希に《ワガママ小僧》の指摘も…「ゴリ押し」...(175)
2024-11-11 19:41 [sc] 8位森永卓郎氏　国民・玉木代表の不倫スキャンダルに「“財務真理...(651)
2024-11-11 19:22 [sc] 9位【NBA】河村勇輝　3得点＆最多4アシストの躍動！今季最多出場...(80)
2024-11-11 18:40 [sc] 10位【NPB】近くフジテレビと話し合い　ワールドシリーズ再放送で...(216)
2024-11-11 18:30 [sc]

同一板（プログラム板）のスレッドリスト

高2の授業でアプリを作るんや。案を募集するやで(23)
2024-11-06 06:43 [sc] 【PHP】下らねぇ質問はここに書き込みやがれ 15(29)
2024-10-29 20:52 [sc] AIの執筆した記事(13)
2024-10-10 08:50 [sc] 個人開発者の雑談スレ(23)
2024-10-02 05:56 [sc] プログラミングに詳しくて辛抱強い人来て(34)
2024-09-30 21:47 [sc]

Pythonのお勉強 Part74(310)
2024-09-21 10:14 [sc] Rust part26(686)
2024-09-20 22:18 [sc] DoS攻撃ツール作ろうぜ(26)
2024-09-09 11:53 [sc] 【まず1嫁】くだすれPython(超初心者用) その60(80)
2024-09-01 19:58 [sc] WPF(.NET, WinUI) GUIプログラミング Part33(321)
2024-08-20 21:16 [sc]

おすすめスレッド[面白ネタnews板]

jsだけどお話しよー(11)
2024-08-12 17:19 [sc] 中学生ワイ、精神異常者に絡まれ養護教諭にブチギレられた話(27)
2024-06-12 21:30 [sc] ワイ、ホモに追いかけられているんだが(16)
2023-12-18 22:31 [sc] メルカリアカウント勝手に使われて自分の電話番号拒否されて...(11)
2023-07-01 13:02 [sc] みんなで田舎の高校有名にしようぜ(25)
2023-06-29 22:27 [sc]

姉の夢ノートを発掘したから晒すwww(10)
2023-06-27 20:54 [sc] みんな学校やったHなこと教えて！(12)
2023-06-21 21:50 [sc] 小学生だけど質問ある？(12)
2023-06-04 15:24 [sc] 誰か俺の悩みを聞いてくれ(14)
2023-05-07 13:03 [sc] ブラック企業から脱出した話聞く？(13)
2023-04-26 13:17 [sc]

速報スレッド

【MLB】大谷が「米国で有名じゃないは無理がある」 NYの巨大広...(10)
2024-11-11 21:48 [sc] 半導体・AI支援に10兆円　ラピダス念頭、政府が経済対策 [蚤...(15)
2024-11-11 21:44 [sc] 【視聴率】清原果耶主演『マイダイアリー』　第3話は2・3％　 ...(26)
2024-11-11 21:34 [sc] 国内主要自動車メーカーの中間決算出そろう 7社中5社が減益に...(60)
2024-11-11 21:27 [sc] 玉木雄一郎が不倫報道でも“無傷”でいられる理由…“ハイブリッド...(10)
2024-11-11 21:16 [sc]

【教育】「学習塾」の倒産、過去最多水準で推移★２ [シャチ★](45)
2024-11-11 21:15 [sc] 【芸能】丸山桂里奈　国民栄誉賞を「国民〝栄養〟...(25)
2024-11-11 21:15 [sc] 　石破総理　爆睡　 [784885787](30)
2024-11-11 21:06 [sc] 「客同士のトラブル。一方がナイフを取り出した」スポーツクラ...(76)
2024-11-11 21:01 [sc] 【実況】博衣こよりのえちえちLiar's Bar🧪★4(435)
2024-11-11 21:01 [sc]