文字コード総合スレ part8 [sc] | レス818-868 | 2ch過去ログ

★お気に入り追加

■ このスレッドは過去ログ倉庫に格納されています

1 2012/11/30(金) 13:16:02.46

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

お絵かきランド

フリックゾンビ

ここまで見た

818 2014/04/15(火) 23:18:51.37: スラドにコメントしろよ

ここまで見た

819 2014/04/16(水) 00:47:06.39: うむ。

ここまで見た

820 2014/04/17(木) 21:25:09.42: 本人認定とか、完全にまじキチ君だな。

ここまで見た

821 2014/04/17(木) 21:36:39.35: どうでもいいよもう。

とりあえず安岡叩きしてる人はどこか味方のいる場所を見つけてそっちで好きなだけやってくれ。
ここで叩いても誰も賛同せずに今回みたいな流れになるだけだからさ。

ここまで見た

822 2014/04/19(土) 02:41:39.74: ネットのテキストをコピーすると、たまに文字コードの異なる半角スペースがあるのが困る。

ここまで見た

823 2014/04/19(土) 05:54:36.53: ？

ここまで見た

824 2014/04/19(土) 09:54:13.30: どちらかというと「安岡」という単語に猿のレベルで脊髄反射して
トロン信者認定のレスを貼る安岡信者の方がすごいと思う

ここまで見た

825 2014/04/19(土) 13:11:12.57: >>824
過去ログに残る執拗な叩きの痕跡という前提がまるで存在しないかのように、
件の彼に対する反応を「『安岡』という単語に猿のレベルで脊髄反射」ってことにするのはどうかと。
あなたが同列に「どちらがすごいか」を比べてるのが奇妙に思えるほど、件の彼の行動は異質。積み重ねがあるからね。

そしてもちろん、件の彼について話している人は
「この人はなぜ、疎まれることがわかっている場でなお1人で叩き書き込みを続けるモチベーションを持っているのだろう？」
という点を不思議に思って集まっているんであって、書き込みの動機は明確。ここから「安岡信者」と解釈はしづらい。

また、仮にもしそのなかに「安岡信者」が紛れ込んでいたとして、
その信者はこのスレで執拗に「敵」を叩き続けたりはしていない。
件の彼と違って人畜無害なのだから、ほうっておけば良い。

ここまで見た

826 2014/04/19(土) 13:15:43.09: おれなんでこのスレ常駐してんだっけ……

ここまで見た

827 2014/04/19(土) 13:43:05.46: >信者はこのスレで執拗に「敵」を叩き続けたりはしていない。

これには同意。
安岡信者は被害妄想が激しく
単発のレスで偏執に被害を主張するのが特徴だからね。

ここまで見た

828 2014/04/19(土) 17:03:56.09: >>822
NBSPが紛れこんでてイラっと来るやつかな

ここまで見た

829 2014/04/20(日) 08:23:30.09: 信者とか言い出す時点でどの発言も議論として無価値

ここまで見た

830 2014/04/21(月) 10:53:47.48: > 被害妄想が激しく
> 単発のレスで偏執に被害を主張するのが特徴だからね。

安岡さんに対して執拗に粘着している君の特徴じゃないかw

ここまで見た

831 2014/04/21(月) 19:22:16.02: 安岡センセイもビットコインに走っちゃったから…
…おっと誰か来たようだ

ここまで見た

832 2014/04/22(火) 02:46:51.52: 誰も来てない

ここまで見た

833 2014/04/22(火) 16:39:21.34: よそでやれよ気違いども

ここまで見た

834 2014/04/23(水) 01:02:12.57: サロゲートペアがらみで文字化けとか文字落ちは未だに良くありますか？
合成文字（アイヌ語表記用）などがうまく処理できないんですけど、完全にサポートをしないと割り切った人はいますか？

ここまで見た

835 2014/04/23(水) 01:11:50.85: サロゲートペアかどうかの判定なんていちいち入れないし
固定長に可変長混ぜたら何の意味もない

ここまで見た

836 2014/04/23(水) 01:58:46.32: 何か誤解してる様だが、元々Unicodeの文字表現は可変長

ここまで見た

837 2014/04/23(水) 18:34:35.68: はじめは16bit固定じゃないの？

ここまで見た

838 2014/04/23(水) 20:59:37.84: 「元々」って「当初は」って意味で書いてないのか
すまん

ここまで見た

839 2014/04/23(水) 21:11:18.40: 「か」と「゛」で「が」みたいに
二文字で一文字を表す合字があるんだから、
言語機能かライブラリを使うしか
現実的な対応方法ないだろ。

逆に言えば、それらを使っていれば
無視できる問題。

ここまで見た

840 2014/04/23(水) 21:34:36.00: UTF-8あたりとごっちゃになってる？

ここまで見た

841 2014/04/23(水) 21:52:29.17: 最初から UTF-16 も UTF-32 も可変長だけど
未だに固定長と思ってるやつなんかいるんだ？
そりゃすげーや

ここまで見た

842 2014/04/23(水) 21:58:56.82: そりゃ日本の官公庁相手に仕事してる分には
たいていそれで許されるからな

ここまで見た

843 2014/04/23(水) 22:22:44.74: >>841
「code pointを複数組み合わせた可変長で文字(grapheme)を表現する」っていう
Unicodeの基本をどうしても理解できない(認めたくない)人がいるんですよ。

ここまで見た

844 2014/04/23(水) 23:13:15.72: >>842

お役所が扱う人名なんて、それが許されない筆頭じゃなかろうか。

ここまで見た

845 2014/04/24(木) 11:06:30.10: Unicode1.0の頃はUCS-2。UTF-16は2.0から。
UCS-2はBMPの固定長エンコーディング。
まだ固定長原理主義者が多い頃だったから。

けどそれじゃBMP以外や合成文字どうすんねん、
規格の中で矛盾してるだろ、固定長原理主義無理だろってことで、
その辺入れたUTF-16になった。
たしかUTF系はベル研のケン・トンプソンが考えた8が最初。

うろ覚え書き込みだから、修正よろ。

ここまで見た

846 2014/04/25(金) 00:12:43.23: 修正不可能なくらい間違いまくってるよ。
そもそもUCSは文字集合を定めるものであり、UTFは個々の文字を
どう表現するかを定めるものであってまったく別の概念だし。

ここまで見た

847 2014/04/25(金) 08:45:09.27: CPUのエンディアンが複数あるため、UTF-16にはBEとLEがあります。
どのサイトも説明見ると大体こんなような事書いてあるけど意味が分からない
エンディアンがどうこうってエンコーディングの内部で解決されるべき問題でしょ？
CPUに合わせてLEを使うと速いですよって事？

ここまで見た

848 2014/04/25(金) 08:57:28.13: 絵文字統一か

ここまで見た

849 2014/04/25(金) 13:03:42.00: >>847
確かにその説明はおかしいと思う。
画像フォーマットでもtiffにはエンディアンの指定があるが、普通はどちらにも対応する。

ここまで見た

850 2014/04/25(金) 13:20:19.28: >>847
ちゃんとエンコーディングでBE,LEが考慮されてるでしょ？
それともBEとLEの存在自体が問題だといってんの？
何がおかしいかわからない

ここまで見た

851 2014/04/25(金) 13:55:02.90: 何を悩んでいるのかしら無いけど、
初期のUTF16の話として16bit固定っていうのはわかるよね？

C言語風に書くならば、WCHAR型（16bit）となって、
WCHAR *text = "あいうえお";
こういう定義になる。

この時のメモリ配列はC言語の仕様によりCPUのエンディアンによって変わる。
このメモリ内容がUTF-16BEやUTF-16LEなんだよ。

ファイルに保存するときはどちらかに統一してもいいが、
処理を速くするためにCPUに合わせた形式でメモリには格納しないといけない。
だからUTF16-BEかUTF16-LEというものが生まれることになる。

メモリ内で使うために、UTF16-BE と UTF16-LE の存在を無くすことは出来ない。
そのメモリ内容をそのまま保存することもある。テキストファイルではなくて
構造体データの一部としてテキストが含まれている場合とか、一項目ずつ保存するのではなくて
メモリの構造体データを丸ごと保存したりするからね。

だから、UTF16-BEかUTF16-LEという存在はCPUのエンディアンの存在によって生まれ、
それを保存するファイルに格納されたデータの呼び名にもなる。

ここまで見た

852 2014/04/25(金) 14:14:58.98: テキストファイルで保存するときでもLEとBEを選べるエディタがあるんだが
それはおかしいのか？

ここまで見た

853 2014/04/25(金) 14:19:55.61: 世の中に二つの形式があるのなら、
二つの形式を選べるのが普通でしょう？

エンディアンが違うCPUとの間でもファイルの交換や、
ネットワーク通信できるんだから。

ここまで見た

854 2014/04/25(金) 14:57:01.01: > C言語風に書くならば、WCHAR型（16bit）となって、
> WCHAR *text = "あいうえお";
> こういう定義になる。
WCHAR *text = L"あいうえお";
じゃね？

ここまで見た

855 2014/04/25(金) 15:01:18.03: 別にC言語風だからどうでもいいよ

ここまで見た

856 2014/04/25(金) 15:34:10.60: たまには。PDPエンディアンのことも思い出してあげて

ここまで見た

857 2014/04/25(金) 15:49:44.73: エンディアン嘘つかない

ここまで見た

858 2014/04/25(金) 17:51:44.43: >>845
UCSとUTFの区別は最初はなかった。
最初はUCSのみ。
>>845も書いてるけど。

ここまで見た

859 2014/04/25(金) 17:56:44.39: >>847
UTF-16文字列はuint16_tの並び。
uint16_tだからCPUによってバイト順が違う。
だからエンコーディングのバイトオーダーが決まってると、
逆順のシステムはネットワークにデータを流す時にバイト順を毎回変えないといけない。
それを防ぐためにバイトオーダー順違いのエンコーディングが定義されてる。
こうしておくと必要なときだけバイト順を変えればいい。
DCE/RPCみたいに接続時にバイトオーダをネゴしてもいいし、
どちらを送られても必ず扱えるようにしてもいい。

ここまで見た

860 2014/04/25(金) 18:34:47.40: レスありがとう
2つの(代表的な)エンディアンがあってだからBEとLEがありますだと理由付けとして弱い、何か他にあるんじゃないの？？って疑問でした。
だから
>処理を速くするためにCPUに合わせた形式でメモリには格納しないといけない。
という事情があると知り納得しました。

ここまで見た

861 2014/04/25(金) 20:13:07.53: 2つしかない。

ここまで見た

862 2014/04/25(金) 20:28:19.84: Unicode規格のエンコーディングフォームと
エンコーディングスキームの区別が全く
ついていない人が集うスレはここですか？

ここまで見た

863 2014/04/25(金) 20:41:42.68: >>862
あなたもその一人です。

ここまで見た

864 2014/04/25(金) 21:32:54.46: キター
パーソナルメディア、Unicode　IVS／IVDを活用する異体字検索入力ツールを発売
http://itpro.nikkeibp.co.jp/article/ActiveR/20140422/552244/

ここまで見た

865 2014/04/26(土) 07:57:34.66: IVS流行るんかねぇ
今3000字くらいだっけ？登録されてるの

ここまで見た

866 2014/04/26(土) 20:11:54.73: 有料なのかよ
babelmap使えばいいな

ここまで見た

867 2014/04/27(日) 06:28:54.53: 先月までレビューをやってた新しいIVDはその後どうなったんだろ

ここまで見た

868 2014/04/27(日) 06:55:39.54

>>866
しかも10ライセンス単位
それでも一般販売されるようになっただけ一歩前進

お絵かきランド

フリックラーニング

ここまで見た

★お気に入り追加

このページを共有する

おすすめワード

スレッドランキング

1位自己破産検討のてんちむ、仕事探すも“昼職”の低賃金に驚き「マ...(173)
2024-07-03 16:57 [sc] 2位【ドジャース】大谷翔平がキング独走２７号逆転２ラン　米通算...(82)
2024-07-03 16:04 [sc] 3位【テレ東】「真夏の絶恐映像日本で一番コワい夜」心霊特番、...(226)
2024-07-03 16:00 [sc] 4位【サッカー】パリ五輪落選の松木玖生は海外移籍？日本代表発...(263)
2024-07-03 15:34 [sc] 5位【サッカー】U−23日本代表、パリ五輪に臨むメンバーを発表！　...(288)
2024-07-03 15:30 [sc]

6位【映画】『ルックバック』公開日にXの日本トレンド1位　小島秀...(91)
2024-07-03 15:02 [sc] 7位【テレビ】NHK『虎に翼』、“生理休暇”描かれトレンド入り…　さ...(90)
2024-07-03 14:19 [sc] 8位【サッカー】U−23日本代表、パリ五輪に臨むメンバーを発表！　...(1001)
2024-07-03 14:07 [sc] 9位カップルYouTuberが破局報告涙ながらにファンに感謝 [爆笑ゴ...(184)
2024-07-03 13:38 [sc] 10位【ドジャース】大谷翔平がキング独走２７号逆転２ラン　米通算...(1001)
2024-07-03 13:25 [sc]

同一板（プログラム板）のスレッドリスト

★●アニメ地球外少年少女について●(14)
2024-06-23 11:06 [sc] 右も左もわからんこれから始めようとしてる物だが(10)
2024-06-23 07:46 [sc] 【Kotlin】Compose Multiplatform 1(23)
2024-06-20 23:47 [sc] 最近学校の顧問に頼まれたプログラムのこと。(41)
2024-06-20 18:30 [sc] Qiita 5 - キータぞ、来たぞ、キータだぞー(93)
2024-06-06 14:17 [sc]

Pythonのお勉強 Part73(130)
2024-06-06 08:48 [sc] Rust part24(564)
2024-05-27 06:41 [sc] Visual Studio Code / VSCode Part15(33)
2024-05-26 16:18 [sc] Flutterやろうよ！！！ 5(249)
2024-05-06 11:08 [sc] 雰囲気良好。(10)
2024-04-28 19:26 [sc]

おすすめスレッド[臨時地震+板]

地震があったら上げるスレ★604(40)
2024-02-09 17:46 [sc] 地震があったら上げるスレ★604(83)
2023-10-25 20:45 [sc]

【地震情報】20230908045650 トカラ列島近海 M3.0 深さ20km 最...(10)
2023-09-08 05:05 [sc] 【地震情報】20230816020738 宮古島近海 M4.7 深さ50km 最大震...(11)
2023-08-16 02:14 [sc]

速報スレッド

【長崎】公営住宅のロビーで小学生女児に性的暴行を加え、ショ...(12)
2024-07-03 19:02 [sc] 【画像あり】遂に俺の手元に新一万円札がキターーーーーーーー...(13)
2024-07-03 18:58 [sc] 台湾有事秒読みか！？台湾の漁船が中国海洋警察に身柄を拘束さ...(11)
2024-07-03 18:52 [sc] すぐ「車種」がわかるやつwww(45)
2024-07-03 18:51 [sc] 【安い国】ペットボトルの水が880円、美術館の日本語ガイドは...(122)
2024-07-03 18:51 [sc]

一人酒(12)
2024-07-03 18:49 [sc] 【不謹慎】コロナが流行っている時代なのに安藤美姫が教え子の...(36)
2024-07-03 18:48 [sc] こどおじ俺氏の部屋のエアコンがぶっ壊れる(10)
2024-07-03 18:47 [sc] 結婚式がピン札だっけ？お葬式がピン札だっけ？(32)
2024-07-03 18:45 [sc] 弊社の新入社員さん。女上司さんと付き合ってる模様。(12)
2024-07-03 18:45 [sc]