facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 1
  •  
  • 2012/11/30(金) 13:16:02.46
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た
  • 697
  •  
  • 2014/02/04(火) 21:45:07.81
一応一階建てのaとgはU+0251とU+0261に符号化されてる。
発音記号用に符号化されてる(特にaについては一階建てか二階建てかで別の発音を表す)がそれ以外の字形の説明等の用途に使ってもいい筈。
でも二階建て専用コードは無いんだな。活字系のフォントではU+0061とU+0067は二階建てであることが多いが。
一部のフォントでは一階建てになってしまうから、厳密に二階建てであることを示さなければいけないときの為に符号化してほしいよな。
VSを使ってU+0061 U+FE00,U+0067 U+FE00とかでもいいから。

ここまで見た
  • 698
  •  
  • 2014/02/04(火) 21:51:42.38
二階建てa用のコードポイントがなくても発音記号用途は現状うまくまわってるの?

ここまで見た
  • 699
  •  
  • 2014/02/05(水) 00:12:17.20
「そ」の上が「ソ」と「フ」どっちなのか「き」「さ」「り」繋がっているかとかは割と話題に上るが
「え」「ん」の「〜」部分の山は角なのか丸なのか直前の斜線と一部同化するのか
「ね」「れ」「わ」の「フ」が「|」にかかるのかあたりはあまり聞かないな
漢字だったらさぞ大騒ぎすることだろう

ここまで見た
  • 700
  •  
  • 2014/02/05(水) 01:27:02.52
固有名詞が平仮名で字形が厳密に決められてる例というと、「さいたま」の「さ」(繋がってる字形)ぐらいか。
でも離した字形使って間違ってるから直せと言われたとか怒る人がいるという話しは聞いた事が無い。

ここまで見た
  • 701
  •  
  • 2014/02/05(水) 01:39:48.97
明朝体だと「お」の左下とか「や」の右上も気になる

ここまで見た
  • 702
  •  
  • 2014/02/05(水) 03:17:13.10
>>695
成り行きの改行で閉じの丸括弧を行頭に来させたくないなら、全角で。

ここまで見た
  • 703
  •  
  • 2014/02/05(水) 03:28:33.08
コード表で Unicode ラテン1補助(aとeがくっついてるの<00E6>があるあたり)見てるんだけど、
こんなところに"×"が入ってるんだな。だから○×と並べるの×が小さく見えるの? 関係ない?

ここまで見た
  • 704
  •  
  • 2014/02/05(水) 03:38:53.22
バツではなく掛け算記号だからしょうがない

ここまで見た
  • 705
  •  
  • 2014/02/05(水) 03:49:32.08
まあね。テヘッ

ここまで見た
  • 706
  •  
  • 2014/02/05(水) 14:07:24.00
×✕✖

ここまで見た
  • 707
  •  
  • 2014/02/05(水) 16:23:52.95
脱法ハーフスナック報道車

脱法ハーフスナック報道車

脱法ハーフスナック報道車

脱法ハーフスナック報道車

ここまで見た
  • 708
  •  
  • 2014/02/06(木) 01:22:07.85
このサイトの文字コードはほんと悩まされた、何でこんな珍しい文字コード使ってるのかってのない?
基本はShift-jis,euc-jp,utf-8で終わってしまうけど

ここまで見た
  • 709
  •  
  • 2014/02/06(木) 01:56:44.96
昔、x-macjapaneseを見た記憶がある。
もうないと思うけど。

ここまで見た
  • 710
  •  
  • 2014/02/06(木) 04:16:23.05
エディタのエンコーディングリストに
「無損失ASCII(Non-lossy ASCII)」ってのがあるんだけど、これなんだろう。

ここまで見た
  • 711
  •  
  • 2014/02/06(木) 06:59:18.67
>>696
規格票読む限りはその意図はない。
JIS X 0208はJIS X 0201のスーパーセットを作ろうとしただけのはず。

ここまで見た
  • 712
  •  
  • 2014/02/06(木) 08:03:16.72
>>711=アスペ

X 0201のAとX 0208のAが重複してるだろ。

ここまで見た
  • 713
  •  
  • 2014/02/06(木) 09:48:29.41
認定厨死ね。

重複は問題じゃない。

確か、ほんとうはちゃんとスーパーセットにするつもりだったのに、
結局スーパーセットになってないのが問題。

ここまで見た
  • 714
  •  
  • 2014/02/06(木) 10:21:37.55
>>708
2chがいまだにutf8化せずにcp932なのがアレ

ここまで見た
  • 715
  •  
  • 2014/02/06(木) 13:48:22.87
他スレに質問したのですが、このスレ見つけたので移動してきました

[\u3000-\u9fff]とは何を意味しているのでしょうか?
u3000はユニコードの全角空白のようですが、
u9fffは分かりません
おそらくユニコードによる漢字の最後の文字じゃないかと思うのですが

ここまで見た
  • 716
  •  
  • 2014/02/06(木) 15:10:55.51
CJK統合漢字
http://ja.wikipedia.org/wiki/CJK統合漢字

ここまで見た
  • 717
  •  
  • 2014/02/06(木) 21:28:49.97
>>711
スーパーセットつくろうとしたなら、
JIS X 0208を単独で使う意図があったんじゃないの?
実際使われていたし。

ここまで見た
  • 718
  •  
  • 2014/02/06(木) 21:40:05.37
mohta氏はそのように運用してはいたけど...

ここまで見た
  • 719
  •  
  • 2014/02/06(木) 21:45:31.67
今みたいにプロポーショナルフォント環境が多ければ、あれも違和感無く受け入れられたかも

ここまで見た
  • 720
  •  
  • 2014/02/06(木) 22:14:17.02
ISO 2022で言うところの、
G0にJIS X 0208に指示して、GLにG0を呼び出しっぱなしにした
文字エンコードはあちこちで使われていたよ。(G1-3, GRは使わない)
古くはJISコードというのはこういうもののことを言った。
JUNETコードを指す狭い使い方はずっと時代が下ってからの話。

ここまで見た
  • 721
  •  
  • 2014/02/07(金) 00:27:02.92
いわゆるKI/KOコード?

ここまで見た
  • 722
  •  
  • 2014/02/07(金) 04:45:07.67
>>718
加齢臭のする思い出クソワロタ

ここまで見た
  • 723
  •  
  • 2014/02/07(金) 10:41:04.89
ja_JP.UTF-8とUFT-8とは何が違うのですか?

ここまで見た
  • 724
  •  
  • 2014/02/07(金) 21:23:20.21
>ja_JP.UTF-8
何ですか?それは

>UFT-8
Unicode規格で定められたテキスト円コーディングのこと

ここまで見た
  • 725
  •  
  • 2014/02/07(金) 21:52:06.24
ドル建てで

ここまで見た
  • 726
  •  
  • 2014/02/07(金) 21:57:57.94
>>724
>>ja_JP.UTF-8
>何ですか?それは

ANSI C ロケール名です。

language[_territory][. codeset] [@modifier]

ここまで見た
  • 727
  •  
  • 2014/02/07(金) 23:29:37.63
>>724

ここまで見た
  • 728
  •  
  • 2014/02/08(土) 01:08:20.49
>>709
x-japmacanese HAHAHA!

ここまで見た
  • 729
  •  
  • 2014/02/08(土) 06:12:59.83
>>726
「ANSI C ロケール名」とは何なのか。
定義を教えて下さい。

ここまで見た
  • 730
  •  
  • 2014/02/08(土) 11:03:51.90
書いてあるがな

ここまで見た
  • 731
  •  
  • 2014/02/08(土) 12:19:47.04
なるほど。では改めて。

>UFT-8
Unicode規格で定められたテキスト円コーディングのこと

>ja_JP.UTF-8
>>723が考えた書式の文字列。特に意味はない。

ここまで見た
  • 732
  •  
  • 2014/02/08(土) 12:54:03.29
君の頭の中では面白いのか?

ここまで見た
  • 733
  •  
  • 2014/02/08(土) 13:00:43.22
>>723
文字集合とエンコード方式の違い

なぜかOracleだが丁寧に書いてあるからいいだろう
国際化対応言語環境の利用ガイド
http://docs.oracle.com/cd/E26924_01/html/E27144/glmbx.html

ここまで見た
  • 734
  •  
  • 2014/02/08(土) 13:03:11.48
知らない言葉を見れば分からないといって荒らし
知っている言葉があれば関係ないところでひけらかして暴れる

サウイフモノニ
ワタシハナリタイ

ここまで見た
  • 735
  •  
  • 2014/02/08(土) 13:06:16.13
>>733
Sun由来のSolarisドキュメント

ここまで見た
  • 736
  •  
  • 2014/02/08(土) 15:35:34.13
特定のソフトウェア製品で使われる
あることを意味する文字列と
一般的な文字コードの名称を一緒にするなってことだろ

ここまで見た
  • 737
  •  
  • 2014/02/08(土) 15:39:36.12
ANSI Cロケールと無縁なシステムなんてないだろw

ここまで見た
  • 738
  •  
  • 2014/02/08(土) 15:46:35.94
>>731 いつまで嘘垂れ流し続けるんだ

ここまで見た
  • 739
  •  
  • 2014/02/09(日) 00:42:57.53
>>710
Macのやつね。Javaのnative2asciiと同じ形式(完全に同じかはわかんない)

ここまで見た
  • 740
  •  
  • 2014/02/09(日) 01:44:36.74
>>708
ていうか Shift-jisってcp932とは違うと思うんだけど実際には多くのサイトが
cp932の意味で使ってるよね。あと euc-jp にも似たような事情が。

こういうのに悩まされたことが、俺にはありました。

ここまで見た
  • 741
  •  
  • 2014/02/09(日) 02:52:50.51
cp932はShift-jisなので問題ない

ここまで見た
  • 742
  •  
  • 2014/02/09(日) 05:29:52.25
>>739
ごめん言ってみただけなの、なのに、ありがとう。

ここまで見た
  • 743
  •  
  • 2014/02/09(日) 12:09:50.75
CP932はシフトJISだがシフトJISがCP932とは限らない

ここまで見た
  • 744
  •  
  • 2014/02/09(日) 12:11:18.01
CP9ってなんだっけ?

ここまで見た
  • 745
  •  
  • 2014/02/09(日) 12:18:27.99
9は存在しない(あるいはすでに廃止されている)ようだ。
http://www-01.ibm.com/software/globalization/ccsid/ccsid_registered.html

ここまで見た
  • 746
  •  
  • 2014/02/11(火) 06:33:45.22
シフトJISだがShift_JISではないということ。

ここまで見た
  • 747
  •  
  • 2014/02/12(水) 15:59:51.17
\xe3って何ですか?
調べてみても、あまりよく分からなかったのですが
Unicodeだと思うのですが

ここまで見た
  • 748
  •  
  • 2014/02/12(水) 16:20:39.29
それはどこに出てきたの?

お絵かきランド
フリック回転寿司
ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード