文字コード総合スレ part8 [sc](★0)
-
- 1
- 2012/11/30(金) 13:16:02.46
-
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
-
- 682
- 2014/02/02(日) 10:43:50.50
-
> じゃあ、例示字形ってなんなの?
例として示す字形に決まってるじゃん。
^^^^^^^^
絶対これにしろ、と決めるものではない。
-
- 684
- 2014/02/02(日) 15:24:48.86
-
その文章にルールが必要なら決まりに従う、または、決めればいい
入力は誰しも間違うから verifier を用意すること
間違ったからお前が悪いとかあほなことは言わない
-
- 685
- 2014/02/02(日) 16:32:39.69
-
不統一なものを一括処理するスクリプトでも書いておく、と
-
- 686
- 2014/02/03(月) 11:24:18.72
-
ああ、それがいい
-
- 687
- 2014/02/04(火) 00:30:36.47
-
二階建てのaとgの文字コードが欲しいよな。
フォントが指定できない環境で一階建てのaとgとの違いを説明するのに必要だから。
-
- 688
- 2014/02/04(火) 02:03:46.18
-
純粋な字形の説明なんて文字コードの守備範囲外だろう。
それやりだすと「下に棒のある1とない1」「上が閉じている4と開いている4」「横棒が1本の\と2本の\」みたいに収拾がつかなくなるぞ。
-
- 689
- 2014/02/04(火) 05:03:58.19
-
「$」の中の棒を2本にしろとか言われるしorz
-
- 690
- 2014/02/04(火) 06:44:55.07
-
どうしてもプレーンテキストでやりたいなら↓これでどうにかなる
_■■■
____■____■■■
_■■■■___■___■
■___■__■___■
■___■__■___■
_■■■____■■■_■
-
- 691
- 2014/02/04(火) 07:14:45.36
-
そもそも、JIS X 0208で英数記号をISO 646と重複符号化したことが問題。
便宜上全角・半角と呼ばれて字形を区別しているフォントが多いが、本来は全角・半角なんて概念は文字コード自体に存在しない。
-
- 692
- 2014/02/04(火) 08:20:17.20
-
半角2バイト文字とか、いや〜ん
-
- 693
- 2014/02/04(火) 10:23:20.18
-
流石にそれは98機種依存だけどなw
-
- 694
- 2014/02/04(火) 21:31:34.29
-
>>625
つ mathモードのカッコを好みのサイズに引き伸ばして使う派
-
- 695
- 2014/02/04(火) 21:32:40.85
-
>>628
(applicationが好き)だとどうなるのだろうか?
-
- 696
- 2014/02/04(火) 21:37:40.51
-
>>691
けどomicronとかEPWINGみたいな使い方を想定したんでしょ?
-
- 697
- 2014/02/04(火) 21:45:07.81
-
一応一階建てのaとgはU+0251とU+0261に符号化されてる。
発音記号用に符号化されてる(特にaについては一階建てか二階建てかで別の発音を表す)がそれ以外の字形の説明等の用途に使ってもいい筈。
でも二階建て専用コードは無いんだな。活字系のフォントではU+0061とU+0067は二階建てであることが多いが。
一部のフォントでは一階建てになってしまうから、厳密に二階建てであることを示さなければいけないときの為に符号化してほしいよな。
VSを使ってU+0061 U+FE00,U+0067 U+FE00とかでもいいから。
-
- 698
- 2014/02/04(火) 21:51:42.38
-
二階建てa用のコードポイントがなくても発音記号用途は現状うまくまわってるの?
-
- 699
- 2014/02/05(水) 00:12:17.20
-
「そ」の上が「ソ」と「フ」どっちなのか「き」「さ」「り」繋がっているかとかは割と話題に上るが
「え」「ん」の「〜」部分の山は角なのか丸なのか直前の斜線と一部同化するのか
「ね」「れ」「わ」の「フ」が「|」にかかるのかあたりはあまり聞かないな
漢字だったらさぞ大騒ぎすることだろう
-
- 700
- 2014/02/05(水) 01:27:02.52
-
固有名詞が平仮名で字形が厳密に決められてる例というと、「さいたま」の「さ」(繋がってる字形)ぐらいか。
でも離した字形使って間違ってるから直せと言われたとか怒る人がいるという話しは聞いた事が無い。
-
- 701
- 2014/02/05(水) 01:39:48.97
-
明朝体だと「お」の左下とか「や」の右上も気になる
-
- 702
- 2014/02/05(水) 03:17:13.10
-
>>695
成り行きの改行で閉じの丸括弧を行頭に来させたくないなら、全角で。
-
- 703
- 2014/02/05(水) 03:28:33.08
-
コード表で Unicode ラテン1補助(aとeがくっついてるの<00E6>があるあたり)見てるんだけど、
こんなところに"×"が入ってるんだな。だから○×と並べるの×が小さく見えるの? 関係ない?
-
- 704
- 2014/02/05(水) 03:38:53.22
-
バツではなく掛け算記号だからしょうがない
-
- 705
- 2014/02/05(水) 03:49:32.08
-
まあね。テヘッ
-
- 706
- 2014/02/05(水) 14:07:24.00
-
×✕✖
-
- 707
- 2014/02/05(水) 16:23:52.95
-
脱法ハーフスナック報道車
脱法ハーフスナック報道車
脱法ハーフスナック報道車
脱法ハーフスナック報道車
-
- 708
- 2014/02/06(木) 01:22:07.85
-
このサイトの文字コードはほんと悩まされた、何でこんな珍しい文字コード使ってるのかってのない?
基本はShift-jis,euc-jp,utf-8で終わってしまうけど
-
- 709
- 2014/02/06(木) 01:56:44.96
-
昔、x-macjapaneseを見た記憶がある。
もうないと思うけど。
-
- 710
- 2014/02/06(木) 04:16:23.05
-
エディタのエンコーディングリストに
「無損失ASCII(Non-lossy ASCII)」ってのがあるんだけど、これなんだろう。
-
- 711
- 2014/02/06(木) 06:59:18.67
-
>>696
規格票読む限りはその意図はない。
JIS X 0208はJIS X 0201のスーパーセットを作ろうとしただけのはず。
-
- 712
- 2014/02/06(木) 08:03:16.72
-
>>711=アスペ
X 0201のAとX 0208のAが重複してるだろ。
-
- 713
- 2014/02/06(木) 09:48:29.41
-
認定厨死ね。
重複は問題じゃない。
確か、ほんとうはちゃんとスーパーセットにするつもりだったのに、
結局スーパーセットになってないのが問題。
-
- 714
- 2014/02/06(木) 10:21:37.55
-
>>708
2chがいまだにutf8化せずにcp932なのがアレ
-
- 715
- 2014/02/06(木) 13:48:22.87
-
他スレに質問したのですが、このスレ見つけたので移動してきました
[\u3000-\u9fff]とは何を意味しているのでしょうか?
u3000はユニコードの全角空白のようですが、
u9fffは分かりません
おそらくユニコードによる漢字の最後の文字じゃないかと思うのですが
-
- 716
- 2014/02/06(木) 15:10:55.51
-
CJK統合漢字
http://ja.wikipedia.org/wiki/CJK統合漢字
-
- 717
- 2014/02/06(木) 21:28:49.97
-
>>711
スーパーセットつくろうとしたなら、
JIS X 0208を単独で使う意図があったんじゃないの?
実際使われていたし。
-
- 718
- 2014/02/06(木) 21:40:05.37
-
mohta氏はそのように運用してはいたけど...
-
- 719
- 2014/02/06(木) 21:45:31.67
-
今みたいにプロポーショナルフォント環境が多ければ、あれも違和感無く受け入れられたかも
-
- 720
- 2014/02/06(木) 22:14:17.02
-
ISO 2022で言うところの、
G0にJIS X 0208に指示して、GLにG0を呼び出しっぱなしにした
文字エンコードはあちこちで使われていたよ。(G1-3, GRは使わない)
古くはJISコードというのはこういうもののことを言った。
JUNETコードを指す狭い使い方はずっと時代が下ってからの話。
-
- 721
- 2014/02/07(金) 00:27:02.92
-
いわゆるKI/KOコード?
-
- 722
- 2014/02/07(金) 04:45:07.67
-
>>718
加齢臭のする思い出クソワロタ
-
- 723
- 2014/02/07(金) 10:41:04.89
-
ja_JP.UTF-8とUFT-8とは何が違うのですか?
-
- 724
- 2014/02/07(金) 21:23:20.21
-
>ja_JP.UTF-8
何ですか?それは
>UFT-8
Unicode規格で定められたテキスト円コーディングのこと
-
- 725
- 2014/02/07(金) 21:52:06.24
-
ドル建てで
-
- 726
- 2014/02/07(金) 21:57:57.94
-
>>724
>>ja_JP.UTF-8
>何ですか?それは
ANSI C ロケール名です。
language[_territory][. codeset] [@modifier]
-
- 727
- 2014/02/07(金) 23:29:37.63
-
>>724
-
- 728
- 2014/02/08(土) 01:08:20.49
-
>>709
x-japmacanese HAHAHA!
-
- 729
- 2014/02/08(土) 06:12:59.83
-
>>726
「ANSI C ロケール名」とは何なのか。
定義を教えて下さい。
-
- 730
- 2014/02/08(土) 11:03:51.90
-
書いてあるがな
-
- 731
- 2014/02/08(土) 12:19:47.04
-
なるほど。では改めて。
>UFT-8
Unicode規格で定められたテキスト円コーディングのこと
>ja_JP.UTF-8
>>723が考えた書式の文字列。特に意味はない。
-
- 732
- 2014/02/08(土) 12:54:03.29
-
君の頭の中では面白いのか?
-
- 733
- 2014/02/08(土) 13:00:43.22
-
>>723
文字集合とエンコード方式の違い
なぜかOracleだが丁寧に書いてあるからいいだろう
国際化対応言語環境の利用ガイド
http://docs.oracle.com/cd/E26924_01/html/E27144/glmbx.html
このページを共有する
おすすめワード