facebook twitter hatena line google mixi email
★お気に入り追加


■ このスレッドは過去ログ倉庫に格納されています

  • 1
  •  
  • 2012/11/30(金) 13:16:02.46
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/

ここまで見た
  • 615
  •  
  • 2014/01/25(土) 22:09:00.99
>>611
そういうのは Unicode から UTF-8 のコードをどうやって作るかを調べれば自作出来ると思うが。
まあでもそれが分かればそんな対応表作る気なくなると思うなあ。

ここまで見た
  • 616
  •  
  • 2014/01/25(土) 22:12:46.97
Wikipedia に書いてあった。要するにビット単位で抜き出して配置してるだけ。
1バイト目の上位ビットを見ると全体が何バイトかが分かる。
http://ja.wikipedia.org/wiki/UTF-8

ここまで見た
  • 617
  •  
  • 2014/01/25(土) 22:46:21.43
C#だったら、
char ch = Convert.ToChar(128); // コードポイント 128の場合
byte[] bytes = Encoding.UTF8.GetBytes(new char[]{ch});
でUTF8のバイト列が得られるな。

ここまで見た
  • 618
  •  
  • 2014/01/25(土) 22:49:04.37
ucs2とutf-8のバイト変換ツールをexcel関数で作ったことが有るな。
DEC2BIN関数使って2進数に変換してMID関数でビット毎に取り出して判定して、、というやつ。

ここまで見た
  • 619
  • 611
  • 2014/01/26(日) 09:47:42.77
ありがとうございます.
勉強のためunicode同士でコード変換するプログラムを作ったのですが
そのテストのために必要でした

ここまで見た
  • 620
  •  
  • 2014/01/28(火) 02:47:59.92
西夏文字はようやく符号化提案書の段階までたどり着いたのね

ここまで見た
  • 621
  •  
  • 2014/01/28(火) 15:39:21.53
よくわからんがいろいろ大変なんだなあ

ここまで見た
  • 622
  •  
  • 2014/02/01(土) 14:39:56.97
日本語の文章にいわゆる半角括弧(U+0028,U+0029)を使ったら、全角括弧(U+FF08,U+FF09)を使えと言われました。
ほとんどのフォントでは、全角括弧はひらがなと漢字と調和するデザインになっており、
半角括弧はいわゆる半角英数字に調和するデザインになっているからだそうです。
文字コードに対して、フォントの字形を定義する規格があるのでしょうか。

前から、いろいろな人に言われてたんですが、フォントが駄目なだけだろと思っていたので、無視していました。
ですが、言い負かすか、言い負かされるかを決断しないといけなくなったのでお願いします。

JISの文字コード規格でも、組版規格でも全角括弧を使え見たいなことは書いてないので、
個人的には全角括弧を使いたくないです。

ここまで見た
  • 623
  •  
  • 2014/02/01(土) 15:00:26.97
そのへんはまだ「コレダ!」という結論が出るほど成熟してない気がするね。

きれいに見える括弧の幅は和文欧文で違うから、フォントが「駄目」とも言い切れないし、
かといってレンダリング側で機械的に和文欧文を判断してグリフを割り振って問題が出ないレベルのものでもないし。

ほんとは全角・半角がそれぞれ「和文用・欧文用」と定義されてれば有無を言わさぬ現実解になったと思うんだけどな。(括弧以外の記号や全角ラテンを含め。)
今後、電子出版が広がるなかで「あれ、これどうすんの?」って改めて注目されて何らかの仕組みが出来ればいいな。

ここまで見た
  • 624
  •  
  • 2014/02/01(土) 15:45:09.77
>>622
半角括弧にこだわっているようだが句読点は気にしていない時点で
ただのあなたのわがままに過ぎないことがわかる。
横書きでは公文書は「,。」(技術文書は「,.」)という指針がある。

そこまで半角括弧にこだわるなら半角カンマと半角ピリオドも使えや。

ここまで見た
  • 625
  •  
  • 2014/02/01(土) 15:48:39.76
括弧は半角がいいよ派と全角だよ派、いやいや半角の外側に半角スペースを入れるよ派の三つ巴だな。

ここまで見た
  • 626
  •  
  • 2014/02/01(土) 16:30:13.98
括弧の中身に合わせるのが見やすいかな
>>622 のように半角英数記号だけの場合は半角括弧使う

ここまで見た
  • 627
  •  
  • 2014/02/01(土) 16:56:20.99
出すときに一括置換するだけだろ

ここまで見た
  • 628
  •  
  • 2014/02/01(土) 17:24:04.12
「アプリはアプリケーション(application)の略である。」
みたいな文章があったとして()を半角にするのか全角にするのか

ここまで見た
  • 629
  •  
  • 2014/02/01(土) 17:31:08.11
それなんだよな。一概にはいえない。

ここまで見た
  • 630
  •  
  • 2014/02/01(土) 18:03:32.27
>>622
>半角括弧はいわゆる半角英数字に調和するデザインになっているからだそうです。
むしろ半角の括弧類は全角文字に「調和しない」と考えたほうがいいでしょう。
ベースラインが異なるからです。(横組みの場合、半角は少し下がって見えませんか?)
太さや位置などを確認するのには、
国国(国)国(国)国[国]国[国]国<国>国<国>国〈国〉国
などを、フォントを変えて見てみるのがいいと思います。

>>628-629
まあ、そうですね。不統一は避けたいですが。

ここまで見た
  • 631
  •  
  • 2014/02/01(土) 18:07:00.71
確かWikipedia日本語版あたりは「半角も全角も禁止はしないが、全角を半角に修正するのは禁止」みたいなやや全角寄りの微妙なルールがあった気がする。

ここまで見た
  • 632
  •  
  • 2014/02/01(土) 18:21:42.52
というより、こいつメンヘラだろ

ここまで見た
  • 633
  •  
  • 2014/02/01(土) 18:31:20.31
半角カッコを使うときは、
あああ (hoge) みたいに
括弧の前後を空白で開ける。

ここまで見た
  • 634
  •  
  • 2014/02/01(土) 18:34:27.81
>>633
括弧の中に入るものが1文字とかだとどうするか少し悩む

ここまで見た
  • 635
  •  
  • 2014/02/01(土) 18:43:22.44
たとえば (i) こんなのか?

ここまで見た
  • 636
  •  
  • 2014/02/01(土) 18:48:17.77
>文字コードに対して、フォントの字形を定義する規格
それは知らないがJISX0213にはU+0028,U+0029を使えって書いてあるし
JISX4051を参照してもU+0028,U+0029だ
よかったな

ここまで見た
  • 637
  •  
  • 2014/02/01(土) 18:49:16.64
>>625 半角の外側に半角スペースを入れるよ
絶対にやめてください。

ここまで見た
  • 638
  •  
  • 2014/02/01(土) 18:49:46.43
>>633
やめてください

ここまで見た
  • 639
  •  
  • 2014/02/01(土) 18:51:17.77
>>638
お前のレベルまで落ちるつもりはない。
勝手に変なことしていれば良い。

ここまで見た
  • 640
  •  
  • 2014/02/01(土) 18:53:29.54
トルツメ

ここまで見た
  • 641
  •  
  • 2014/02/01(土) 18:53:35.18
Wikipediaの表記ガイドに従ったら?
http://ja.wikipedia.org/wiki/Wikipedia:%E8%A1%A8%E8%A8%98%E3%82%AC%E3%82%A4%E3%83%89

ここまで見た
  • 642
  •  
  • 2014/02/01(土) 18:54:12.12
Unicodeでは、丸括弧 (……)・波括弧 {……}・角括弧 [……] にはいわゆる半角のもの(JIS X0201で規定されているもの)のほかに、全角形の(……)・{……}・[……]が規定されています。
括弧の中にいわゆる半角の文字だけがある場合は、いわゆる半角の括弧を用います。
括弧の中にいわゆる全角の文字のうち、漢字・仮名・和文記述記号がある場合は、全角形の括弧を用いるべきだという意見と用いないという意見の2つがありますが、目下の合意はありません。
未了 これについては、当ガイドラインのノートで議論されています。
いわゆる半角の括弧を用いる場合は、以下の例外を除き、括弧の外側に空白を入れます。
直前に、ほかの開き括弧類がある。直後に、句読点やほかの閉じ括弧類が続く。
直前や直後に、和文の句読点や和文の括弧類がある。
括弧が固有名詞や型式番号などの一部で、括弧の前や後を空けずに表記される。
段落の始まりや終わり。

ここまで見た
  • 643
  •  
  • 2014/02/01(土) 18:54:59.60
> いわゆる半角の括弧を用いる場合は、以下の例外を除き、括弧の外側に空白を入れます。

なるほど

> いわゆる半角の括弧を用いる場合は、以下の例外を除き、括弧の外側に空白を入れます。

うん、なるほど

ここまで見た
  • 644
  •  
  • 2014/02/01(土) 18:58:04.76
括弧の外側にスペースを入れるのって、
ソフトウェアのUIなんかで「アルファベットと和字の間にスペースを入れる」のとかとも絡んでくるのかな。

ここまで見た
  • 645
  •  
  • 2014/02/01(土) 19:00:58.26
トルツメだな

ここまで見た
  • 646
  •  
  • 2014/02/01(土) 19:01:58.28
>>644
単なる英文の文化だからだろ?

半角英数字 = 英文
全角英数字 = 日本語


半角 = 英文を使うなら、その文化に従えってだけの話。
英語は単語をスペースで区切ります。言い換えると単語の前後にスペースを入れます。
そして括弧の前後にもスペースを入れます。

ここまで見た
  • 647
  •  
  • 2014/02/01(土) 19:09:28.90
>半角英数字 = 英文

ちょっと待て誰が決めた

ここまで見た
  • 648
  •  
  • 2014/02/01(土) 19:10:57.03
やっぱりこの種の話題は宗教戦争化しやすいな。

ここまで見た
  • 649
  •  
  • 2014/02/01(土) 19:11:51.46
>>647
昔から。

そもそもコンピュータの文字なんてのは
最初アルファベットしかなく。
それは日本ではなく、外国(アメリカだっけ?)で
生まれたものなんだよ。

そのアルファベットというのは当然半角で
その文字は英語のために作られた文字。

ここまで見た
  • 650
  •  
  • 2014/02/01(土) 19:17:49.86
ローマ字表記は英文じゃない派

ここまで見た
  • 651
  •  
  • 2014/02/01(土) 19:20:32.03
英文は訂正しよう。

英字

ローマ字も英字

ここまで見た
  • 652
  •  
  • 2014/02/01(土) 19:22:25.16
>>649
いろいろぐちゃぐちゃすぎワラタ

ここまで見た
  • 653
  •  
  • 2014/02/01(土) 19:24:36.59


J

ここまで見た
  • 654
  •  
  • 2014/02/01(土) 19:25:19.70
>>652
反論はなさそうだねw

ここまで見た
  • 655
  •  
  • 2014/02/01(土) 19:26:34.88
12 月 31 日みたいにいちいち空白入れるとか馬鹿げてるだろ
こんなものは詰めた方が見やすいし

ここまで見た
  • 656
  •  
  • 2014/02/01(土) 19:26:36.61
>>646
jisc6220は英語だったのか

ここまで見た
  • 657
  •  
  • 2014/02/01(土) 19:29:18.14
みんな英字と呼ぶけど、あれはラテン語のものだからラテン語のルールに従うべきだな。

ここまで見た
  • 658
  •  
  • 2014/02/01(土) 19:29:29.09
コイン(10円硬貨など)3枚

とか開始と終了で全半角での挟まれ方が異なる場合でも
矛盾なくできるならローカルルールで使いわけてもいいんだろうがな

ここまで見た
  • 659
  •  
  • 2014/02/01(土) 19:31:11.58
>>657
そして漢字は中国式で、算用数字はインド式を要求されるのだ。なんという悪夢。

ここまで見た
  • 660
  •  
  • 2014/02/01(土) 19:32:45.80
>外国(アメリカだっけ?)

ワラタ

ここまで見た
  • 661
  •  
  • 2014/02/01(土) 19:33:59.26
>>658
やっぱ一概に「こうするのが正しい!」は無理だよなあ。

ここまで見た
  • 662
  •  
  • 2014/02/01(土) 19:40:59.45
なに、インド産のくせにアラビア数字と詐称していたのか ゆるせん

ここまで見た
  • 663
  •  
  • 2014/02/01(土) 19:43:16.28
英でもcharacter(s)みたいな場合にはスペース入れないしねえ。

ここまで見た
  • 664
  •  
  • 2014/02/01(土) 19:44:42.01
>>662
インド産のものがアラビア数字と呼ばれ、
アラビア産のものがインド数字と呼ばれている悲劇

ここまで見た
  • 665
  •  
  • 2014/02/01(土) 19:47:43.49
>>645
?

ここまで見た
  • 666
  •  
  • 2014/02/01(土) 20:13:29.79
最初の質問は、>>630の言うベースラインのズレがUNICODEとかの
規格で決まっているかどうかじゃないの?
リファレンス字形みたいのを示せば一発では。

お絵かきランド
フリックゾンビ
ここまで見た

★お気に入り追加

このページを共有する
facebook twitter hatena line google mixi email
おすすめワード