[B! UTF-8] rabbit2goのブックマーク

rabbit2go id:rabbit2go

UTF-8に関するrabbit2goのブックマーク (18)

比較:(日本語 (Mac) - x-mac-japanese) (日本語 (シフト JIS) - CP932) - 文字コード表
- 1 user
- uic.jp
- 学び
「比較:(日本語 (Mac) - x-mac-japanese) (日本語 (シフト JIS) - CP932) - 文字コード表」の文字コード表です
rabbit2go 2023/10/09
日本語

文字コード

UTF-8

CP932
リンク
【図解】【3分解説】UnicodeとUTF-8の違い！【今さら聞けない】 - Qiita
UTF-16のことをUnicodeと記しているソフトウェア(Windowsのメモ帳など)もありますのでUnicodeとあったらそれはUTF-16を使って変換したものなのだな、というふうに理解してください。そうなってしまっている理由はこちらで解説されていました。これでUnicodeとUTF-8の違いはバッチリですね！おわり。読んで分かりやすかったり少しでも何か学べたと思えたらいいねやコメントをもらえるとこれからの励みになります！もう少し時間がある方へ手計算で文字をUTF-8での符号まで計算してみましょう。理解が一気に深まります。手順は以下。文字のコードポイントをUnicodeから見つけてくる。コードポイントをUTF-8の方式で変換してみる。 **Omiitaの「お」**をUTF-8による符号まで変換してみます。文字「お」のコードポイントをUnicodeから見つけてく
rabbit2go 2021/07/14
文字コード

Qiita

UTF-8
リンク
Windows 上の Python で UTF-8 をデフォルトにする - Qiita
TL;DR: UTF-8をデフォルトで使いたい人は環境変数に PYTHONUTF8=1 を設定しよう Python は文字列が unicode なので、あちこちで「適切」なエンコーディングを選択する必要があります。残念ながら後方互換性やWindows固有の事情によりまだ ANSI Code Page (日本語なら cp932) がデフォルトで使われる場面があります。ざっと Python と外の世界との入出力をあげてみます。テキストファイルを読み書きする時のデフォルトのエンコーディング = ACP 標準入出力のエンコーディング標準入出力がコンソールのとき = UTF-16 で WriteConsoleW 等を呼ぶ標準入出力がコンソールでない時 = ACP 子プロセスとのPIPE = ACP 最近 chcp 65001 を使って UTF-8 を使う方法が広まっているように思います。これ
rabbit2go 2021/06/10
Python

UTF-8

文字化け
リンク
「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
rabbit2go 2021/04/04
文字コード

Qiita

UTF-8
リンク
MySQLのsjisとcp932の違い - tmtms のメモ
今さらですけど、自分でもちゃんと把握してなかったので調べてみました。 MySQLのCharsetのうちシフトJIS系のものはsjisとcp932の二つあります。どちらもコードの範囲は次のように同じです。 1バイト文字 0x00-0x7F, 0xA1-0xDF 2バイト文字の1バイト目 0x81-0x9F, 0xE0-0xFC 2バイト文字の2バイト目 0x40-0x7E, 0x80-0xFC 違いは文字集合です。1バイト文字はどちらも同じ(ASCII + JIS X 0201 カナ)ですが、2バイト文字はsjisはJIS X 0208 で、cp932はWindows-31Jです。 sjisに含まれていない文字 cp932はsjisよりも文字が多く、丸囲み数字(「①」「②」「③」等)、ローマ数字(「Ⅰ」「Ⅱ」「Ⅲ」等)、組文字（「㍉」「㌍」「㍻」等）、その他「彅」「髙」等の JIS X 0
rabbit2go 2018/06/10
MySQL

文字コード

CP932

UTF-8
リンク
Redmine構築後のDBの文字コードをutf8mb4に変換して絵文字に対応する - Dig that groovy!
動機 Redmine上で絵文字を記入し保存しようとすると… ゴール文字コードがutf8で初期化されたDBをutf8mb4に変換し、Redmineで絵文字（4バイト文字）が書き込めるようにする参考リンク MySQLでテーブルとカラムの文字コードを一括変更する - Be an Idealistic Realist ActiveRecordをutf8mb4で動かす - Qiita MySQL(InnoDB) で "Index column size too large. The maximum column size is 767 bytes." いわれるときの対策 - かみぽわーる前提これの続き Redmine を LXC on Ubuntu 14.04で動かす - Dig that groovy! といってもあまりコンテナうんぬんは関係ない MySQL 5.5.43-0ubuntu0
rabbit2go 2018/04/30
MySQL

文字コード

Redmine

utf-8
リンク
UTF-8からSJISに文字化けすると糸偏の漢字がよく出てくる - Qiita
はじめに Twitterで、文字化けネタを幾つかつぶやきました。サッちゃんはねサチコっていうんだほんとはねだけどちっちゃいから自分のこと SJISで保存するんだよおかしいな繧ｵ繝ちゃん — ロボ太 (@kaityo256) 2017年10月10日「私魔女のキキです。こっちはSJISの繧ｸ繧ｸ」 — ロボ太 (@kaityo256) 2018年1月6日 UTF-8「もしかして…」 SJIS「私達…」「「入れ替わ縺縺ｦ繧九≦縲懶ｼ†」」 — ロボ太 (@kaityo256) 2018年2月13日どれもUTF-8で保存された文字をSJISとして解釈したための文字化けを表現したものですが、パッと見で「糸偏の漢字が多いな」ということがわかるかと思います。なぜそうなるかを簡単に説明してみようと思います。なお、文字コードはいろいろ面倒なので、ここではざっくりとしたことしか言い
rabbit2go 2018/02/25
文字コード

文字化け

Unicode

UTF-8
リンク
Ruby の invalid byte sequence in UTF-8 例外を encode("UTF-8", "UTF-8") で回避するのはおかしいよ、という話 : sonots:blog
rabbit2go 2017/03/20
UTF-8

Ruby

エンコーディング
リンク
MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ
MySQL を UTF-8 で使おうと思ってハマりがちなのは charset utf8 を指定してしまうことです。 MySQL の UTF-8 には歴史的事情により utf8 と utf8mb4 の二つあります。 UTF-8 は1バイト〜4バイトで1文字が構成される文字コードですが、MySQL の utf8 は4バイト文字を扱うことができません。ハマりたくなければ utf8mb4 を使いましょう。 utf8 を使ってしまった場合に4バイト文字がどのように扱われるか、自分でもうろ覚えだったのでメモしておきます。登録接続が utf8mb4 でカラムが utf8mb4 あたりまえですが、そのまま登録されます。 mysql> insert into utf8mb4 (c) values ('美味しい🍣と🍺'); mysql> select * from utf8mb4; +--------
rabbit2go 2016/12/10
MySQL

UTF-8

文字コード
リンク
RubyでUTF-8ファイル名＆外部コマンド実行
[2017/05/02 追記有り] Rubyの``やsystemで外部コマンド実行するときに、実行ファイル自体や引数にUTF-8文字(SJISマッピング無し)が渡せないのであれこれ悩んだ問題。確認はWindows7 64bit & Ruby1.9.3p0(ActiveScriptRuby) 前提。WindowsはファイルシステムがNTFSならUTF-8ファイル名を命名できる。内部コードもUTF-8になっている(はず)。しかし古いAPIを触ったり、INPUT/OUTPUT周りを見るとまだShiftJIS(Windows-31J)が多い。このズレは厄介で、ハマりどころのA代表。特にRubyの場合、UNIX寄りでWindows特有処理のケアはやっぱり甘い… 閑話休題。Windows&UTF-8の扱いが比較的良くなっているRuby1.9系(Dir.globの引数に.encode('utf-8')
rabbit2go 2015/09/15
Ruby

UTF-8
リンク
欢迎光临-HB
欢迎光临-HB 欢迎光临-HB。 <<<返回首页
rabbit2go 2014/09/11
Ruby

UTF-8

文字コード
リンク
Rubyのエンコーディングその2 - tmtms のメモ
この前「Rubyのエンコーディング」という記事を書いたのですが、それをネタに 8/25 の NSEG で発表しました。 Rubyのエンコーディング from Masahiro Tomita この中で、エンコーディングが原因で予期しないところで落ちてしまうことが結構あるという話もしたんですが、今回はプログラムが落ちないようにするにはどうすればいいかを考えてみます。エンコーディングが原因で落ちてしまうのは大体次のパターンのようです。文字列や正規表現のエンコーディングが異なる文字列中に不正な文字が含まれている文字列や正規表現のエンコーディングが異なる正規表現をリテラルで生成していれば、エンコーディングは敢えて指定しない限りは普通はスクリプトエンコーディングになってると思うので、問題は文字列の方です。特にファイルから読み込んだ文字列のエンコーディングが何になっているかに注意しましょう。
rabbit2go 2014/09/11
Ruby

UTF-8

文字コード
リンク
Ruby 1.9 で日本語 (UTF-8 の文字列) を正しく表示させる方法 - さよならストレス
Windows 環境でコマンドプロンプトを使って日本語を表示させようとして躓いたのでメモ。ソースコードを UTF-8 で書きたい人を対象にしています。環境 Windows7 コマンドプロンプトデフォルトのままでコードページ 932 Ruby 1.9.2-p136 まとめ先にまとめを書いておきます。ソースコードを UTF-8 (BOM 無し) で書く。ソースコードのエンコーディングを正しく判断できるように -*- encoding: utf-8 -*- をソースコードの先頭に書く ruby のオプションで -U を使うか、-Eexternal_encoding:internal_encoding を使う File.open する時は、デフォルトの外部エンコーディングで読みに行くので、オプションで適切なエンコーディングを指定する例: File.open("test.txt", "r:
rabbit2go 2013/12/31
Ruby

UTF-8

Windows
リンク
UTF-8にもいろいろある - ザリガニが見ていた...。
前回からの続き。改行コードの違いを体感してみる - ザリガニが見ていた...。文字エンコードとロケールを体感する - ザリガニが見ていた...。改行コードの違いも知った。文字コードとロケール、ターミナルの言語環境との関係も知った。これで文字にまつわる悩みとはおさらばできると思ったら、まだダメだった...。実験環境 OSX 10.8 Mountain Lion以前((OSX 10.9 Mavericksでは、Mac仕様なNFDのUTF-8を表示しようとするとエラーになってしまったため、10.8以前の環境で実験した。Assertion failed: (width > 0), function conv_c, file /SourceCache/shell_cmds/shell_cmds-175/hexdump/conv.c, line 137. ** ** Abort trap: 6
rabbit2go 2013/12/23
UTF-8

文字コード

nkf
リンク
橋本商会 » UTF-8-MACをUTF-8に変換する
Twitterをterminalで見ていると、ごく稀に変な文字が入っているtweetがあって、それがUTF-8-MACだとgeta6に教わった。 Macだと「ぱぴぷぺぽ」など一部の日本語をファイル名にすると変な事が起こるのだが、それの原因がUTF-8-MACらしい。そういう文字をDBに保存するとのちのち良くないので、Rubyで変換した。 Iconv使ったら簡単だった。 ■例 touch ぱぴぷぺぽ echo は<309a>ひ<309a>ふ<309a>へ<309a>ほ<309a> となる。ただし、TerminalやiTerm2で「ぱぴぷぺぽ」をechoやlsしてもふつうに「ぱぴぷぺぽ」になってしまって、Rubyに渡して変換を試せない。 GNU Screen上でechoやlsするとUTF-8-MACの文字を出力できる。 ■Rubyで変換インストール brew install iconv
rabbit2go 2012/05/17
Mac

UTF-8

iconv
リンク
MacのJDK6で文字コードをUTF-8にする - Post-itみたいな
JDK5だとUTF-8なのですが、JDK6だとSJISになります。Terminalの文字コードはUTF-8なので、ちょくちょく書く時に問題が出てしまいます。JDK5を使えばいいのでしょうが、JDK6が必要になったときに困ります。なので環境変数JAVA_OPTIONSにこのように設定しました。 export JAVA_OPTIONS="-Dfile.encoding=UTF-8" ひとまずこれで良しとします。ちなみにJDK6を使用した理由ですが、以前どっかの本でAndroid SDKを使うにはJDK6にしないといけないとか読んだ気がするからです。ですが今 http://developer.android.com/sdk/1.5_r2/requirements.html を読んだら JDK 5 or JDK 6 (JRE alone is not sufficient) と書いてあって No
rabbit2go 2011/11/24
_JAVA_OPTIONSで成功した。

Mac

Java

UTF-8
リンク
LogcatコマンドプロンプトでUTF-8を正しく表示する - Kazzz's diary
Androidプラットホームの標準の文字エンコーディングはUTF-8だが、日本ロケールのWindowsでSDKのツールを使うと、OS標準のエンコーディング(日本の場合MS932)以外に上手く対応できず、英数字以外は正しく表示できない場合がある。具体的にはログを出力するLogcatだが、Eclipse ADTのDDMSパースペクティブでは以下のように日本語が文字化けしてしまう。 04-03 17:49:15.649: DEBUG/Log test(444): æ—\æœ¬èªžã�§æ£ã�—ã��è¡¨ç¤ºã�•ã‚Œã�¦ã�„ã‚‹ã�‹ã�ª?同機能はEclipseからフォントを変更できるのだが、エンコーディング自体をUTF-8に変更できる訳ではないので、どんなフォントにしても結局日本語を正しく表示することができない。 Logcatはコマンドプロンプトから実行することもできるの
rabbit2go 2011/10/23
コマンドプロンプト

Windows

UTF-8
リンク
プログラムの文字コードを指定する
Ruby のプログラムで使用している文字コードを指定するにはプログラムの 1 行目にマジックコメントと呼ばれる形式を使って文字コードを指定します。ここでは Ruby でプログラムの文字コードを指定する方法について解説します。
rabbit2go 2011/09/20
Ruby

UTF-8

BOM
リンク
1