Content-Length: 385435 | pFad | https://b.hatena.ne.jp/q/utf8

utf8の人気記事 287件 - はてなブックマーク

並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 287件

新着順 人気順

utf8の検索結果1 - 40 件 / 287件

utf8に関するエントリは287件あります。 文字コード文字unicode などが関連タグです。 人気エントリには 『とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro』などがあります。
  • とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro

    「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが(2023年6月6日)、この手の騒動は周期的に起こってる印象です。 ということはつまり いつまで経っても解消されない、解決が困難な課題である その困難さが界隈以外に共有されていない であるわけで、その都度Twitterにトリビアが投下されてはTLが賑わい華やかではありますが、そろそろ自分の整理としてもどれだけ日本の住所システムがカオスで、その計算機的な処理がいかに困難かをメモっておこうかと思いました。 なおこの件については既にQiitaにGeoloniaの宮内さんが鼻血の出そうな良エン

      とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro
    • [こかげ] フォント : Nu みちしるべ

      概要 「Nu みちしるべ」は、日本の道路標識に基づいて作ったフォントです。標識の数字に興味を持ったのが切っ掛けで作りましたが、数字だけだとフォントとしてあまり面白くないので、周りの赤い円を含めて自動的に組み立てられるように作り込んでみました。道路標識の全種に対応しているわけではないです。用途は…何かあるでしょうか。 標識を自動的に組み立てるには、アプリケーションが OpenType‐フォントの高度な機能に対応している必要があります。非対応のアプリしか持っていない場合、手動で画像編集をして部品を組み立てる事になりますが、その部品としてフォントを利用できます。 ウエブブラウザーも今のところ対応状況が微妙なので、次の見本は崩れて表示されてしまうかも知れません。「直接編集」や「自動着色」を切り替えてみると表示が改善する場合があるようです。(なお「直接編集」を無効にした場合、文字列の書き替えは左上の

      • 𓁲 𓀀 𓀁 𓀂 𓀃 𓀄 𓀅 𓀆 𓀇 𓀈 𓀉 𓀊 𓀋 𓀌 𓀍 ..

        𓁲 𓀀 𓀁 𓀂 𓀃 𓀄 𓀅 𓀆 𓀇 𓀈 𓀉 𓀊 𓀋 𓀌 𓀍 𓀎 𓀏 𓀐 𓀑 𓀒 𓀓 𓀔 𓀕 𓀖 𓀗 𓀘 𓀙 𓀚 𓀛 𓀜 𓀝 𓀞 𓀟 𓀠 𓀡 𓀢 𓀣 𓀤 𓀥 𓀦 𓀧 𓀨 𓀩 𓀪 𓀫 𓀬 𓀭 𓀮 𓀯 𓀰 𓀱 𓀲 𓀳 𓀴 𓀵 𓀶 𓀷 𓀸 𓀹 𓀺 𓀻 𓀼 𓀽 𓀾 𓀿 𓁀 𓁁 𓁂 𓁃 𓁄 𓁅 𓁆 𓁇 𓁈 𓁉 𓁊 𓁋 𓁌 𓁍 𓁎 𓁏 𓁐 𓁑 𓁒 𓁓 𓁔 𓁕 𓁖 𓁗 𓁘 𓁙 𓁚 𓁛 𓁜 𓁝 𓁞 𓁟 𓁠 𓁡 𓁢 𓁣 𓁤 𓁥 𓁦 𓁧 𓁨 𓁩 𓁪 𓁫 𓁬 𓁭 𓁮 𓁯 𓁰 𓁱 𓁳 𓁴 𓁵 𓁶 𓁷 𓁸 𓁹 𓁺 𓁻 𓁼 𓁽 𓁾 𓁿 𓂀 𓂁 𓂂 𓂃 𓂄

          𓁲 𓀀 𓀁 𓀂 𓀃 𓀄 𓀅 𓀆 𓀇 𓀈 𓀉 𓀊 𓀋 𓀌 𓀍 ..
        • 文字コード | 衆議院議員 河野太郎公式サイト

          2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

            文字コード | 衆議院議員 河野太郎公式サイト
          • Your code displays Japanese wrong

            A static site to link people to when their code is displaying Japanese wrong. View the Project on GitHub heistak/your-code-displays-japanese-wrong Why am I here? If someone gave you a link to this page, that person probably thinks your code displays Japanese wrong. In short, from a native Japanese eye, yѳur ҭєxҭ lѳѳκs κιnd ѳf lικє ҭЋιs. This page will give you a brief description of the glyph appe

            • ꧁pͪoͣnͬpͣoͥnͭpͣa͡inͥ꧂

              ꧁pͪoͣnͬpͣoͥnͭpͣa͡inͥ꧂

                ꧁pͪoͣnͬpͣoͥnͭpͣa͡inͥ꧂
              • ソフトウェアの日本語文字が中華フォントに侵食されていて想像以上の危機らしい「違和感すごい」

                usagimaru ⌘ @usagimaruma 日本人が想像するよりかなり広い範囲で日本語文字が中華フォント化している現象。CJK処理系における日本語の扱いに対する問題としてそろそろ何とかしていかないと、ソフトウェアの中の日本語が死んでいく危機感がある。そもそもなんでChineseに分類されるフォントにフォールバックされるのかって。 2022-09-28 16:03:32 usagimaru ⌘ @usagimaruma 前も調べたけど、言語環境の言語優先度設定で“わざわざ”日本語を優先言語にしておかないと、日本語の文字の多くは簡体中国語の奇妙なフォントで描画される。バグではなく仕様。わざわざ日本語を優先している民族なんて日本人しかいないから、世界のほとんどはきっと中華フォントで日本語を眺めている。 2022-09-28 16:07:52

                  ソフトウェアの日本語文字が中華フォントに侵食されていて想像以上の危機らしい「違和感すごい」
                • 本当は恐ろしい「〜」記号 : IT翻訳者Blog

                  Yahoo Japanの「新型コロナワクチン情報まとめ」を見ていたら、次の画像があった。 アストラゼネカの行に「有効性 〜76%」とあり(赤枠)、私はここが気になってしまった。 (出典:https://news.yahoo.co.jp/pages/20210122、閲覧:2021-07-02) これを見た人は、普通は「最大で76%」と解釈するだろう。日本語で「〜」は「数字の範囲」を示すのが一般的である。例えば共同通信社の『記者ハンドブック』でもその意味で使っている。範囲の右側だけに数字があるので「最大」という解釈になる。最大なのだから、有効性は10%かもしれないし60%かもしれない。 しかし日本語の「〜」によく似た英語の「~」(チルダ)には別の意味がある。「約」や「およそ」である。この意味を掲載している辞書は実は少ないのだが、たとえばMerriam-Websterの「tilde」には2bに

                    本当は恐ろしい「〜」記号 : IT翻訳者Blog
                  • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

                    文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! 文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。 ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み

                      文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
                    • 文字化けでよく出てくる漢字の意味を調べて愛でる

                      1992年三重生まれ、会社員。ゆるくまじめに過ごしています。ものすごく暇なときにへんな曲とへんなゲームを作ります。 前の記事:無糖の飲みものに砂糖を入れる > 個人サイト ほりげー インターネットは文字化けと共にある インターネットが普及して20年をゆうに超える。メール、添付ファイル、Webブラウザなど、様々な場面で我々は文字化けに苦しめられてきたし、今でもたまに苦しめられる。「文字が化ける」と書いて文字化け。そこにはお化けみたいで悪いイメージがあるが、それも仕方がない。読めないのだから。必要な情報が読めないのはシンプルに悪いことだ。 DPZの記事を無理やり文字化けさせてみると、こうなる。 でも、一方的に文字化けを避けていては、文字化けと仲良くなれない。文字が化けた先にあるのは文字だ。化ける前の文字ばかり愛していては、化けた後の文字がかわいそうではないか。我々は、化けた後の文字をもっと愛す

                        文字化けでよく出てくる漢字の意味を調べて愛でる
                      • バックスラッシュと円記号の歴史と違い

                        最近知ったんですが、Windowsではキーボードから円記号(¥)の入力はできないらしい。 というのも キーボード右上の¥キー キーボード右下の\キー のどちらかを押せば円記号(¥)を入力できますが、どちらを押しても入力されるのは円記号(¥)に偽装されたバックスラッシュ記号(\ )らしい。 皆さんこれ知ってました? いや正直、これを聞いても「何言ってんだコイツ」って思う人が大半だと思いますし、私も今でもそう思います。 これは「バックスラッシュと円記号問題」などと言って、Windowsで昔から続く”呪い”のようなものらしいのですが この”呪い”を理解するには文字コードの歴史を知る必要があります。 文字コードとは? その前に、そもそも文字コードってなによ?という根本的な話からすると、文字コードは「パソコンに文字を覚えさせるための暗記表」みたいなものです。 パソコンは2進数しか理解できないので あ

                        • 「もらったEXEなんて開かねえよw」なんて人も絶対に騙される偽装ファイル名に思わず戦慄/見た目はテキストファイルなのに……ダブルクリックするとヤられる【やじうまの杜】

                            「もらったEXEなんて開かねえよw」なんて人も絶対に騙される偽装ファイル名に思わず戦慄/見た目はテキストファイルなのに……ダブルクリックするとヤられる【やじうまの杜】
                          • Python自然言語処理テクニック集【基礎編】

                            自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

                            • 絵文字を支える技術について|nona

                              はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleでAndroidのTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事は絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

                                絵文字を支える技術について|nona
                              • 全ての開発者が知っておくべきUnicodeについての最低限の知識

                                2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnicodeを使うために必要な知識をエンジニアのニキータ・プロコポフさんが解説しています。 The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me https://tonsky.me/blog/unicode/ Unicodeの歴史と利用率の推移をまとめたグラフは下図の通り。2000年代後半から急速に普及が進んでいったこ

                                  全ての開発者が知っておくべきUnicodeについての最低限の知識
                                • 「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita

                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                                    「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
                                  • _をアンダーバーと呼ぶのは昭和世代のおっさんだけだと聞いてショックを受けてる「な・・・なんだってー!!」

                                    Kenrow 改三 @KenrowY 思い出した。これPC98とIBM-ATでの文化の違いじゃなかったかな。露見したのがDOS/Vに至るDOS Extensionの頃だったと思う。IBM関連の仕事で呼称がまちまちでDOSのプログラミングガイドの英語版を見たら表記がこっちでって記憶を思い出した twitter.com/senooyudai/sta… 2021-12-02 12:01:49 F&F @FandF_JP unicodeではLowline,JISはアンダーラインと呼んだかな。 quotation→ダブルクオーテーション、apostrophe→シングルクオーテーションなんて呼ぶかも。 JISキーで@の上にある記号の読み方も色々。 twitter.com/senooyudai/sta… 2021-12-02 09:05:19

                                      _をアンダーバーと呼ぶのは昭和世代のおっさんだけだと聞いてショックを受けてる「な・・・なんだってー!!」
                                    • StackOverflowからのコピペをやめろ。今すぐにだ。 - Qiita

                                      Original article:https://dev.to/dotnetsafer/rip-copy-and-paste-from-stackoverflow-trojan-source-solution-4p8f その昔コピペできない文章というものがありました。 実際は単にフォントを変えているだけというものですが、人間の目に見える文字と実際の文字が異なることを利用した攻撃の一種と見ることもできます。 さて、最近になって似たような攻撃に関する論文が公開されました。 人間には見えない文字を織り交ぜることによって、一見問題ないコードが実は脆弱になってしまうというものです。 ただ論文は堅苦しいうえに長くて読むのがつらいので、具体的に何がどうなのかよくわかりません。 平易に解説している記事があったので紹介してみます。 以下はDotnetsafer( Twitter / GitHub / Web

                                        StackOverflowからのコピペをやめろ。今すぐにだ。 - Qiita
                                      • UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita

                                        竈門禰󠄀豆子をMySQL5.6のテーブルにinsertしようとすると正しく格納できず、竈門禰となってしまうケースがあるという話を聞き、調べてみました。 実践 まずは試しにやってみます。 mysql> show create table verification\G *************************** 1. row *************************** Table: verification Create Table: CREATE TABLE `verification` ( `name` varchar(100) COLLATE utf8_bin DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin 1 row in set (0.01 sec) mysql> inse

                                          UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita
                                        • BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)

                                          かつてWindowsでテキストファイルといえばシフトJIS形式のものが大半だった。しかし最近では、UTF-8形式のテキストファイルも普通に見かけるようになってきた。世の中はUTF-8が主流になりつつあると言っていいだろう。 しかし、WindowsでUTF-8を使うと、ちょっと困ったことがある。それは、エクスプローラーの検索欄などで用いるWindows Searchが、UTF-8にはしっかり対応していないのである。正確に言うと、Windows Searchはファイル先頭に「BOM」のあるUTF-8は認識して正確にインデックス化し、ファイルの全文検索が可能になるが、BOMのないUTF-8では正しくインデックス化できず、ファイルの全文検索はASCIIコードのみ可能で、日本語などの非ASCII文字では全文検索ができない。 同じ内容のテキストをUTF-8、UTF-8 BOM付き、UTF-16ビッグエ

                                            BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)
                                          • 「住所は英数字もすべて全角で入力してください」はなぜそうなったのか - Qiita

                                            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Webサービスのフォームに住所を入力するとき、丁目や番地などを入れる欄について、数字やハイフンを全角で書かなければいけない「全角縛り」をやっているフォームをよく見ます。半角文字を入力してしまってエラーになったり、咄嗟に変換方法を思い出せなかったり、全角と半角の見分けが付きづらかったり、「全角縛り」であることが明示されていなかったり、「ハイフン」としてどの文字を使うべきかわからなかったり……と、鬱陶しさを感じることが多くあります。 「住所は全角のみ」(数字やハイフンも絶対に半角を受け付けない)という仕様がどういう経緯で生まれて、どう広まっ

                                              「住所は英数字もすべて全角で入力してください」はなぜそうなったのか - Qiita
                                            • 「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita

                                              TL;DR Shift_JISにしただけでコンパイラが通らなくなる恐ろしい事件とその回避法について。 \ (¥)のASCIIコードは0x5c 表、能は良くない UTF-8は神 2023/12/06追記 誤りがあったので訂正します。こんな読まれると思ってなかったので正直ちょっとびっくりしていますが、いろいろコメントありがとうございました。(ツイート等全て拝見しました。) Shift_JISが悪いわけではない(デフォルトのエンコーディング設定の問題)→追記しました UTF-8にはUTF-FSSという仕様でこの問題が回避されている→マジでタメになる知識ありがとうございます OSによってデフォルトのエンコーディング設定が異なるせいで、デフォルト環境での動作がOSにより異なる→なるほど?(調査中) CRLFとLF問題では→なるほど?(調査中) そんな問題何を今更→UTF-8が出てから生まれたからです

                                                「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita
                                              • IPAが無償で提供している文字の検索システムがなかなかイケていると話題に/関連する文字をグラフで表示。異体字の一覧も可能【やじうまの杜】

                                                  IPAが無償で提供している文字の検索システムがなかなかイケていると話題に/関連する文字をグラフで表示。異体字の一覧も可能【やじうまの杜】
                                                • ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita

                                                  はじめに これらの横棒、コンピュータにとっては全て違うのですが 見分けがつくでしょうか? -˗ᅳ᭸‐‑‒–—―⁃⁻−▬─━➖ーㅡ﹘﹣-ー𐄐𐆑 郵便番号、住所、電話番号など、横棒が使われているデータを扱うとき、 人が入力したデータや購入したデータであると、同じ記号が使われていないことはよくあることです。 090-1234-5678 090᭸1234᭸5678 090‑1234‑5678 090−1234−5678 これらの電話番号の文字列も phone_no_list = ['090-1234-5678', '090᭸1234᭸5678', '090‑1234‑5678', '090−1234−5678'] # 文字をUnicodeコードポイントに変換 for n in phone_no_list: # 文字列の4番目の横棒の文字コードを見てみる print(n[3], ord(n[3]

                                                    ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita
                                                  • 「視覴」の謎

                                                    ChatGPTが「視覴」という新語を発明したらしいことをフガクラさんのツイート(2023-06-08 08:51:02 JST)で知る。 すでに「視覴」は、いくつかの最近書かれたWebページで使われていた。ChatGPTで生成されたページらしい。ざっと検索して見つけたページを列挙しておく。いずれも最近作られたか修正されたページである(1件だけ2020年のページがあるが、最近修正されたものかどうか不明)。 映像・音声編集におけるノーマライズの重要性!(2023-05-11)「視覴的・聴覚的な一貫性」「視覴的な効果を最大化」「視覴的な混乱を避け」(2回)なお、このページは現在消えて視覴とは?AI(ChatGPT)が出力した新しい言葉なのか?(2023-06-08)にリダイレクトされ、「弊社では、2023年3月より用語集作成に際しAIライティングの試験運用を行っておりますが、この度、「視覚」の誤

                                                    • 外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】

                                                        外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】
                                                      • Windowsでファイルやフォルダーに「使わない方がいい」文字 (1/2)

                                                        これらは、MS-DOS時代からのルールである。ある意味、「command.com」のルールだとも言える。これらの文字がファイル名やフォルダー名に使えなくなったのは、コマンドラインで特別な意味を持つからである。MS-DOSはもともとコマンドラインですべての操作をする。このとき、コマンドラインで特別な意味を持つ記号文字に関しては、ファイルやフォルダー名での利用を禁止してコマンドラインやファイル名、フォルダー名の判定を簡略化した。 これらが今でも特殊扱いされていて、ファイルやフォルダーの名前に使えなくなっている。ただし、このことはNTFSやvFATなどのファイルシステムとしての仕様とは部分的にしか関係がない。パス区切り文字としての「\」と「/」は共通だが、他の文字は絶対ファイル名やパス名に入れられないのかというと、実はそうではない。ただし、ファイル名のAPIでもある程度の安全対策がしてあり、渡さ

                                                          Windowsでファイルやフォルダーに「使わない方がいい」文字 (1/2)
                                                        • 文字列を反転させたい|nona

                                                          こんにちは。徒然なるままにTweetを眺めていたら、Tanakaさんがこのようなことを呟いていました。 そういやRustのStringにreverseメソッドないなと思ったけど、まあよく考えたらUTF-8で文字逆転させるとか地獄のような話になるしそもそも長さが変わるケースとかあったりしそうで怖いわな・・・(´・_・`) — Hideyuki Tanaka (@tanakh) May 1, 2021 背景等はよくわからないですが、文字列の反転というのは確かに難しい問題ですし、どう難しいのかというのを、ちょっと真面目に考えて解説してみました。というノートです。 本文での表記についてこれから文字とそのバイト表現の話をしていきます。文字のエンコードの方式で同じ数値でも色々意味が分かれてしまいますので、本文では以下のように表記することにします。 Unicodeコードポイント(以下、単にコードポイント

                                                            文字列を反転させたい|nona
                                                          • Unicode 版美乳テーブルを探せ

                                                            美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日本語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

                                                            • プログラマーを苦しめてきた郵便番号データ「KEN_ALL.CSV」が改善! 扱いやすい新形式/従来形式のデータも引き続き利用できるから安心してネ【やじうまの杜】

                                                                プログラマーを苦しめてきた郵便番号データ「KEN_ALL.CSV」が改善! 扱いやすい新形式/従来形式のデータも引き続き利用できるから安心してネ【やじうまの杜】
                                                              • PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった

                                                                NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。 原ノ味フォントの作成者 細田真道氏(以下、細田):細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。 簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という

                                                                  PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった
                                                                • Python 3.13 から「兆」が 10 の 6 乗になっている - マグマグ (起動音)

                                                                  この記事は 2024 TSG Advent Calendar 3日目の記事です。昨日の記事は @__dAi00 さんの記事 AivisSpeechを使ったDiscordボットの作成 ①AivisSpeechをGoogle Cloud Runにデプロイする でした。12/5 公開予定の続編も楽しみです。 今回は、初日に公開した以下の記事の副産物です。 import unicodedata # Python 3.12 まで 1000000000000.0 # Python 3.13 から 1000000.0 print(unicodedata.numeric("兆")) 大変だ。Python 3.13 から「5000 兆円」が 50 億円になってしまう(?) unicodedata.numeric メソッドと Unicode 例によって Unicode が関係してきます。前編でも触れたとおり、

                                                                    Python 3.13 から「兆」が 10 の 6 乗になっている - マグマグ (起動音)
                                                                  • 海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される

                                                                    by Whooym 文字が適切に表示されずに読めなくなってしまう「文字化け」は、海外の技術者の間でも「Mojibake」で通用するとのこと。そんな文字化けの種類について、東京で自然言語処理(NLP)の開発をしているポール・オリーリ・マッキャン氏が解説しました。 A Field Guide to Japanese Mojibake https://www.dampfkraft.com/mojibake-field-guide.html マッキャン氏によると、文字化けは作成した時と異なる文字コードで文書を開くことで発生するとのこと。文章が文字化けすると無意味な文字列になってしまうので読めませんが、どのような文字コードが使われたかによって異なるパターンが表れるので、慣れると使われている文字コードの種類を推測することができるそうです。 ◆UTF-8 UTF-8はインターネット上では最も一般的な文字

                                                                      海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される
                                                                    • 最も「ありそうで存在しない漢字」は何か? - Qiita

                                                                      タイトルが全てです。 個々のパーツとしてはありふれた部品なのに、合体させると「存在しない漢字」になる組み合わせは一体何なのか調べてみました。 ※この記事は TSG Advent Calendar 2022 の14日目の記事です。 手法 以下の手順で「ありそうで存在しない漢字」を調べることにしました。 すでに存在する漢字を構成する部品を調査する 出現回数が多い部品どうしを組み合わせ新たな漢字を作る 構成する部品の出現頻度から、それぞれの組み合わせの「ありそう度」をスコア付けする スコアが最も高いものを「最もありそうで存在しない漢字」とする CHISE 漢字構造情報データベースは、Unicodeに収録されている全漢字を含むさまざまな漢字の部品構造をデータベース化したオープンデータです。今回はこちらのデータを利用して調査を行うことにしました。 頻出部品を調査する UnicodeのCJK統合漢字か

                                                                        最も「ありそうで存在しない漢字」は何か? - Qiita
                                                                      • 「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか

                                                                        携帯電話を用いたコミュニケーションの手法の1つに「絵文字」がある。日本で生まれたこの絵文字は、GoogleとAppleによって標準化され、今ではさまざまなスマートフォンやPCでもでも閲覧できる。 その一方、ドコモで販売されるAndroidスマートフォンには、いまだフィーチャーフォン時代の絵文字が表示される。しかしこれが今のスマートフォンにそぐわない側面が出ている。この絵文字問題について考察したい。 今の絵文字は日本のものをベースにGoogleとAppleが標準化を提案 絵文字を携帯電話に採用したのは、NTTドコモが最初だ。この後にDDI(現au)、J-フォン(現ソフトバンク)が採用する形で続く。絵文字にはシフトJISというコードが用いられていたが、互換性維持の空き領域に絵文字を割り当てたことから、キャリア間で互換性がなく、文字化けの要因となっていた。 後に自動変換サービスも展開されたが、使

                                                                          「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか
                                                                        • 「どうして数字とファイル名の間にアンダーラインを入れるんですか。スペースでいいですよね」非ITの人から言われそうなネタにツッコミ殺到した話

                                                                          ふも @fumokmm システム屋です。最近はアーキテクト的なことをやっています。ITで遊ぼう! 興味:プログラミング/AI/読書/数学/哲学/心理学/物理学/宇宙/投資/ゲーム(レトロRPG) もし私をフォローしていただけますと、私のフォロワーが増えます。※ポスト内容は基本的には個人の意見です ※Amazonアソシエイトプログラム参加者です onl.tw/XNHeeKq

                                                                            「どうして数字とファイル名の間にアンダーラインを入れるんですか。スペースでいいですよね」非ITの人から言われそうなネタにツッコミ殺到した話
                                                                          • 「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita

                                                                            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                                                                              「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
                                                                            • Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー

                                                                                Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー
                                                                              • 弊社所属タレント『潤羽るしあ』に関するご報告 | カバー株式会社

                                                                                カバー株式会社は、「ホロライブプロダクション」をはじめとした日本ならではのコンテンツを世界に向けて発信している、次世代のエンターテインメント企業です。

                                                                                  弊社所属タレント『潤羽るしあ』に関するご報告 | カバー株式会社
                                                                                • 端末の文字幅問題の傾向と対策 | IIJ Engineers Blog

                                                                                  電子メール、ネットワーク機器集中管理、異常検知、分散処理、クラウド基盤などのシステム開発に従事。古代Rubyist。 CLI や TUI なアプリケーションを使っていると、端末の画面が崩れてしまうことがよくあります。 たとえば、こんな TUI が、 環境によってはこんな感じで崩れます。 スクロールなどをしながらしばらく使っているとさらにどんどん崩れていきます。 こうなってしまった場合、とりあえず Ctrl-l で画面を再描画することで、大抵はなんとか読める程度にリセットできますので、ことあるごとに Ctrl-l を連打することになります。 ですが、どうしようもないケースもままあります。 例えば、私の場合は以下のようなシチュエーションで困ります。 w3m でテーブルなどを表示するとレンダリングが崩れる less でログの閲覧の際に表示されるべき文字が表示されず見落としが発生する Wander

                                                                                    端末の文字幅問題の傾向と対策 | IIJ Engineers Blog

                                                                                  新着記事









                                                                                  ApplySandwichStrip

                                                                                  pFad - (p)hone/(F)rame/(a)nonymizer/(d)eclutterfier!      Saves Data!


                                                                                  --- a PPN by Garber Painting Akron. With Image Size Reduction included!

                                                                                  Fetched URL: https://b.hatena.ne.jp/q/utf8

                                                                                  Alternative Proxies:

                                                                                  Alternative Proxy

                                                                                  pFad Proxy

                                                                                  pFad v3 Proxy

                                                                                  pFad v4 Proxy