[B! NLP] tanakaBoxのブックマーク

Elasticsearchで日本語を同義語展開する

全文検索における同義語展開の必要性全文検索では、基本的に文字列のマッチにより検索を行います。しかし我々が言葉を扱うときには、同じものを違う表現で指し示すことが多々あります。例えば「独占禁止法」と呼ばれる法律があります。これは経済憲法とも言われる大変重要な法律なのですが、日本では「昭和二十二年法律第五十四号（私的独占の禁止及び公正取引の確保に関する法律）」という法律がそれに該当し、独占禁止法という名前にはなっていません。これを皆、「独占禁止法」や「独禁法」といった代替可能な別表現（同義語）で呼んでいるわけです。同法律には法令用語で言うところの「題名」は付されておらず、頭書の名称は制定時の公布文から引用したいわゆる「件名」である。独占禁止法ないし独禁法と略称されることも多い。もし「独禁法」で検索して当該法律がヒットしなければ、ユーザーとしては不満足でしょう。検索システムのクオリティを向

tanakaBox 2021/12/21

nlp

リンク

テキスト処理総まとめ〜Bag-of-Words, MeCab, CaboCha, TF-IDF, Word2Vec, Doc2Vec〜 - Qiita

目次 Bag-of-X Bag-of-Words Bag-of-n-Grams 日本語の言語処理（MeCab, CaboCha） TF-IDF Word2Vec Doc2Vec 自然言語処理に関連した主な用語集自然言語処理の分野では特有の専門用語がよく出てくるので、まずそれを抑えます。ストップワード代名詞、冠詞、前置詞のような、文章の内容によらず一般的に使われる単語のこと。英語だと例えば、a, about, am, an, been, they, myself・・・など。日本語だと、「の」、「は」、「です」、「ます」・・・など。ステミング単語を語幹（単語の語形変化における基礎となる部分のこと）の形に変換する自然言語処理の技術。例えば、'swimmer', 'swimming', 'swim'のような変化形を同じ単語として認識する。コーパス自然言語処理の単語で解析対象とな

tanakaBox 2019/04/09

nlp

リンク

リクルート、Python向け日本語自然言語処理オープンソースライブラリ「GiNZA」公開

リクルートはこのほど、同社のAI研究機関・Megagon Labsが開発したPython向け日本語自然言語処理オープンソースライブラリ「GiNZA」（ギンザ）と、国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ「GiNZA日本語Universal Dependencies（UD）モデル」をGitHubで公開した。 GiNZAは、複雑な導入作業不要で、ワンステップでモジュールとモデルファイルの導入が可能なライブラリ。エンジニアやデータサイエンティストが自然言語処理を簡単に応用できることを目指して開発したという。自然言語処理ライブラリ「spaCy」をフレームワークとして利用し、オープンソース形態素解析器「SudachiPy」を組み込んでおり、「産業用途に耐える性能を備えている」としている。spaCyの国際化機能により、複数の欧米言語と日本語の言語リソースを切り替えて使用することも

tanakaBox 2019/04/06

NLP

リンク

StanfordNLP 0.2.0 - Python NLP Library for Many Human Languages | StanfordNLP

⚠️ Note ⚠️ All development, issues, ongoing maintenance, and support have been moved to our new GitHub repository as the toolkit is being renamed as Stanza since version 1.0.0. Please visit our new website for more information. You can still download stanfordnlp via pip, but newer versions of this package will be made available as stanza. This site is kept for archival purposes. ⚠️ Note ⚠️ All dev

tanakaBox 2019/02/03

nlp

リンク

ディープラーニングで翻訳プログラムを0から作った人がその仕組みを複雑な数式ではなく図で解説するとこうなる - GIGAZINE

テクノロジーが発達することで、専門家でなくてもニューラルネットワークを使って翻訳プログラムを作ることが可能になりました。とは言っても、全く知識がない人にその仕組みを理解するのは難しいもの。そこでライターのSamuel Lynn-Evansさんが自分で情報を調べつつ0から翻訳プログラムを作成し、その時に理解した仕組みを数式を使わずに説明しています。 Found in translation: Building a language translator from scratch with deep learning https://blog.floydhub.com/language-translator/ 言語は非常に複雑で、これまで機械翻訳を行うには何人もの専門家が必要でした。しかし、人工知能(AI)の発達により、もはや専門家でなくても機械翻訳を行うことが可能になりました。これまで専門家

tanakaBox 2018/10/13

nlp

リンク

形態素解析ツールの比較 (NLP2018) - Qiita

NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。間違っている部分、追加したい内容があればコメントでお願いします。追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま

tanakaBox 2018/03/19

NLP

リンク

RakutenMAによる形態素解析入門 - あんちべ！

概要本稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。本記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。また、本稿ははてな×PC工房との連動企画の補足をするべく書きました。「あんちべさんと一緒に Rakuten MA で形態素解析」はてなニュース連動企画第二弾！ : パソコン工房パソコン工房のPCで遊ぼう第2弾！あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモエディタ判定器 :パソコン工房【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに近年、twitterやFacebookなどのSNSやAmazonのレビューなどから得ら

tanakaBox 2015/01/09

NLP

リンク

kuromoji.js使って構文解析した - Qiita

こんにちは、らこです。先日から話題になってるJavaScriptの形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事ではないです) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら確率自由文脈文法とはちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。雰囲気つかむにはここらへんを

tanakaBox 2014/12/31

nlp

リンク

やさしい日本語言い換えシステムを支える技術

coinsLT #1で話した(けど途中までしか話せなかった)内容。ルールベースの言い換えシステムの効率的な実装の内部を説明。Read less

tanakaBox 2014/12/13

NLP

リンク

CaboChaで始める係り受け解析 - Qiita

#注意著者は自然言語処理(NLP)初心者です。記載内容に間違いがある場合は、コメントを頂けると助かります。 #MeCabの後には、何で遊ぼう？ CaboCha(南瓜) #CaboCha(南瓜)とは？ CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer CaboCha は, SVM(Support Vector Machines) に基づく日本語係り受け解析器です。引用元：cabocha - Yet Another Japanese Dependency Structure Analyzer - Google Project Hosting #係り受け解析とは？文節間の「修飾する（係る）」「修飾される（受ける）」の関係を調べる事です。 ex.綺麗な海・「綺麗な」→「海」 #「綺麗な」が「海」を修飾する。 #何

tanakaBox 2014/09/29

NLP

リンク

「word2vecによる自然言語処理」を出版しました - 西尾泰和のはてなダイアリー

オライリー・ジャパンから「word2vecによる自然言語処理」という電子書籍を出版しました。予定外のドタバタがあってブログで紹介するのが遅くなってしまいましたが、その間にオライリーのEbook Store Sales Rankingでは1位になっていました。 word2vecは2013年に論文が出たばかりの新しい技術です。色々な方がブログで取り上げていて、興味をもった方も多いと思います。知らない方のためにいくつかリンクを紹介しておきます： https://code.google.com/p/word2vec/ で少し遊んでみた。いわゆる deep learning で… Deep-learningはラテン語の動詞活用を学習できるか？ Can deep-learning learn latin conjugation? - naoya_t@hatena blog 自然言語処理をなにも知らない私

tanakaBox 2014/06/13

NLP

リンク

単語の数学的表現メモ - Negative/Positive Thinking

はじめに単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。しかし、「どのようなベクトル・確率分布にすべきか？」などはタスクに依存したりして、自明じゃない。たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現各次元が「その単語か否か」を表すベクトルで表現次元の大きさ＝ボキャブラリ数例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる未知語はゼロベクトルになってしまう文字nグラムによる表現単語の表層から得られる情報を利用単語に出現している文字nグラムを利用カタカナ語とか有効そう例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア

tanakaBox 2014/05/30

NLP

リンク

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一

tanakaBox 2014/03/27

メモ：Fedoraはyumでインストール可。

NLP

リンク

高速文字列解析の"別"世界 - 気ままなブログ

1月に「高速文字列解析の世界」を購入してから半年が経ちました。以下、文字列本と呼びます。高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学) 作者: 岡野原大輔出版社/メーカー: 岩波書店発売日: 2012/12/27メディア: 単行本購入: 15人クリック: 324回この商品を含むブログ (4件) を見る全文検索として、「CSA」や「FM-Index」が紹介されていますが、「全文検索システム」を作るには、これらだけでは不十分です。なぜなら、以下のような特徴があるからです。文書IDの識別が遅い。各文書IDに出現する頻度を求めるのが遅い。ちなみに、転置インデックス(or N-gramインデックス)を使った場合、これらの処理は高速ですね。インデックスを圧縮しているのだからしょうがないとも考えられますが、作りたいですよねぇ、「全文検索システム」。こ

tanakaBox 2013/07/18

NLP

リンク

トピックモデルメモ - Negative/Positive Thinking

はじめにトピックモデルについてメモ。トピックモデルとは文書は、何らかの話題について書かれていたりする「ある文書内に一緒にでてくる単語は、意味的な関連性が強い」など考えられるトピックモデルは、文書から「何らかの話題(＝トピック)」を発見するための統計的なモデルのことトピックモデルのいろいろ Unigram Mixtures ナイーブベイズでクラス数kと各パラメータをEMで繰り返し推定していく http://www.kamalnigam.com/papers/emcat-mlj99.pdf Probabilistic Latent Semantic Indexing(PLSI) 検索技術であった潜在意味解析(LSI,1990年)を確率的に解析、開発された生成モデル(1999年) 各単語ごとに別なトピックから生成されたと仮定する http://cs.brown.edu/~th/pap

tanakaBox 2013/06/06

NLP

リンク

自然言語のテキストを属性で区分する #iOS #自然言語処理 - Qiita

NSLinguisticTaggerを用いると、自然言語のテキストを品詞（名詞、動詞、代名詞）や「個人名」「地名」といった属性で区分（トークンに分解）することができます。日本語の形態素解析も可能です。使い方は非常にシンプルで、基本的な手順はスキームを引数に渡してNSLinguisticTaggerオブジェクトを生成処理対象テキストをセットトークン分解開始の3ステップです。 // スキーム NSArray *schemes = @[NSLinguisticTagSchemeLexicalClass]; // NSLinguisticTaggerオブジェクトを生成 NSLinguisticTagger *tagger = [[NSLinguisticTagger alloc] initWithTagSchemes:schemes options:0]; // 処理対象テキスト NSS

tanakaBox 2013/04/02

NLP

リンク

自然言語処理 - Wikipedia

英語版記事を日本語へ機械翻訳したバージョン（Google翻訳）。万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。翻訳後、{{翻訳告知|en|Natural language processing|…}}をノートに追加することもできます。 Wikipedia:翻訳のガイドラインに、より詳細な翻訳の

tanakaBox 2013/03/30

NLP

リンク

Python による日本語自然言語処理

はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

tanakaBox 2012/12/27

nlp

リンク

入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と

tanakaBox 2012/12/27

深い愛を感じるｗ

nlp
book

リンク

機械学習と自然言語処理とビッグデータ - Preferred Networks Research & Development

岡野原です。情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。 PFIは元々こうしたデータを分析して価値を提供する（検索エンジンとかもその範疇に入ると思います）ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。

tanakaBox 2012/12/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

NLPに関するtanakaBoxのブックマーク (22)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第4週）

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.