Content-Length: 225514 | pFad | http://b.hatena.ne.jp/gengohouse/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90/
この記事で紹介すること この記事は次の2つのトピックについて記載しています。 Javaの形態素解析ライブラリKuromojiの使用方法 Kuromojiへのユーザ辞書の追加方法 Kuromojiはatilika社が開発し、Apache Software Foundationへ寄贈されているJava製の形態素解析ライブラリです。ライセンスは「Apache v2 License」となっています。形態素解析に必要な辞書をjarの中に格納しているため、ワンパッケージで形態素解析を行うことができます。また、用意されている辞書は以下のようなものがあります。 IPADIC (2.7.0-20070801) IPADIC NEologd (2.7.0-20070801-neologd-20151224) JUMANDIC (7.0-20130310) NAIST jdic (0.6.3b-20111013
こんにちは、GMOアドマーケティングのS.Rです。 日本語のNLP(自然言語処理)で形態素解析は大切な処理の1つとなります。 今回は、形態素解析ツール「MeCab」へWikipediaの辞書を追加する方法を紹介します。1. 日本語の形態素解析ツールMeCab MeCabは日本語の形態素解析ツールです。詳細はWikipediaの説明をご覧ください。 MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。 MaCab、2019年09月17日、ウィキペディア日本語版、https://ja.wikipedia.org/wiki/MeCab 2. 「MeCab」へWikipediaの辞書を追加する方法の説明 1)
これは、Sudachi開発元であるワークス徳島NLPの末席に連なっていた筆者による、個人的な覚え書きです。組織を代表した情報や意見ではなく、誤り等は全て著者個人の責任です。 筆者自身は辞書の開発には関わっていませんが、ほとんど知られていない、専門家達の仕事と悩みへ触れる機会になればと思い、執筆しました。 形態素解析器Sudachi Sudachiは、株式会社ワークスアプリケーションズの徳島人工知能NLP研究所が開発する形態素解析器です。形態素解析は、人間の言葉を機械で扱う自然言語処理において、多くの場合に基盤となる技術で、主には、テキストを分割する「Segmentation」、語形を辞書形にする「Stemming」、動詞や名詞といった品詞を付与する「Part-of-Speech Tagging」を行うものです。 世の中には多くの形態素解析器がありますが、その中でもSudachiの特色として
Aidemy 2020/10/29 #はじめに こんにちは、んがょぺです!バリバリの文系ですが、AIの可能性に興味を持ったのがきっかけで、AI特化型スクール「Aidemy」に通い、勉強しています。ここで得られた知識を皆さんと共有したいと思い、Qiitaでまとめています。以前のまとめ記事も多くの方に読んでいただけてとても嬉しいです。ありがとうございます! 今回は、自然言語処理の一つ目の投稿になります。どうぞよろしくお願いします。 *本記事は「Aidemy」での学習内容を「自分の言葉で」まとめたものになります。表現の間違いや勘違いを含む可能性があります。ご了承ください。 今回学ぶこと ・自然言語処理とは ・テキストコーパスについて ・形態素解析について #自然言語処理について ・__「自然言語」とは、人間が普段使う、話し言葉/書き言葉のこと__である。これをコンピュータに処理させることを「自然
Japanese Language Analysis by GPU Ready Open Source NLP Frameworks Hiroshi Matsuda GPU Technology Conference 2020 1 This document is published under CC BY 4.0 license from Megagon Labs, Recruit Co., Ltd. Contents 自然言語処理技術の進歩とGPUが与えた影響 ルールベースからTransformersまで NLP Frameworkを用いた日本語の解析 世界の全言語を統一的に扱うUniversal Dependenciesとその日本語化 GiNZAの文節API GPU Ready OSS NLP Frameworks spaCy v2.3 → v3.0 Stanza
このプログラムを実行するには、MeCab がインストールされている必要がある。MeCab の入手方法やインストール方法については公式サイトを参照されたい。 MeCabは ChaSen をもとに開発が始まった。ChaSenに比べて解析精度は同程度で、解析速度は平均3~4倍速いという。 46: //表示幅(ピクセル) 47: define('WIDTH', 600); 48: 49: //Spinner - jQuery UI を使用するかどうか 50: define('USESPINNER', TRUE); 51: 52: //コスト(初期値) 53: define('COST_DEF', 10); 54: //コスト(最小値)→コスト計算する 55: define('COST_MIN', 0); 56: //コスト(最大値) 57: define('COST_MAX', 9999); 58
はじめに Windowsでの形態素解析環境の構築を手伝うことが多くなってきたので、 一連の流れをまとめて備忘録的に書き留めておくことにしました。 以下、Python上で形態素解析器MeCabを使って 形態素の一覧出力が出来るようになることを目標に話を進めていきます。 導入するもの一覧 Anaconda3 64bit MeCab 0.996 64bit mecab-python-windows Anacondaのインストール Pythonの統合環境であるAnacondaのインストールを行います。 Anacondaは、以下のURLからダウンロードできます。 ダウンロードする際は、3.x の最新バージョンを使用OSのbit数に応じて選択してください。 本記事においては、3.xの64bit版の環境を想定して話を進めていきます。 なお、2.xの古いバージョンを使うことも出来ますが、サポートが限定され
#概要 LINEへの入力内容をpythonのサーバで受けて、MeCabによる形態素解析の結果を応答として返すLinebotを作りました。Linebotとpythonプログラムの中継にherokuを使いました。 下記のサイトを参考にしました。 PythonでLine botを作ってみた Getting started with the Messaging API | LINE Developers #環境 macOS Catalina 10.15.4 python 3.8.0 #事前準備 PythonでLine botを作ってみたの「実装」までを終えておきます。つまり、LineDeveloperアカウントとHerokuアカウントを作り、LineDeveloperコンソールで新規チャンネルを作成し、チャンネルアクセストークンとチャンネルシークレットを取得します。GUIなどたまに変化しているよう
分かち書きとは? 分かち書き(わかちがき)とは、読んで字のごとく、一つの文を小さい語のまとまりに「分けて」「書く」ことです。機械学習の現場では、自然言語処理を実行するときの最初のステップとして、分かち書きを行います。 自然言語処理というのは、人間の言語である「自然言語」をコンピュータで分析するための処理のことです。漢字にするといかめしいですが、今ここで読んでいる「この文字」や「あの文字」も、"Thank you!"も全て、自然言語です。 👉参考記事:『自然言語処理(NLP)とは何か? 自然言語とプログラミング言語の違いを知ろう!』 自然言語は、コンピュータの言語である機械語や、その翻訳用言語であるプログラミング言語とは、言葉のルールや構成が大きく違います。 そのため、そのまま自然言語データをを分析しようとしても、コンピュータがうまく処理してくれません。 そこで登場するのが、機械学習の一分
形態素解析って何? 形態素解析(けいたいそかいせき)とは、形態素に品詞付けを行う作業です。 機械学習の現場では、自然言語処理を実行するときの第二のステップとして、分かち書きの次に形態素解析を行います。 (ただし、場合によっては、分かち書きと品詞付けを合わせて形態素解析と呼ぶ場合もあります) 自然言語処理というのは、人間の言語である「自然言語」をコンピュータで分析するための処理のことです。 漢字にするといかめしいですが、今ここで読んでいる「この文字」や「あの文字」も、"Thank you!"も全て、自然言語です。 👉参考記事:『自然言語処理(NLP)とは何か? 自然言語とプログラミング言語の違いを知ろう!』 自然言語は、コンピュータの言語である機械語や、その翻訳用言語であるプログラミング言語とは、言葉のルールや構成が大きく違います。 そのため、そのまま自然言語データをを分析しようとしても、
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに ちゃお・・・† 個人的にですが、最近はWindowsのPythonでMeCabを使う機会が増えてきました。しかし、WindowsでMeCabのPythonラッパーを入れるには、ソースをダウンロードしたりsetup.pyを書き換えたりコンパイラをインストールしたりしないといけないので、とても面倒です。 そこで、WindowsでもmacでもUbuntuでもpipで簡単にMeCabのPythonラッパーを使えるものを公開しました! https://pypi.org/project/mecab/ ※ 過去にmecab-python-w
import MeCab import itertools import collections import string #データ全体を名詞群として扱う,リスト化して収納 with open("deta.txt","r",encoding='utf-8') as f: a = f.read().splitlines() #形態素解析2パターン目<-いろいろやり方がある def split_text_only_noun(text): tokenizer = MeCab.Tagger() node = tokenizer.parseToNode(text) keywords = [] while node: if node.feature.split(",")[0] == u"名詞": keywords.append(node.surface) print(keywords) node =
from janome.tokenizer import Tokenizer path = './test.txt' #同じディレクトリにtext.txtを配置 file = open(path, encoding="utf-8") #ファイルをオープン Windows or Mac #file = open(path) #ファイルをオープン Mac bindata = file.read()#開いたファイルの読み込み #textdata = bindata.decode('shift_jis') t = Tokenizer() #形態素解析 dic = {} #辞書 #--------------------------------------------------------------------------------------------- lines = bindata.s
はじめに この記事は機械学習を行うための準備段階のお話です。 今回は自然言語処理における前処理と形態素解析についてまとめました。 前回の記事では、PythonでWebスクレイピングを行いました。今回はスクレイピングで取得したテキストデータの前処理と形態素解析の予行演習をまとめました。 機械学習の一連の流れは以下になります。 1.機械学習のデータを集めるためにWebからデータをスクレイピング 1.5.テキストデータの前処理 ←今ここ! 2.スクレイピングしたデータの整形(特徴量) 3.学習モデルの作成、検証 なお、テキストデータ前処理、形態素解析はPythonで実装しています。 自然言語処理の前処理について 機械学習を行う上で構造化された膨大な量のテキストデータが必要な場合もあります。構造化されていないテキストデータ(生のデータ)は人間から見たらある程度理解できると思いますが、機械学習ではテ
Pythonをそれなりに書いており、専門的にやっているわけではありませんが、自分も業務などで機械学習を行った経験が少しあり、Pythonをやっていれば機械学習や自然言語処理などに触れる機会があります。。 今回は自然言語処理系の機械学習では、ほぼ必ず行う「形態素解析」から文字列の「ベクトル化」までの流れを初心者向けに解説します。 使用環境としてはPython3.5以上を想定しています。 自然言語処理の前処理の基本の流れ機械学習でいう文字列の学習を行うには、前処理と呼ばれる工程で機械学習の形式に扱えるような文字列の処理をする必要があります。基本的な流れは以下のようになります。 - 1. 形態素解析(品詞の分解を行う) - 2. Bag of words(bow)による文字のベクトル化 - 3. TF-IDFによる文字の重み付けベクトル化とは機械学習を行うには、データーである文字列を機械学習で扱
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
Fetched URL: http://b.hatena.ne.jp/gengohouse/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90/
Alternative Proxies: