[B! 形態素解析] gengohouseのブックマーク

MeCabを導入した時にエンコードエラーが出て苦戦した時の話

gengohouse 2020/11/16

形態素解析

リンク

Javaで形態素解析と辞書のカスタマイズ - Qiita

この記事で紹介することこの記事は次の２つのトピックについて記載しています。 Javaの形態素解析ライブラリKuromojiの使用方法 Kuromojiへのユーザ辞書の追加方法 Kuromojiはatilika社が開発し、Apache Software Foundationへ寄贈されているJava製の形態素解析ライブラリです。ライセンスは「Apache v2 License」となっています。形態素解析に必要な辞書をjarの中に格納しているため、ワンパッケージで形態素解析を行うことができます。また、用意されている辞書は以下のようなものがあります。 IPADIC (2.7.0-20070801) IPADIC NEologd (2.7.0-20070801-neologd-20151224) JUMANDIC (7.0-20130310) NAIST jdic (0.6.3b-20111013

gengohouse 2020/11/13

形態素解析

リンク

MeCabへWikipediaの辞書を追加する方法

こんにちは、GMOアドマーケティングのS.Rです。日本語のNLP（自然言語処理）で形態素解析は大切な処理の１つとなります。今回は、形態素解析ツール「MeCab」へWikipediaの辞書を追加する方法を紹介します。1. 日本語の形態素解析ツールMeCab MeCabは日本語の形態素解析ツールです。詳細はWikipediaの説明をご覧ください。 MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓によって開発されている。名称は開発者の好物「和布蕪（めかぶ）」から取られた。 MaCab、2019年09月17日、ウィキペディア日本語版、https://ja.wikipedia.org/wiki/MeCab 2. 「MeCab」へWikipediaの辞書を追加する方法の説明 1)

gengohouse 2020/11/10

“MeCabへWikipediaの辞書を追加する方法”

形態素解析

リンク

PythonのJanomeで称賛/罵倒の推測【練習, 自然言語処理】 - なるぽのブログ

gengohouse 2020/11/10

形態素解析

リンク

形態素解析器Sudachiの「辞書」はどのように作られているか: 複数の分割単位を例として

これは、Sudachi開発元であるワークス徳島NLPの末席に連なっていた筆者による、個人的な覚え書きです。組織を代表した情報や意見ではなく、誤り等は全て著者個人の責任です。筆者自身は辞書の開発には関わっていませんが、ほとんど知られていない、専門家達の仕事と悩みへ触れる機会になればと思い、執筆しました。形態素解析器Sudachi Sudachiは、株式会社ワークスアプリケーションズの徳島人工知能 NLP研究所が開発する形態素解析器です。形態素解析は、人間の言葉を機械で扱う自然言語処理において、多くの場合に基盤となる技術で、主には、テキストを分割する「Segmentation」、語形を辞書形にする「Stemming」、動詞や名詞といった品詞を付与する「Part-of-Speech Tagging」を行うものです。世の中には多くの形態素解析器がありますが、その中でもSudachiの特色として

gengohouse 2020/10/30

リンク

自然言語処理1　形態素解析 - Qiita

Aidemy　2020/10/29 #はじめにこんにちは、んがょぺです！バリバリの文系ですが、AIの可能性に興味を持ったのがきっかけで、AI特化型スクール「Aidemy」に通い、勉強しています。ここで得られた知識を皆さんと共有したいと思い、Qiitaでまとめています。以前のまとめ記事も多くの方に読んでいただけてとても嬉しいです。ありがとうございます！今回は、自然言語処理の一つ目の投稿になります。どうぞよろしくお願いします。＊本記事は「Aidemy」での学習内容を「自分の言葉で」まとめたものになります。表現の間違いや勘違いを含む可能性があります。ご了承ください。今回学ぶこと・自然言語処理とは・テキストコーパスについて・形態素解析について #自然言語処理について・__「自然言語」とは、人間が普段使う、話し言葉/書き言葉のこと__である。これをコンピュータに処理させることを「自然

gengohouse 2020/10/29

形態素解析

リンク

自然言語処理 MeCab (随時更新) - Hello World

gengohouse 2020/10/08

形態素解析

リンク

GitHub - lindera/lindera: A multilingual morphological analysis library.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

gengohouse 2020/10/08

A Japanese morphological analysis library in Rust. This project fork from fulmicoton's kuromoji-rs. Lindera aims to build a library which is easy to install and provides concise APIs for various Rust applications.

形態素解析

リンク

Japanese Language Analysis by GPU Ready Open Source NLP Frameworks

Japanese Language Analysis by GPU Ready Open Source NLP Frameworks Hiroshi Matsuda GPU Techno logy Conference 2020 1 This document is published under CC BY 4.0 license from Megagon Labs, Recruit Co., Ltd. Contents 自然言語処理技術の進歩とGPUが与えた影響  ルールベースからTransf ormersまで NLP Frameworkを用いた日本語の解析  世界の全言語を統一的に扱うUniversal Dependenciesとその日本語化  GiNZAの文節API GPU Ready OSS NLP Frameworks  spaCy v2.3 → v3.0  Stanza

gengohouse 2020/10/08

Japanese Language Analysis by GPU Ready Open Source NLP Frameworks

形態素解析

リンク

PHPでMeCabのユーザー辞書を作成する

このプログラムを実行するには、MeCab がインストールされている必要がある。MeCab の入手方法やインストール方法については公式サイトを参照されたい。 MeCabは ChaSen をもとに開発が始まった。ChaSenに比べて解析精度は同程度で、解析速度は平均3～4倍速いという。 46: //表示幅（ピクセル） 47: define('WIDTH', 600); 48: 49: //Spinner - jQuery UI を使用するかどうか 50: define('USESPINNER', TRUE); 51: 52: //コスト（初期値） 53: define('COST_DEF', 10); 54: //コスト（最小値）→コスト計算する 55: define('COST_MIN', 0); 56: //コスト（最大値） 57: define('COST_MAX', 9999); 58

gengohouse 2020/10/03

形態素解析

リンク

PythonとMeCabで形態素解析(on Windows) - Qiita

はじめに Windowsでの形態素解析環境の構築を手伝うことが多くなってきたので、一連の流れをまとめて備忘録的に書き留めておくことにしました。以下、Python上で形態素解析器MeCabを使って形態素の一覧出力が出来るようになることを目標に話を進めていきます。導入するもの一覧 Anaconda3 64bit MeCab 0.996 64bit mecab-python-windows Anacondaのインストール Pythonの統合環境であるAnacondaのインストールを行います。 Anacondaは、以下のURLからダウンロードできます。ダウンロードする際は、3.x の最新バージョンを使用OSのbit数に応じて選択してください。本記事においては、3.xの64bit版の環境を想定して話を進めていきます。なお、2.xの古いバージョンを使うことも出来ますが、サポートが限定され

gengohouse 2020/09/26

形態素解析

リンク

形態素解析の結果を返すLinebot（python × MeCab × heroku） - Qiita

#概要 LINEへの入力内容をpythonのサーバで受けて、MeCabによる形態素解析の結果を応答として返すLinebotを作りました。Linebotとpythonプログラムの中継にherokuを使いました。下記のサイトを参考にしました。 PythonでLine botを作ってみた Getting started with the Messaging API | LINE Developers #環境 macOS Catalina 10.15.4 python 3.8.0 #事前準備 PythonでLine botを作ってみたの「実装」までを終えておきます。つまり、LineDeveloperアカウントとHerokuアカウントを作り、LineDeveloperコンソールで新規チャンネルを作成し、チャンネルアクセストークンとチャンネルシークレットを取得します。GUIなどたまに変化しているよう

gengohouse 2020/09/22

形態素解析

リンク

自然言語処理のステップ①：「分かち書き」とは？

分かち書きとは？分かち書き（わかちがき）とは、読んで字のごとく、一つの文を小さい語のまとまりに「分けて」「書く」ことです。機械学習の現場では、自然言語処理を実行するときの最初のステップとして、分かち書きを行います。自然言語処理というのは、人間の言語である「自然言語」をコンピュータで分析するための処理のことです。漢字にするといかめしいですが、今ここで読んでいる「この文字」や「あの文字」も、"Thank you!"も全て、自然言語です。 👉参考記事：『自然言語処理（NLP）とは何か？自然言語とプログラミング言語の違いを知ろう！』自然言語は、コンピュータの言語である機械語や、その翻訳用言語であるプログラミング言語とは、言葉のルールや構成が大きく違います。そのため、そのまま自然言語データをを分析しようとしても、コンピュータがうまく処理してくれません。そこで登場するのが、機械学習の一分

gengohouse 2020/09/18

形態素解析

リンク

自然言語処理のステップ②：「形態素解析」とは？

形態素解析って何？形態素解析（けいたいそかいせき）とは、形態素に品詞付けを行う作業です。機械学習の現場では、自然言語処理を実行するときの第二のステップとして、分かち書きの次に形態素解析を行います。（ただし、場合によっては、分かち書きと品詞付けを合わせて形態素解析と呼ぶ場合もあります）自然言語処理というのは、人間の言語である「自然言語」をコンピュータで分析するための処理のことです。漢字にするといかめしいですが、今ここで読んでいる「この文字」や「あの文字」も、"Thank you!"も全て、自然言語です。 👉参考記事：『自然言語処理（NLP）とは何か？自然言語とプログラミング言語の違いを知ろう！』自然言語は、コンピュータの言語である機械語や、その翻訳用言語であるプログラミング言語とは、言葉のルールや構成が大きく違います。そのため、そのまま自然言語データをを分析しようとしても、

gengohouse 2020/09/17

形態素解析

リンク

WindowsやmacやLinuxにpipでPython用MeCabバインディングをいれる - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめにちゃお・・・† 個人的にですが、最近はWindowsのPythonでMeCabを使う機会が増えてきました。しかし、WindowsでMeCabのPythonラッパーを入れるには、ソースをダウンロードしたりsetup.pyを書き換えたりコンパイラをインストールしたりしないといけないので、とても面倒です。そこで、WindowsでもmacでもUbuntuでもpipで簡単にMeCabのPythonラッパーを使えるものを公開しました！ https://pypi.org/project/mecab/ ※ 過去にmecab-python-w

gengohouse 2020/09/12

形態素解析

リンク

形態素解析して頻出単語を出す - Qiita

import MeCab import itertools import collections import string #データ全体を名詞群として扱う,リスト化して収納 with open("deta.txt","r",encoding='utf-8') as f: a = f.read().split lines() #形態素解析2パターン目<-いろいろやり方がある def split_text_only_noun(text): tokenizer = MeCab.Tagger() node = tokenizer.parseToNode(text) keywords = [] while node: if node.feature.split(",")[0] == u"名詞": keywords.append(node.surface) print(keywords) node =

gengohouse 2020/09/10

形態素解析

リンク

形態素解析

形態素解析の技術形態素解析技術については深層学習の登場により枯れた技術だと思われている中で「本当に必要である技術なのか」と様々な議論がされています。その業界の流れの中で、なぜ徳島NLP研究所でこの技術をあえて注目し研究しているのか、着眼点・利用価値についてご紹介します。技術自体がブラックボックスとして扱われがちですが、実際に研究していく中で得られたノウハウを開示し、形態素解析の仕組みについて解説をし、内部で利用する技術の選別／処理内容／実利用での注意点をご説明します。実例として、形態素解析エンジンについても触れる予定です。Read less

gengohouse 2020/09/07

形態素解析

リンク

新人エンジニアがjanomeで形態素解析してみた! | SIOS Tech. Lab

from janome.tokenizer import Tokenizer path = './test.txt' #同じディレクトリにtext.txtを配置 file = open(path, encoding="utf-8") #ファイルをオープン Windows or Mac #file = open(path) #ファイルをオープン Mac bindata = file.read()#開いたファイルの読み込み #textdata = bindata.decode('shift_jis') t = Tokenizer() #形態素解析 dic = {} #辞書 #--------------------------------------------------------------------------------------------- lines = bindata.s

gengohouse 2020/09/02

形態素解析

リンク

自然言語処理の前処理とMeCab(形態素解析エンジン)について - Qiita

はじめにこの記事は機械学習を行うための準備段階のお話です。今回は自然言語処理における前処理と形態素解析についてまとめました。前回の記事では、PythonでWebスクレイピングを行いました。今回はスクレイピングで取得したテキストデータの前処理と形態素解析の予行演習をまとめました。機械学習の一連の流れは以下になります。 1.機械学習のデータを集めるためにWebからデータをスクレイピング 1.5.テキストデータの前処理　←今ここ！ 2.スクレイピングしたデータの整形（特徴量） 3.学習モデルの作成、検証なお、テキストデータ前処理、形態素解析はPythonで実装しています。自然言語処理の前処理について機械学習を行う上で構造化された膨大な量のテキストデータが必要な場合もあります。構造化されていないテキストデータ（生のデータ）は人間から見たらある程度理解できると思いますが、機械学習ではテ

gengohouse 2020/09/01

形態素解析

リンク

自然言語処理の基礎である形態素解析からbowによるベクトル化、TF-IDFによる重み付けまで解説｜shimakaze_soft

Pythonをそれなりに書いており、専門的にやっているわけではありませんが、自分も業務などで機械学習を行った経験が少しあり、Pythonをやっていれば機械学習や自然言語処理などに触れる機会があります。。今回は自然言語処理系の機械学習では、ほぼ必ず行う「形態素解析」から文字列の「ベクトル化」までの流れを初心者向けに解説します。使用環境としてはPython3.5以上を想定しています。自然言語処理の前処理の基本の流れ機械学習でいう文字列の学習を行うには、前処理と呼ばれる工程で機械学習の形式に扱えるような文字列の処理をする必要があります。基本的な流れは以下のようになります。 - 1. 形態素解析(品詞の分解を行う） - 2. Bag of words(bow)による文字のベクトル化 - 3. TF-IDFによる文字の重み付けベクトル化とは機械学習を行うには、データーである文字列を機械学習で扱

gengohouse 2020/08/19

形態素解析

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

形態素解析に関するgengohouseのブックマーク (76)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第4週）

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

pFad - (p)hone/(F)rame/(a)nonymizer/(d)eclutterfier! Saves Data!