パッケージ名 tiny-segmenter バージョン 1.1.0 ライセンス 修正 BSD 更新日 2008-07-19 18:31:38 カテゴリ Development、Libraries、Text Processing 依存ライブラリ なし tiny-segmenter は TinySegmenter (Javascript だけで実装されたコンパクトな分かち書きソフトウェア) を xyzzy lisp に移植したものです。 上記 URL によれば以下のような特徴があります。 日本語の新聞記事であれば文字単位で 95% 程度の精度で分かち書きが行える 分かち書きの単位は MeCab + ipadic と互換 辞書を使っていない (機械学習のみ) ダウンロード ダウンロード ドキュメント 変更履歴 変更の詳細および過去の履歴は NEWS を参照してください。 2008-07
先日、自然言語処理はどのように役に立つのかというので酒の席で討論になりました。 自然言語処理とは、人が日常的に使っている自然言語(コンピュータ言語との対比でそうなってるらしく、日本語とか英語とか)をコンピュータに処理させる技術で、様々な技術と問題が融合する境界領域です。純粋な言語理論だけではなく、人工知能やら統計やら何でもまじってます。広義だと情報検索(の基盤といったほうがいいかな)とかも含まれます。 絵とか動画がいくらリッチな情報だとは言え、「昨日私がクーラーかけっぱなしのまま、裸で寝てしまい風邪をひいた」ということを言語情報無しで正確に伝えるのは難しいです。世の中の殆どの情報は自然言語で表されています。 で、自然言語処理が抱える宿命として、人にやらせると、言語処理は、ほぼ100%できてしまうということがあります。難しくないのです。 これは他の学問ではあまり見られないことで、例えば300
ChaSen -- 形態素解析器 はじめに 形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。 新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布 ダウンロード あらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日本語辞書 UniDic 日本語辞書 NAIST-Japanese-dic 日本語辞書(奈良先端大より公開予定) NAIST-Chinese-dic 中国語語辞書(奈良先端大より公開予定) 著作権および仕様条件について 茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する.本ソフ
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日本語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く