[B! NLP] suikyoのブックマーク

第5回データ構造と情報検索と言語処理勉強会 #DSIRNLP

Toshinori Sato @overlast 詳細に@conditionalさん、@iwiwiさん、@nakajijiさん、@nokunoさん、@tsubosakaさんのご発表のタイトルを追加しました | 新年会 + データ構造と情報検索と言語処理勉強会 #DSIRNLP 5 http://t.co/I3D7NS11Y5 2014-01-08 11:21:51 langstat @langstat 新年会 + データ構造と情報検索と言語処理勉強会 #DSIRNLP 5 - 参加者は何か発表してネスペシャル http://t.co/R2P7PPVd25 1月11日、スマートニュース。「以下の条件に"一つも合致しない方"は、（中略）発表資料を作ってきて下さい」って、斬新。。。 2014-01-08 22:14:15 genta kaneyama @PENGUINANA_ DSIRNLPの

suikyo 2016/01/19

ML
NLP

リンク

入力メソッドワークショップ 2013

Mamoru B Komachi @mamoruk 入力メソッドワークショップ #IM2013 始まりました〜。最初はNAIST久保さんによる、Pronunciation Estimation with Online Discriminative Learning using Second Order Statisticsです！ 2013-12-28 14:09:19

suikyo 2016/01/19

ML
NLP

リンク

「ニコニコ動画コメント等データ」を研究用に提供開始 - 国立情報学研究所 / National Institute of Informatics

大規模ソーシャルメディアデータは情報学研究のターゲットとして大きな注目を浴びており、ニコニコ動画も研究データとして大きな可能性があります。　国立情報学研究所情報学研究データリポジトリ(IDR)では、株式会社ドワンゴの協力の下、ニコニコ動画のコメント等データを広く公開し、研究の用途に供することと致しました。データはニコニコ動画に昨年11月初旬までに投稿された約830万件の動画のメタデータ（タイトル、説明文、タグ、投稿日時、再生数等）約12GBと、それに対するコメントデータ（コメント本文、投稿日時、コメント位置等）約300GBです。動画データ本体および個人を特定するユーザIDは含まれません。本データは研究目的であればどなたでもご利用いただけます。希望される方は下記サイトより利用申請をして下さい。情報学研究データリポジトリニコニコ動画コメント等データ

suikyo 2013/05/30

リンク

【ニコ動研究】ニコニコ動画研究を調べてみた

はじめにニコニコ動画は株式会社ニワンゴが提供している動画共有サイトです． 2006年1月にサービス開始し，2010年3月の時点で登録会員数は1895万（有料会員数は2012年1月の時点で150万人）を数え，登録された動画数は700万本を越えています．基本的なサービスは世界的に有名な動画共有サイトであるYouTubeとほぼ同じですが，幾つかのユニークな機能を持ち，急速に多くのユーザを獲得しました．そのユニークな機能的特徴，そして集まったユーザたちの文化的特徴により，ニコニコ動画は研究的にもとても面白い存在になっています．本ウェブページでは，ニコニコ動画研究の意義や面白さの一端をご紹介できればと思います．ニコニコ動画研究とは？ニコニコ動画研究のサーベイこのページの作者についてニコニコ動画研究とは？「ニコニコ動画の研究をしている」というと，どうしてもネタっぽくなってしまうのです

suikyo 2013/05/30

リンク

国立情報学研究所、ニコニコ動画に投稿されたコメントから抽出したデータの提供を開始 | スラド IT

国立情報学研究所（NII）が24日、ドワンゴとの協力の下、「ニコニコ動画コメント等データ」の提供を開始した（NIIのニュース）。提供されるのは昨年11月初旬までに投稿された約830万件の動画のメタデータ（タイトルおよび説明文、タグ、投稿日時、再生数等）約12GBと、それに対するコメントデータ（コメント本文、投稿日時、コメント位置等）約300GB。動画データや個人を特定するユーザーIDは含まれない。研究目的であれば誰でも利用できるとのこと。かなり偏ったデータであるとは思われるが、この規模のまとまった投稿データはなかなか興味深いのではないだろうか。

suikyo 2013/05/30

NLP
+++

リンク

TinySegmenterの学習ツールを作ってみた

TinySegmenterは工藤さん作のJavaScriptだけで書かれたコンパクトな分かち書きソフトウェアです．わずか20kバイト程度のサイズしかなく，お手軽に使える分かち書きソフトウェアですが，当たり前のことながら学習データに使った新聞記事以外の文章の精度はイマイチ．改善しようにも学習用のプログラムが公開されていないのでモデルの修正が大変です．ないなら作ってしまいましょう！ダウンロードソースはgithubで公開しています．cloneするなりzipファイルを落としてくるなりしてください． TinySegmenterMaker 学習方法スペースで分かち書きしたコーパスをあらかじめ準備しておきます．コーパスから分かち書きの情報と素性を取り出します．

suikyo 2013/02/21

ML
NLP

リンク

COLING 2012 ワークショップ: モバイルテキスト入力の最前線 - 武蔵野日記

本会議は終わったが最後のワークショップがあるので、荷物をまとめて会場の IIT (インドで一番有名な国立の工科大学。インド各地にある) に出発。スーツケースを持ち運ぶのも面倒で、ホテルで預かってもらい、ワークショップが終わったら一度ホテルに戻ってきてホテルから空港に行くことも考えたが、渋滞に巻き込まれると危険なので、会場から直接空港に行くことにしたのである。 Tuktuk で会場まで送ってもらったはいいが、昨日までの招待講演があった会場ではなくレジストレーションがある会場のほうだったので、スーツケースを引きずりながら移動。階段があるのでちょっとしんどい。ワークショップだけ参加の人もいるようで、「ワークショップの場所はどこですか?」と聞かれたので一緒に行く。インドの大学でちょうど英語の感情推定の研究を始めたばかりで、大きな国際会議が開かれると聞いたので発表に来てみた、とのこと。せっかく来るな

suikyo 2012/12/20

リンク

第１回テキストマイニング・シンポジウム - 言語理解とコミュニケーション研究会

本イベントは終了しました。多数のご参加をありがとうございました。シンポジウムの情報をTwitterでリアルタイム発信しています。ハッシュタグは#textminingsympoです。このページの短縮URLは http://bit.ly/gPwy0S です。第１回テキストマイニング・シンポジウム参加募集日程 2011年 7月7日(木) 13:00-17:20　（12:30　受付開始） 2011年 7月8日(金)　9:30-17:30　（9:00　受付開始）ご注意事前登録者数が会場の収容人数に達したため、事前登録受付を終了すると共に、事前登録無しでの参加を受け入れられなくなりました。あしからずご了承下さい。場所日本アイ・ビー・エム本社（箱崎）事業所　（地図） 103-8510 東京都中央区日本橋箱崎町19-21 主なアクセス方法東京メトロ半蔵門線水天宮前駅2番出口徒歩3

suikyo 2011/06/16

NLP

リンク

TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ

TokyoNLP#5に参加して「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」というタイトルで発表しました．発表資料 (検閲後) をuploadしました．なお，2種類のAveraged Perceptronというものがあるというような発表をしてしまいましたが，実は両方とも実質同じアルゴリズムでした．片方はVoted Perceptronの近似 [Carvalho+ 06] という文脈．もう一方は構造学習を行うStructured Perceptron [Collins 02]の文脈で提案されています．その部分を修正しました．@uchumikさんのコメントで気が付きました．どうもありがとうございます． TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ〜ん View more presentations from sleepy_yoshi 音声付きで用意したネタ．どうやら徹夜明けの妙な

suikyo 2011/04/24

NLP
ML

リンク

トピックモデル入門編 - yasuhisa's blog

自然言語処理特論も最後の話題、トピックモデルに先週から入ってます。今日の資料はこの辺の最初の付近。 Topicに基づく統計的言語モデルの最善線前々回までの内容は最尤推定に基づいていたものがほとんどで、(ベイズ的な流れではない)スムージングの方法の説明などがあっていました。 Good-Turing 線形補完 Kneser-Ney smoothing などなど。あとは最大エントロピー法などですね。なんでトピックモデルなのか?で、こういう方法があるにも関わらずなんでトピックモデルというのがわざわざ出てくるか。それは、単語の出現確率というのは変動しまくる!という現実があるからのようです。例えば、最尤推定に基づくN-gramでは、文章に関わらず真の出現確率というのがあると想定している。しかし、Unigramを考えているとして、「東証」という単語が出てくる確率は、社説、経済、スポーツ、芸能などでは

suikyo 2011/04/19

NLP
ML

リンク

自然言語処理

suikyo 2011/03/02

NLP

リンク

ALAGIN 言語資源・音声資源サイト - ホーム

オープンソースソフトウェア上位下位関係抽出ツール（https://alaginrc.nict.go.jp/hyponymy/index.html）多言語形態素解析システム（特許等調整中）多言語係り受け解析システム（CNP）(https://alaginrc.nict.go.jp/cnp/index.html) 意見（評価表現）抽出ツール(https://alaginrc.nict.go.jp/opinion/index.html) 関係知識を利用する全文検索システム(https://alaginrc.nict.go.jp/qe4solr/index.html) 並列類似文字列検索システム(https://alaginrc.nict.go.jp/para-simstring/index.html) 高速化・高並列化ミドルウェア RaSC(https://alaginrc.nict.g

suikyo 2011/02/14

NLP

リンク

Loading...

suikyo 2010/12/13

NLP
research

リンク

入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と

suikyo 2010/12/07

NLP

リンク

識別モデルと識別学習 - 射撃しつつ前転改

"Discriminative models, not discriminative training", Tom Minka, 2005 (pdf) を久々に読み返してみた。完全に理解したとは言えないけど、それほど難しい内容でもなかった…ような気がする。この論文(?)の主張は2つある。まず、あるモデルに対する最尤解はひとつしかないのだから、識別的学習、という単語はおかしいよね、モデルが違うんだから識別モデルと呼ぶべきだよね、という論点がひとつ。当時は「HMMの識別的学習」みたいな論文が結構あったことに対して、用語法がおかしいんじゃないの、というツッコミである。これは簡単に納得できる。主張はもう一つ、生成モデルと識別モデルの間の関係をもうちょっと明らかにする、という話である。生成モデルではp(C,X,θ)を最大化するのに対し、識別モデルではp(C,θ|X)を最大化する。ここで、識別モ

suikyo 2010/12/07

NLP

リンク

Double-Array

ダブル配列（ Double-Array ）は，トライ（ Trie ）のデータ構造の一種であり，小さい辞書で高速に検索できるという特長を持っています．実際に，茶筌（ ChaSen ）や和布蕪（ MeCab ）などの形態素解析器で利用されているという実績があります．ダブル配列では，配列を使ってトライを表現します．配列の各要素が BASE, CHECK という二つの整数を持つので，頭文字をとって配列 BC と呼ぶことにします．以降の説明では，配列 BC の要素 x の BASE, CHECK をそれぞれ BC[x].BASE, BC[x].CHECK と記述します．通常，BASE, CHECK は個別の配列として紹介されますが，特に分割して考える必要がないので，このような説明にしました．基本的に，配列 BC の各要素はトライの節と一対一で対応します．そのため，対応する

suikyo 2010/10/19

リンク

Cybozu Inside Out: コンピュータはオー・ヘンリーとエドガー・アラン・ポーの文章を見分けられるか？(機械学習/パーセプトロン)

コンピュータはオー・ヘンリーとエドガー・アラン・ポーの文章を見分けられるか？(機械学習/パーセプトロン) サイボウズ・ラボの中谷です。以前は nakatani @ cybozu labs でブログを書いていましたが、この "Cybozu Development Inside Out" で書かせていただくことになりました。よろしくお願いします。そして初回の記事は、なんと前回の続きです（ごめんなさい）。前回記事「Perceptron を手で計算して理解してみる」では、オンライン機械学習の手法の一つ、パーセプトロンを紙と鉛筆で計算してみましたので、今回はそれを実装してみましょうというお話です。ソースは github においています。 http://github.com/shuyo/iir/tree/master Perceptron 実装は簡単。手で計算した後なら、空で実装できてしまい

suikyo 2010/10/08

リンク

OLL: オンライン機械学習ライブラリをリリースしました。 - DO++

様々なオンライン学習手法をサポートしたライブラリ「OLL (Online-Learning Library)」をリリースしました。プロジェクトページ日本語詳細ページ学習、推定を行なう単体プログラムと、C++ライブラリからなります。（C++ライブラリ解説はまだ）。 New BSDライセンス上で自由に使えます。使った場合は感想や苦情などいただけると幸いです。オンライン学習とは、一つずつ訓練データを見てパラメータを更新していく手法で、訓練データをまとめて見てから学習するバッチ学習（SVMs, 最大エントロピー法）と比べて非常に効率良く学習を行なうことができます。それでいながらSVMs, やMEsに匹敵する精度が出ます。学習するデータの性質にもよりますが、例えば、英語の文書分類タスクで、15000訓練例、130万種類の素性の訓練データに対する学習が1秒未満で終わります（SVMsだと実装に

suikyo 2010/10/08

リンク

N-gram コーパス - 日本語ウェブコーパス 2010

概要ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています． N-gram コーパスの構築においては，Google N-gram コーパスと同様の前処理を施しています．句点・感嘆符・疑問符を文の区切りとして利用しているので，「モーニング娘。」や「Yahoo!」などの固有名詞については，不適切な文の区切りがおこなわれています．また，文の区切りは削除するようになっているため，コーパス中に句点・感嘆符・疑問符は出現しません．形態素 N-gram コーパス，文字 N-gram コーパスともに，文境界マーク（<S>，</S>）は採用していますが，未知語トークン（<UNK>）は採用していません．また，文字 N-gram コーパ

suikyo 2010/09/21