[B! textmining] e-kurodaのブックマーク

本棚演算

「増井の本棚」と「svslabの本棚」は似ているにもかかわらず「アカギ」「掌の中の小鳥」は「svslabの本棚」に含まれていないため、これらの本は「svslab」への推薦候補と考えることができる。このような計算を本棚行列の行や列に対して行なうことにより、様々な有用な情報を取得することができる。本棚演算のプログラミング本棚データを扱うRubyライブラリを使って様々な本棚演算を実行できる。増井への推薦本を計算「増井の本棚」に含まれる本の傾向を判断して推薦を行なう演算を考える。「増井の本棚」に内容が近い本棚の中には、私が興味を持ちそうな本が含まれている可能性が高いと思われるので、まず「増井の本棚」に近い本棚のリストを計算してみる。 require 'enzan' # 「増井の本棚」に近い本を持つ本棚のリストを取得 BookList.new('増井').similar.dum

e-kuroda 2009/04/02

リンク

ブログを記事で結ぶブログパーツ『シムエントリ』をリリース | こえむの編集後記

ブログの記事同士を結ぶブログパーツ『シムエントリ』を作りました。このブログでも20日の未明から各エントリの文末で稼動しています。【シムエントリ】http://se.koemu.com/ ■どんなサービスか？このサービスに登録いただいたブログを対象に、自ブログの記事と近い内容の記事を、エントリごとにリストアップするブログパーツです。基本はブログパーツとしての提供ですが、JSON形式のデータを返すAPIもあわせて実装しています。 ■用途の例「自分の書いたエントリは、ほかの人はどのように書いているのかを知りたい。」「自分のブログへ、同じ興味を持った方により多くを訪ねてもらえるようにしたい。」「読者として、類似のエントリをたどってより知識や興味を深めていきたい。」主に上記の用途を想定しています。これから、サブタイトルを『記事同士でブログをむすぶブログパーツ』としました。 ■システ

e-kuroda 2009/04/02

リンク

DO++ : 線形識別器チュートリアル

ワークショップ中の夕食で話したのですが、今のところ日本で（素性関数ベース＆線形識別器）機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル（英語）がありました。夏の学校資料[pdf] その他のコードやリンクちょっとだけ解説現在自然言語処理の多くで使われている学習器は線形識別器です。入力x（例：単語、文、文書）から出力y（例：品詞、品詞列、文書のトピック）を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し（x,yのペアから値を取り出す関数を素性関数と呼ぶ）、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを

e-kuroda 2009/04/02

リンク

Introduction to Information Retrieval

This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

e-kuroda 2009/04/02

リンク

N-gramモデルを利用したテキスト分析　―インデックスページ―

↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ

e-kuroda 2009/04/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

textminingに関するe-kurodaのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第4週）

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

pFad - (p)hone/(F)rame/(a)nonymizer/(d)eclutterfier! Saves Data!