Content-Length: 219224 | pFad | http://b.hatena.ne.jp/e-kuroda/textmining/

[B! textmining] e-kurodaのブックマーク

タグ

textminingに関するe-kurodaのブックマーク (5)

  • 本棚演算

    「増井の棚」と「svslabの棚」は似ているにもかかわらず 「アカギ」「掌の中の小鳥」は「svslabの棚」に含まれていないため、 これらのは「svslab」への推薦候補と考えることができる。 このような計算を棚行列の行や列に対して行なうことにより、 様々な有用な情報を取得することができる。 棚演算のプログラミング 棚データを扱うRubyライブラリを使って様々な棚演算を実行できる。 増井への推薦を計算 「増井の棚」に含まれるの傾向を判断して推薦を行なう演算を考える。 「増井の棚」に内容が近い棚の中には、 私が興味を持ちそうなが含まれている可能性が高いと思われるので、 まず「増井の棚」に近い棚のリストを計算してみる。 require 'enzan' # 「増井の棚」に近いを持つ棚のリストを取得 BookList.new('増井').similar.dum

  • ブログを記事で結ぶブログパーツ『シムエントリ』をリリース | こえむの編集後記

    ブログの記事同士を結ぶブログパーツ『シムエントリ』を作りました。 このブログでも20日の未明から各エントリの文末で稼動しています。 【シムエントリ】http://se.koemu.com/ ■どんなサービスか? このサービスに登録いただいたブログを対象に、自ブログの記事と近い内容の記事を、エントリごとにリストアップするブログパーツです。 基はブログパーツとしての提供ですが、JSON形式のデータを返すAPIもあわせて実装しています。 ■用途の例 「自分の書いたエントリは、ほかの人はどのように書いているのかを知りたい。」 「自分のブログへ、同じ興味を持った方により多くを訪ねてもらえるようにしたい。」 「読者として、類似のエントリをたどってより知識や興味を深めていきたい。」 主に上記の用途を想定しています。 これから、サブタイトルを『記事同士でブログをむすぶブログパーツ』としました。 ■システ

    ブログを記事で結ぶブログパーツ『シムエントリ』をリリース | こえむの編集後記
  • DO++ : 線形識別器チュートリアル

    ワークショップ中の夕で話したのですが、今のところ日で(素性関数ベース&線形識別器)機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。 で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル(英語)がありました。 夏の学校資料[pdf] その他のコードやリンク ちょっとだけ解説 現在自然言語処理の多くで使われている学習器は線形識別器です。 入力x(例:単語、文、文書)から出力y(例:品詞、品詞列、文書のトピック)を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し(x,yのペアから値を取り出す関数を素性関数と呼ぶ)、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを

    DO++ : 線形識別器チュートリアル
  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

  • N-gramモデルを利用したテキスト分析 ―インデックスページ―

    ↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ

  • 1








ApplySandwichStrip

pFad - (p)hone/(F)rame/(a)nonymizer/(d)eclutterfier!      Saves Data!


--- a PPN by Garber Painting Akron. With Image Size Reduction included!

Fetched URL: http://b.hatena.ne.jp/e-kuroda/textmining/

Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy