[B! 検索] masami75のブックマーク

masami75 id:masami75

検索に関するmasami75のブックマーク (14)

自然言語処理
masami75 2011/03/02
自然言語処理

消費者行動

検索

全文検索

形態素解析

機械学習
リンク
On the predictability of Search Trends
masami75 2011/02/08
Googleは12ヶ月先までの検索語のトレンドを12%の誤差で予測できる。

検索

消費者行動

認知心理学

web
リンク
SolrCaching - Solr Wiki
Overview Solr caches are associated with an Index Searcher — a particular 'view' of the index that doesn't change. So as long as that Index Searcher is being used, any it ems in the cache will be valid and available for reuse. Caching in Solr is unlike ordinary caches in that Solr cached objects will not expire after a certain period of time; rather, cached objects will be valid as long as the Inde
masami75 2011/01/05
Solrのキャッシュ機構について

solr

全文検索

検索

OSS
リンク
TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記
以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik
masami75 2010/12/22
全文検索

検索

自然言語処理
リンク
新聞記事データベース
[学内][同時利用1名]　朝日新聞のデータベースで、1945年以降から当日までの全文記事が利用できます（記事本文は、HTMLスタイルと縮刷版イメージです）。人物データも利用できます。関連ページ： Asahi.Com　聞蔵Ⅱビジュアル使い方動画 [学内][図書館][利用端末2台] 日経新聞など日経４紙全文記事など日経作成の各種データが利用できます。人物情報も利用できます。日本経済新聞、日経産業新聞、日経流通新聞（1975年4月から）、日経金融新聞（1987年10月から）利用できます。関連ページ：日本経済新聞（Web版）
masami75 2010/12/21
検索

全文検索

資料
リンク
電脳瓦崗寨黄頁
masami75 2010/12/20
GB（国標）コードのテキスト多数。東アジアにおけるSolrの適合性を知るために、大量のCJKVテキストデータを探索中。

自然言語処理

全文検索

検索
リンク
アンビエント・ファインダビリティ―ウェブ、検索、そしてコミュニケーションをめぐる旅
masami75 2010/12/07
本

検索

デザイン

エクスペリエンス
リンク
潜在意味解析 - Wikipedia
潜在意味解析（せんざいいみかいせき、英: Latent Semantic Analysis、略称: LSA）は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する技術である。潜在的意味解析とも。 1988年、アメリカ合衆国でLSAの特許が取得されている[1]。情報検索の分野では、潜在的意味索引または潜在意味インデックス（英: Latent Semantic Indexing, LSI）とも呼ばれている。 LSA では、各文書における用語の出現を表した文書-単語マトリクスが使われる。これは各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには tf-idf (term frequency–inverse document frequency) が用いられ
masami75 2010/12/03
自然言語処理

検索

nlp
リンク
googleで賢く探すために最低知っておくべき５つのこと／検索テクニック、ノウハウ、裏技の手前に
検索オプションや演算子の紹介や「辞典になる」「電卓になる」みたいな機能紹介は省く（これについては、googleのヘルプか、たとえばここhttp://search.web-sun.com/g_help.htmlを参照）。以下では、基本の考え方と、それを受けて、では具体的にどう検索するかを、いくつかの事例をつかって簡単に説明する。どれも知っている人には当たり前のことばかりだが、このあたりのことをまとめたものは意外に少ないようなので、メモ代わりになるようにまとめてみた。まとめたのは最低限のものであって、取り上げるべき事項は他にもいろいろあるだろうが、簡素なのがウリということで。考え方は、googleで検索するときだけでなく、調べもの全般に用いることができると思う。１．（基本）「○○について××が知りたい」→検索語「○○　××」［例］富士山の高さが知りたい（考え方） →富士山の高さが
masami75 2010/12/03
ブクマしてなかった。

検索

tips
リンク
LinkedInが開発したリアルタイム検索システム·Zoie MOONGIFT
LinkedInは最近4,500万ユーザを突破した世界最大の規模のビジネスSNSだ。SNSというとFacebookに注目が集まるが、LinkedInも様々な試みが行われており非常に興味深いシステムになっている。ZoieはLinkedInの開発した検索エンジンになっている。シンプルなインタフェース最近流行のリアルタイム性を取り入れ、実際に彼らのシステムで使われている。そんな実用性の高いシステムがオープンソースになっているのだ。今回紹介するオープンソース・ソフトウェアはZoie、Apache Luceneをベースにした検索エンジンだ。 ZoieはApache Luceneをベースに開発されておりJavaで作られている。検索対象を追加すると即座に検索結果に反映されるようになっており、インデックスの再構築を待たなくて良い。またそのインデックスの再構築は検索パフォーマンスに影響を与えないように
masami75 2010/12/02
Luceneベースのリアルタイム検索システム。インデックスの再構築を待たなくて良い。またそのインデックスの再構築は検索パフォーマンスに影響を与えないように考慮されている。

検索

OSS

lucene
リンク
Search Patterns: Design for Discovery
Search is among the most disruptive innovations of our time. It influences what we buy and where we go. It shapes how we learn and what we believe. This provocative and inspiring book explores design patterns that apply across the categories of web, e-commerce, enterprise, desktop, mobile, social, and real time search and discovery. Using colorful illustrations and examples, the authors bring mode
masami75 2010/12/02
オライリーの新刊「検索と発見のためのデザイン」の原著ウェブサイト。Recommended Readingが参考になる。

検索
リンク
全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集
はじめまして。プロダクト&サービス事業部リーダーの久保です。今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。目次 Solrとは機能一覧実績/事例 Solrを使ったシステムの開発方法おすすめする方データ量/性能とハードウェアマルチコア構成様々な検索スケールアウト検索と更新 Solrを始めるための情報リスト全
masami75 2010/11/22
検索

全文検索

solr
リンク
Lucene および Solr での見つけやすさの最適化 | Lucid Imagination by Basis Technology
「コンテンツがアプリケーション内に存在していても検索できない場合、果たして本当にコンテンツは存在していると言えるのか?」このような疑問に対して、この記事では、Lucene スタックを活用して、コンテンツ内の重要な内容を見つけ出すためのヒントおよびテクニックを提示し、コンテンツが見つけられるようにするにはどうすればいいかを考察する。読者の方々が私と同じであれば、子供の頃、ウェブサイトまたはハードディスク内のテキストおよびデータの検索を向上させる仕事をするようになるなんて思いもしなかったでしょう。さらに言えば、大学に入って計算機工学を専攻しているときでも、そんなことは考えつきもしなかったでしょう。それなのに現実には、コンテンツを検索する必要があるプロジェクトに携わっており、その方法を模索してます。あるいは、既に検索できるようにはなっているものの、テストの結果やプログラミングで培った直感から
masami75 2010/11/22
lucene

solr

OSS

全文検索

検索
リンク
Amazon.co.jp: 検索と発見のためのデザイン ―エクスペリエンスの未来へ: Peter Morville (著), Jeffery Callender (著), 浅野紀予 (翻訳): 本
masami75 2010/11/19
本

UI

検索

全文検索
リンク
1