[B! 検索エンジン] dealforestのブックマーク

http://www-06.ibm.com/jp/domino01/mkt/dminfo.nsf/doc/001618BF

dealforest 2008/06/23

OmniFind

検索エンジン

リンク

螽∝ｰｼ譁ｯvns888[荳ｭ蝗ｽ]譛蛾剞蜈ｬ蜿ｸ

404 - ﾕﾒｲｻｵｽﾎﾄｼｻｿﾂｼ｡｣ﾄ昮ｪｲ鰈ﾒｵﾄﾗﾊﾔｴｿﾉﾄﾜﾒﾑｱｻﾉｾｳ｣ｬﾒﾑｸ�ｸﾄﾃ﨤ﾆｻﾟﾔﾝﾊｱｲｻｿﾉﾓﾃ｡｣

dealforest 2008/06/19

全文検索

リンク

User's Guide of Hyper Estraier Version 1 (Japanese)

目次はじめに文書の属性ファイル形式検索条件式検索語の抽出管理用コマンド検索用CGIスクリプト表示用CGIスクリプトインデックスの構造助言よく聞かれる質問はじめにこのガイドでは、Hyper Estraierのアプリケーションの詳細な使い方を説明します。イントロダクションをまだお読みでない場合は、先にそちらに目を通しておいてください。 Hyper Estraierは、いわゆるインデックス型の検索システムです。検索を行う前に、対象文書の情報を登録したインデックスを準備しておく必要があります。その手間がかかるかわりに、とても高速に検索を行うことができます。Hyper Estraierはインデックスを管理するコマンド「estcmd」とインデックスを使って検索を行うCGIスクリプト「estseek.cgi」からなります。つまり、コマンドラインでインデックスの管理作業を行い、W

dealforest 2008/06/19

全文検索

リンク

メモ/HyperEstraier(Win32) - Walrus, Digit.

検索の前にインデックスの作成が必要なので、以下のコマンドで、任意のディレクトリ内にインデックスを作成させる。昔のnamazuとかを知っている人なら、あっけに取られるぐらい一瞬で終わる。 ...と言うか、エラーで全部スキップしてるんじゃないかとか不安なぐらい。そんなことはないですが。 estcmd gather -il ja -sd インデックスディレクトリ検索対象ディレクトリ空白を含むパスなどはダブルクォーテーションで括れば良いようだ。例えば、「C:\DOCUMENTS AND SETTINGS\ALL USERS\DOCUMENTS\WEBDATA\」を検索対象として、「index」というディレクトリにインデックスを作らせるには以下のようにする。 estcmd gather -il ja -sd index "C:\DOCUMENTS AND SETTINGS\ALL USERS\

dealforest 2008/06/19

全文検索

リンク

1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

dealforest 2008/06/16

IIRを読んで検索エンジンつくった

リンク

Google研究者ら、新しい画像検索アルゴリズムについて発表 | スラド IT

TechCrunchの記事より。北京で開かれていたWWW2008の席上、Googleの研究者らがなかなか興味深い画像検索アルゴリズムの研究成果を披露したようだ(論文PDF)。ユーザは画像を探す時、似たような画像を探していくものだという仮定を行い、確率的なvisual-hyperlinkというリンクが様々な画像の間にあると想定する。似通った画像間にはより訪問者が多いと想定され、より大きな重み付けがなされる。これに対してPageRankアルゴリズムを適用することにより、画像のRankを計算するのだという。現在のアルゴリズムでは、単語に対して妙な画像がひっかかってしまう場合が時々あるのだが、このアルゴリズムを利用することでユーザの満足度を向上できる結果が得られたとしている。これが実際にGoogleに採用されるか、採用されるにしてもにしてもそれが何時かはまだわからないが、実にアレゲでなかなか感心