Content-Length: 234475 | pFad | http://b.hatena.ne.jp/dealforest/%E6%A4%9C%E7%B4%A2%E3%82%A8%E3%83%B3%E3%82%B8%E3%83%B3/
404 - ユメイサオスホトシサソツシ。」 ト昮ェイ鰈メオトラハヤエソノトワメムアサノセウ」ャメムク�クトテ﨤ニサ゚ヤンハアイサソノモテ。」
目次 はじめに 文書の属性 ファイル形式 検索条件式 検索語の抽出 管理用コマンド 検索用CGIスクリプト 表示用CGIスクリプト インデックスの構造 助言 よく聞かれる質問 はじめに このガイドでは、Hyper Estraierのアプリケーションの詳細な使い方を説明します。イントロダクションをまだお読みでない場合は、先にそちらに目を通しておいてください。 Hyper Estraierは、いわゆるインデックス型の検索システムです。検索を行う前に、対象文書の情報を登録したインデックスを準備しておく必要があります。その手間がかかるかわりに、とても高速に検索を行うことができます。Hyper Estraierはインデックスを管理するコマンド「estcmd」とインデックスを使って検索を行うCGIスクリプト「estseek.cgi」からなります。つまり、コマンドラインでインデックスの管理作業を行い、W
検索の前にインデックスの作成が必要なので、以下のコマンドで、任意のディレクトリ内にインデックスを作成させる。 昔のnamazuとかを知っている人なら、あっけに取られるぐらい一瞬で終わる。 ...と言うか、エラーで全部スキップしてるんじゃないかとか不安なぐらい。そんなことはないですが。 estcmd gather -il ja -sd インデックスディレクトリ 検索対象ディレクトリ 空白を含むパスなどはダブルクォーテーションで括れば良いようだ。例えば、「C:\DOCUMENTS AND SETTINGS\ALL USERS\DOCUMENTS\WEBDATA\」を検索対象として、「index」というディレクトリにインデックスを作らせるには以下のようにする。 estcmd gather -il ja -sd index "C:\DOCUMENTS AND SETTINGS\ALL USERS\
最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン
TechCrunchの記事より。北京で開かれていたWWW2008の席上、Googleの研究者らがなかなか興味深い画像検索アルゴリズムの研究成果を披露したようだ(論文PDF)。 ユーザは画像を探す時、似たような画像を探していくものだという仮定を行い、確率的なvisual-hyperlinkというリンクが様々な画像の間にあると想定する。似通った画像間にはより訪問者が多いと想定され、より大きな重み付けがなされる。これに対してPageRankアルゴリズムを適用することにより、画像のRankを計算するのだという。現在のアルゴリズムでは、単語に対して妙な画像がひっかかってしまう場合が時々あるのだが、このアルゴリズムを利用することでユーザの満足度を向上できる結果が得られたとしている。これが実際にGoogleに採用されるか、採用されるにしてもにしてもそれが何時かはまだわからないが、実にアレゲでなかなか感心
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
Fetched URL: http://b.hatena.ne.jp/dealforest/%E6%A4%9C%E7%B4%A2%E3%82%A8%E3%83%B3%E3%82%B8%E3%83%B3/
Alternative Proxies: