Content-Length: 316020 | pFad | http://b.hatena.ne.jp/chezou/Solr/
無料のオンラインハンズオンセミナーを開催しています 詳細・お申し込みはこちら 目次 Apache OpenNLP 日本語固有表現抽出モデルファイル livedoor ニュースコーパス 勉強会/セミナー資料 海外カンファレンス参加報告 セキュリティ警告 アーカイブズ Apache OpenNLP 日本語固有表現抽出モデルファイル Apache OpenNLP 1.9.0 以降で利用可能な、日本語固有表現抽出のための学習済みのモデルファイルです。商用利用可能です。 ダウンロード:rondhuit-ja-ner-1.0.0.zip(Apache License) livedoor ニュースコーパス 概要 本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除い
This talk provides a tour of how Apache Solr is used to power search for America's largest flash sale site, www.gilt.com. We show how to address the challenges of providing listings for fast moving inventory in a search space personalized for each of our members. The solution, built on Play Framework comprises less than 4,000 lines of code, and provides response times of 40ms on average.Read less
以前から興味があった、LuceneとSolrでのDeep paging関連のチケットを整理してみました。 調べてみたら、分散検索(Distributed Searchの機能)ではおろか、単体のSolrでもちゃんとサポートされてなかったっていう。 Deep paging問題とは Deep paging問題の概要については、以下のブログエントリが参考になる。 Deep paging problem | Solr Enterprise Search 例えば、以下のようなSolrクエリを想像してみよう。 q=*:*&sort=price+asc&rows=100&start=50000 このクエリは、Luceneインデックスに対して50,001件目から50,100件目までの100件の結果を取得しようとしている。 しかし、SolrはLuceneインデックスから50,100件のドキュメントを読み込んで
All the power of the Solr search engine; all the beauty of Ruby. Sunspot exposes all of Solr's most powerful search features using an API of elegant DSLs. That means robust, flexible fulltext search with no boolean queries and no string programming. Index your objects. class Post < ActiveRecord::Base searchable do text :title, :body text :comments do comments.map { |comment| comment.body } end int
AWS Summitに来ていたのですが、TLでは、Cloudera Searchが賑わってました。 ということで、軽くどんなものか読んだり調べたりしたメモを残しとこうかと。 英語力はあやしいので、おかしいとこがあったらツッコミを。 Cloudera Searchとは? CDH4.3に対応したCDHユーザ向けの検索システム(beta版)なのかな? CDHに統合された検索フレームワークなのかな? 基本はLucene/Solr 4.3でHadoopのペタバイトデータを検索することができるようになるみたいです。 どんな仕組み? 次のものを利用しているようです。(GithubのREADMEから。) 使ってるもの Apache Solr(4.3.0+α?) Apache Lucene(Solrつかってるからね) Apache SolrCloud(うーん、Solrに含まれるのに別に出してるのなんで?)
8. Mysql の全文検索には更新時ロックがかかる MyISAM のため Replication で更新クエリーがくるとそこでロックがかかってしまう CPU のコア数でスケールできない ロックがかかるため CPU が1コア分くらいしか使い切れていない R-18 など数値のある文字が重い たとえば6を検索したとき⑥や全角半角の6なども OR 検索し条件が増える 揺らぎ補正のため Normalize は Off にできない MySQL のバージョンをあげることができない Tritonn が組み込まれたバージョンを使用しなければならないため Mysql5.1 などにアップグレードできなかった 9. 何かの検索文字 R-18 東方 ( はいてない OR 穿いてない OR はいてません OR 穿いてません OR ノーパン ) ( 髪 OR かみ )( ほどき OR ほどく OR ほどけ OR ほど
elasticsearchの紹介です! atnd.org/events/33718
This document covers the basics of running Solr using an example schema, and some sample data. To follow along with this tutorial, you will need... Java 1.6 or greater. Some places you can get it are from Oracle, Open JDK, or IBM. Running java -version at the command line should indicate a version number starting with 1.6. Gnu's GCJ is not supported and does not work with Solr. A Solr release. Ple
Overview Solr caches are associated with an Index Searcher — a particular 'view' of the index that doesn't change. So as long as that Index Searcher is being used, any items in the cache will be valid and available for reuse. Caching in Solr is unlike ordinary caches in that Solr cached objects will not expire after a certain period of time; rather, cached objects will be valid as long as the Inde
この記事は古くなりました。新しい知見は下記を参照。aoking.hatenablog.jp 概要 全文検索エンジン Solr を使用していて、パフォーマンスチューニングに四苦八苦した話。 ここでは、検索時ではなくドキュメントの追加時についてのチューニングについて記してある。 更新自体は参照に比べて頻度が少ないが、参照はレプリケーションして負荷分散しやすい。 更新は整合性を保つために一台のマスターノードに対して行われるので更新はボトルネックになりやすいのだ。 定期的に IO 負荷が高くなる Solr を使っていると、一時的に猛烈に IO 負荷が高まる時がある。fsync になんと1分以上かかるような、猛烈な負荷だ。 これはインデクスのマージ時に起きる IO 負荷で、巨大なインデクス同士のマージだとその合計サイズ分の IO が発生することで IO 処理が専有されたままになっていた。 インデクス
何かと検索の需要ってあるわけなんですが、その中でもオープンソースで 最もポピュラーなのはApache Solr(http://lucene.apache.org/solr/)だと思います。 メジャーバージョンアップ版の4.0が出てたのは知ってたのですが まだ試していませんでした。 ↓を読んでたら居ても立ってもいられなくなってきたので、やってみましたw 強烈に素晴らしいプロダクトに変貌した Apache Solr – Solr 4.0 登場 | にょきにょきブログ Solr3.6でKuromojiを試した時はTomcatを使いましたが、 今回は本家のチュートリアル↓に沿ってJettyでやってみます。 http://lucene.apache.org/solr/4_0_0/tutorial.html ■ Solrサーバーを起動 $ wget http://ftp.jaist.ac.jp/pub
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
Fetched URL: http://b.hatena.ne.jp/chezou/Solr/
Alternative Proxies: