Content-Length: 215683 | pFad | http://b.hatena.ne.jp/indication/ruby/%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%A9/

[B! ruby][クローラ] indicationのブックマーク

タグ

rubyとクローラに関するindicationのブックマーク (2)

  • Ruby製のクローラー Anemoneの文字化け対策 - プログラマでありたい

    何度も取り上げていますが、Ruby製のクローラーであるAnemoneについてです。もう2年ほどメンテナンスされていないものの、Rubyの中のクローラー・フレームワークとしては未だに一番の完成度です。しかし、残念ながら幾つかの問題点があります。その中で日語を扱う我々にとっては一番大きな問題は、文字化けです。 Anemoneの文字化けの原因 Anemoneの文字化けの原因は、ずばりUTF-8以外の考慮が何もされていないためです。Anemoneが利用するHTMLパーサーであるNokogiriは、もともと内部的な文字コードをUTF-8として扱います。UTF-8以外の文字コードを扱う場合は、文字コードを指定して渡す必要があります。それにもかかわらず、AnemoneがHTMLをパースする時は、次のような実装になっています。 # # Nokogiri document for the HTML bod

    Ruby製のクローラー Anemoneの文字化け対策 - プログラマでありたい
    indication
    indication 2014/04/07
    参考にする
  • オープンソースのRubyのWebクローラー"Anemone"を使ってみる - プログラマでありたい

    Webサイトの調査をしようと思い、サイトクローラーが必要になりました。 各言語ごとに色々あるので何を使うか悩むところですが、Rubyでお手軽にということでAnemoneを採用しました。 ちなみに他の言語だと、下記のうちのどれかが良いのではないでしょうか? Java:Nutch、S2Robot Perl:Gungho 余談ですが日語で検索する場合、WEBクローラーで検索するかWEBスパイダーで検索するか悩みます。英語だとWeb SpiderかWeb Crawlerです。どちらかといえばWeb Spiderが一般的のようです。日だとWEBクローラーの方が目的のものに辿り着きやすいような気がします。うーん、悩ましい。 Anemoneのインストール手順 Anemoneは、nokogiriを使います。 nokogiriが入っていれば、すんなりインストールも出来ると思います。 ちなみにnokogi

    オープンソースのRubyのWebクローラー"Anemone"を使ってみる - プログラマでありたい
  • 1








ApplySandwichStrip

pFad - (p)hone/(F)rame/(a)nonymizer/(d)eclutterfier!      Saves Data!


--- a PPN by Garber Painting Akron. With Image Size Reduction included!

Fetched URL: http://b.hatena.ne.jp/indication/ruby/%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%A9/

Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy