Content-Length: 275213 | pFad | https://github.com/tdtds/aozoragen

ED GitHub - tdtds/aozoragen: Web上に公開されている小説をスクレイピングして青空文庫形式のテキストにする
Skip to content

Web上に公開されている小説をスクレイピングして青空文庫形式のテキストにする

Notifications You must be signed in to change notification settings

tdtds/aozoragen

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

69 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Aozoragen

Web上の小説を青空文庫形式のテキストにする。

How to install

Gemを使ってインストールする:

gem install aozoragen

Command-line syntax

aozoragen

指定されたWebサイトをスクレイピングして、青空文庫形式のテキストファイルを生成する。

% aozoragen <URL>

URLには日本語の小説をHTML形式で配布しているサイトの目次ページを指定する。カレントディレクトリに章ごとのテキストファイル(拡張子.txt)を生成する。ファイル名はサイトごとに自動的に決定され、hoge.NN.txt (NNは連番数値またはその他の文字列)のような形式となる。これらのファイルを連結すると一冊の本になる。

aozoragenコマンドが現在対応しているのは以下のサイト:

aozora2pdf

青空キンドルを使ってテキストをKindle向けPDFにする。パラメタにはaozoragenで生成した青空文庫形式のテキストファイルを順番通りに指定する。PDFは標準出力に出るので、リダイレクトする:

% aozora2pdf hoge*.txt > hoge.pdf

注意

Web上に公開されている小説は著作権の保護下にある。ダウンロードしたテキストは個人の利用のみにとどめ、決して再配布・公衆送信などをしてはいけない。読みやすく加工しやすいHTML形式で小説を公開してくれている各サービスおよび著者の方々に感謝を。

About

Web上に公開されている小説をスクレイピングして青空文庫形式のテキストにする

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages









ApplySandwichStrip

pFad - (p)hone/(F)rame/(a)nonymizer/(d)eclutterfier!      Saves Data!


--- a PPN by Garber Painting Akron. With Image Size Reduction included!

Fetched URL: https://github.com/tdtds/aozoragen

Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy