小物 : funini.com

scrapy でクローリング

お手軽クローリング

web からテキスト情報を集めるには、ページをダウンロードしてデータを抽出するのが定番です。自動でダウンロードするプログラムはクローラーと呼ばれていますが、データを取り出すには単にダウンロードするだけではだめで、以下の作業を行う必要があります。

(礼儀をわきまえた)ダウンロード
リンクの抽出
欲しいデータの抽出

欲しいデータは人ごとに違うから、このプログラムは目的ごとに違ったものが必要です。一方で、正しいダウンロード (一つのサイトに連続してアクセスしない、robots.txt をちゃんと読む等) は共通です。こういった目的別のクローラーを簡単に実現できるフレームワークが scrapy です。
辞書で scrape を引くと、以下の意味が出ています。

1. ゴシゴシこする
2. かき集める、かき寄せる
3. 〔データなどを〕取得［収集］する

つまりはデータをかき集めてくるソフトです。Python モジュールの