scrapy でクローリング
お手軽クローリング
web からテキスト情報を集めるには、ページをダウンロードしてデータを抽出するのが定番です。
自動でダウンロードするプログラムはクローラーと呼ばれていますが、
データを取り出すには単にダウンロードするだけではだめで、以下の作業を行う必要があります。
- (礼儀をわきまえた)ダウンロード
- リンクの抽出
- 欲しいデータの抽出
欲しいデータは人ごとに違うから、このプログラムは目的ごとに違ったものが必要です。
一方で、正しいダウンロード (一つのサイトに連続してアクセスしない、robots.txt をちゃんと読む等) は共通です。
こういった目的別のクローラーを簡単に実現できるフレームワークが scrapy です。
辞書で scrape を引くと、以下の意味が出ています。
- 1. ゴシゴシこする
- 2. かき集める、かき寄せる
- 3. 〔データなどを〕取得[収集]する
つまりはデータをかき集めてくるソフトです。Python モジュールの
お手軽クローリング