funini.com 自由研究 小物

scrapy でクローリング

お手軽クローリング

web からテキスト情報を集めるには、ページをダウンロードしてデータを抽出するのが定番です。 自動でダウンロードするプログラムはクローラーと呼ばれていますが、 データを取り出すには単にダウンロードするだけではだめで、以下の作業を行う必要があります。 欲しいデータは人ごとに違うから、このプログラムは目的ごとに違ったものが必要です。 一方で、正しいダウンロード (一つのサイトに連続してアクセスしない、robots.txt をちゃんと読む等) は共通です。 こういった目的別のクローラーを簡単に実現できるフレームワークが scrapy です。
辞書で scrape を引くと、以下の意味が出ています。 つまりはデータをかき集めてくるソフトです。Python モジュールの

お手軽クローリング