Python3.6+Scrapyでスクレイピングしてみた
はじめに
機械学習について勉強するため、機械学習を使った何かを作ろうと思っている今日このごろ
いくつかサンプルが載っているような本を買っても、サンプルを動かすのはモチベーションが上がらない
やはりモチベーションが上がるものは、自分がやりたいを作るべきだなぁ
自分が機械学習を利用してやりたいことはなんだろうなーと考えた
自分が興味あるものを学習して、コンテンツ(または元のサイトのURL)を配信するものを作ってみたい
もうすでに、公開されているサービスを利用しているけど気にしない(作ることにきっと意味がある)
そんなことで、コンテンツの内容を取得するため、Pythonでスクレイピングをやってみることにした。
昔にスクレイピングをやったことがあるけど、サーバに負荷を掛けないように配慮されたライブラリを探してみた。(昔使っていたのは、beautifulsoup4というライブラリ)
Scrapyというライブラリが、クローリングの際、時間を空けてクローリングができるみたい
なので、今回はScrapyでスクレイピングをやってみた話。
目次
参考サイト
Scrapyのインストール
まず、Scrapyをインストール
pip install scrapy
Scrapyを使うための作業
- scrapy startprojectでScrapyのプロジェクト作成
- itemsにスプレイピング後のデータ構造を定義
- scrapy genspiderでクローリング・スクレイピングをするためのクラス(spider)を作成
- settings.pyにクローニング設定を記述
- scrapy crawlでクローニングとスクレイピングを実行
チュートリアルは以下のサイト
Scrapy Tutorial — Scrapy 1.6.0 documentation
1. Scrapyのプロジェクト作成
以下のコマンドで、Scrapyのプロジェクト作成を作成する。今回のプロジェクト名はscraperにした
scrapy startproect scraper
このコマンドを実行すると、以下のようなディレクトリ・ファイルが生成される。
scraper/ ├── scraper │ ├── __init__.py │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ └── __init__.py └── scrapy.cfg
2. スクレイピング後のデータ定義
スクレイピングしたときに取得する情報を「items.py」に定義する。
今回は、タイトル、本文、スクレイピングしたURLを取得しようと思ったので、以下のような感じになった。
# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.html import scrapy class ScraperItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() url = scrapy.Field() title = scrapy.Field() body = scrapy.Field()
3. スクレイピングをするためのクラス(spider)を作成
最初のスクレイピングを試すサイトとして、LifeHacker(日本語版)のページでやってみることにした。
作成したプロジェクトフォルダの中で、spiderを作成するコマンドを実行する
cd scraper
scrapy genspider lifehacker www.lifehacker.jp
spidersフォルダの中に新しく「lifehacker.py」が作成されているので、この中にスクレイピングのロジックを作成する
# -*- coding: utf-8 -*- import scrapy from scraper.items import ScraperItem class LifehackerSpider(scrapy.Spider): name = 'lifehacker' allowed_domains = ['www.lifehacker.jp'] start_urls = ['https://www.lifehacker.jp/'] # httpをhttpsに変更 def parse(self, response): for content_item in response.css('div.lh-summary'): item = ScraperItem() href = content_item.css('h3.lh-summary-title a::attr(href)').extract_first() title = content_item.css('h3.lh-summary-title a::text').extract_first() item['title'] = title url = response.urljoin(href) item['url'] = url yield scrapy.Request( url, callback=self.parse_detail, meta={'item': item} ) @classmethod def parse_detail(cls, response): item = response.meta['item'] str_list = response.css('#realEntryBody *::text').extract() item['body'] = ''.join(str_list) yield item
最初はLifeHacker(日本語版)のTopページにアクセスし、タイル状に並んでいるコンテンツを更にスクレイピングしている。
1つじゃ物足りなので、TechCrunch(日本語版)もスクレイピングするクラスを作成してみた
以下のコマンドで、TechCrunch用のspiderを作成
TechCrunchはRSSがあったので、RSS経由でコンテンツを取得するようにする。
scrapy genspider techcrunch https://jp.techcrunch.com/feed/
新しく作成された「techcrunch.py」にスクレイピングのロジックを作成する。
# -*- coding: utf-8 -*- import scrapy from scraper.items import ScraperItem class TechcrunchSpider(scrapy.Spider): name = 'techcrunch' allowed_domains = ['jp.techcrunch.com'] start_urls = ['https://jp.techcrunch.com/feed/'] # httpをhttpsに変更 def parse(self, response): response.selector.remove_namespaces() for content_item in response.css('item'): item = ScraperItem() title = content_item.css('title::text').extract_first() link = content_item.css('link::text').extract_first() item['title'] = title item['url'] = link yield scrapy.Request( link, callback=self.parse_detail, meta={'item': item} ) @classmethod def parse_detail(cls, response): item = response.meta['item'] str_list = response.css('div.article-entry.text :not(div):not(script):not(style):not(span)::text')\ .extract() item['body'] = ''.join(str_list).strip() yield item
4. クローニング設定を記述
スクレイピングの共通な設定は、「settings.py」にあり、以下の項目を設定した。
DOWNLOAD_DELAY = 3 FEED_EXPORT_ENCODING = 'utf-8'
DOWNLOAD_DELAYは、同じWebページ内でのダウンロード待ち時間。
FEED_EXPORT_ENCODINGは、スクレイピングの結果をファイル出力するときのエンコード設定。これを設定せずにファイル出力すると、日本語文字が「\u8a71」みたいな文字になる
5. クローニングの実行
スクレイピングを単体で実行するには、以下のコマンドを実行する。
scrapy crawl <スパイダー名> -o <出力ファイルパス>
なので今回作成した、LifeHackerをスクレイピングする場合は、以下のコマンドになる
scrapy crawl lifehacker -o result.json
スクレイピング中のログを表示したくない場合は、オプションに「--nolog」を追加する
scrapy crawl lifehacker -o result.json --nolog
クローニングの実行結果
LifeHacker(日本語版)をクローニングした結果はコチラ
全部で37のデータが取れたけど、長くなるので一部だけ
[ { "title": "朝の出勤時間を早めると得られる8つのメリット", "url": "https://www.lifehacker.jp/2019/02/if-youre-lazy-show-up-early-to-work.html", "body": "(中略)" }, { "title": "ペットに合った温度にできるホットマット?!防水で、自動電源オフ機能も搭載されてるから安心して使えるよ〜", "url": "https://www.lifehacker.jp/2019/02/amazon-pet-heater.html", "body": "(中略)" }, { "title": "ネットショッピングで衝動買いを防ぐコツ「曜日を決める」にある、2つのメリット", "url": "https://www.lifehacker.jp/2019/02/pick-a-day-of-the-week-to-do-all-of-your-online-shoppin.html", "body": "(中略)" } ]
クローニングの一括実行
コマンドライン上でscrapyのオプションを見る限り、作成した全てのspiderを起動する方法が無さそう・・・
なので、作成した全spiderを起動するスクリプトを作成した。
import subprocess import multiprocessing import datetime def get_crawler_list(): process = subprocess.Popen('scrapy list', shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE) stdout_data, stderr_data = process.communicate() if process.returncode == 0: strings = stdout_data.decode('utf-8').split('\n') return list(filter(None, strings)) else: raise RuntimeError() def execute_scraping(crawler_name, execute_time): date_str = execute_time.strftime('%Y%m%d%H%M%S') output_file_name = '%s_%s.json' % (crawler_name, date_str) cmd = 'scrapy crawl %s -o scrape_results/%s --nolog' % (crawler_name, output_file_name) subprocess.call(cmd.split()) def main(): execute_time = datetime.datetime.now() jobs = [] for crawler_name in get_crawler_list(): job = multiprocessing.Process(target=execute_scraping, args=(crawler_name, execute_time)) jobs.append(job) job.start() [job.join() for job in jobs] print('finish !!!!') if __name__ == '__main__': main()
やっていることは
- コマンドscrapy listでspider名の一覧を取得し、spider名のリスト作成
- spiderをマルチスレッドで、それぞれ実行
- すべてのクローリングが終わるまで待機
クローニングの実行結果は、scrape_resultsというディレクトリに日時付きのファイル名で出力するようにしている。
おわりに
前にもスクレイピングをするpythonスクリプトを作成したことがあったけど、そのときには「同じドメインの場合、時間を空けてアクセス」するロジックが無かった・・・
このScrapyでは、自動でやってくれるのでとても便利