Section 15　Scrapy Arguments

カテゴリー検索を可能にする方法カテゴリーを決める→ターミナルでそのカテゴリのURL入力→実行 Arguments の設定方法 ①start_urlを変更して以下のdefを作るだけ。 def __init__(self, category): self.start_urls = [category] ②ターミナルで以下を入力 $ sc…

2018-06-09

Section 14 Grabbing URLs　(Book Store)

Seleniumじゃない方法でスクレイピングをやる。概要 titleとurlを取得→次のページに行く→各ページのデータ収集各タイトルのURLを取得する。最初にstartURLを設定する start_urls = ['http://books.toscrape.com'] titleに付いているURLを確認する。 <a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Lig</a>…

2018-06-09

Section 12　Building Web Crawler with Scrapy

本屋のECサイトをスクレイピングする。プロジェクト環境を整える。コードは以下の通り $ scrapy startproject books_crawler $ cd books_crawler $ scrapy genspider books books.toscrape.com/ books.pyのURLを変更する。wwwは取り除くことが注意ポイント…

2018-06-09

Section 10　Logging into Websites Using Scrapy

プロジェクトを始める setting.pyのobeyをfalseに変更する。 login.pyのurlをhttp://quotes.toscrape.com/loginに変更する $ scrapy crawl loginを実行してみると networkを押して、 all を選択する post requestを使っているということがわかる。 tokenを取…