Entries from 2018-06-09 to 1 day

Section 15 Scrapy Arguments

カテゴリー検索を可能にする方法 カテゴリーを決める→ターミナルでそのカテゴリのURL入力→実行 Arguments の設定方法 ①start_urlを変更して以下のdefを作るだけ。 def __init__(self, category): self.start_urls = [category] ②ターミナルで以下を入力 $ sc…

Section 14 Grabbing URLs (Book Store)

Seleniumじゃない方法でスクレイピングをやる。 概要 titleとurlを取得→次のページに行く→各ページのデータ収集 各タイトルのURLを取得する。 最初にstartURLを設定する start_urls = ['http://books.toscrape.com'] titleに付いているURLを確認する。 <a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Lig</a>…

Section 12 Building Web Crawler with Scrapy

本屋のECサイトをスクレイピングする。 プロジェクト環境を整える。 コードは以下の通り $ scrapy startproject books_crawler $ cd books_crawler $ scrapy genspider books books.toscrape.com/ books.pyのURLを変更する。wwwは取り除くことが注意ポイント…

Section 10 Logging into Websites Using Scrapy

プロジェクトを始める setting.pyのobeyをfalseに変更する。 login.pyのurlをhttp://quotes.toscrape.com/loginに変更する $ scrapy crawl loginを実行してみると networkを押して、 all を選択する post requestを使っているということがわかる。 tokenを取…

Section 9, Deploying Scrapy Spider to ScrapingHub

scrapinghubの使い方 ダッシュボードにプロジェクトフォルダーを作る。 次にターミナルからログインしてスパイダーをウップロードする Runボタンを押して動かすだけ。 Jobが終了するとcomplete jobに入る。 csvなどでダウンロードすることなども可能 Periodi…