クロール&スクレイピングはweb開発者や野良データ研究者にとってはたしなみではないでしょうか。
もはや武士にとっての茶&数寄、あなたをグッと深みのある人間に見せてくれるハイソなスキルといえましょう。
しかしクローラーは大仰なものが多かったり(主にscrapinghub方面)、web側がマジでclosedになってきたりと
お茶を嗜む以前に作法を学ぶことが非常に辛くなってしまっています。本質はお茶を飲むことですらなく、そこでのコミュニケーションにあるのです。マジで。

ブラウザ動かしましょうねってことです。それも環境構築を楽に。
そういうスクリプトを書いてみました:
https://github.com/Drunkar/crawler-base

seleniumが公式のdocker imageを用意してくれているのでクソでも使えます。(知能のあるクソに限られます。)

とりあえずpythonはanacondaじゃなきゃダメな身体にされてしまっているのでanacondaを使うようにしたdockerfileとcompose.ymlを入れてます。

クローンしてきたら、

docker-compose up -d

でselenium-serverのコンテナがビルドされ起動します。

  • 4444ポート: selenium server
  • 5900ポート: vnc sercer

です。ホストからlocalhostの4444ポートを指定してseleniumをremotewebdriverで起動すればおkです。サンプルではredditにログインして自分のフィードを取得します。auth.jsonというファイルにユーザー名とパスワードを入れ、

python crawl.py -d

でクロール開始します。

ホストpcからvncクライアントで接続すれば実際にクロールされている様子を覗くことができます。ubuntuならvinagre、macならfinder、windowsならrealvncとかがメジャーでしょうか。接続に必要なパスワードは”secret”です。

関連記事

blenderでオブジェクトのキーフレームを途中からごっそり入れ替える

MiSTEL BAROCCO MD650Lの持ち運びにはあのケースがぴったり

高層を拒否し、「ニュー オールドタウン」を選択したフランクフルトの市民参加型都市計画

echo spotでスマホを持ってない人とテレビ電話をする方法

MiSTEL BAROCCO MD650Lをbluetooth接続にしてmobilityを爆上げ

MiSTEL BAROCCO MD650Lを持ち運びやすくするマグネット足を作った

コメント

コメントを返信する

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です