articles 2019年3月21日 by Drunkar

汎用クローラのリポジトリを更新しました

twitterすらもダークサイドに堕ちたwebの世界で、クローラはweb開発者の嗜みとなっています

せかいらぼ

とりあえずクロール 2018

クロール&スクレイピングはweb開発者や野良データ研究者にとってはたしなみではないでしょうか。もはや武士にとっての茶&数寄、あなたをグッと深みのある人間に見せてくれるハイソなスキルといえましょう。しかしクローラーは大仰なものが多かったり(主にscrapinghub方面)、web側がマジでclosedになってきたりとお茶を嗜む以前に作法を学ぶことが非常に辛くなってしまっています。本質はお茶を飲むことですらなく、そこでのコミュニケーションにあるのです。マジで。ブラウザ動かしましょうねってことです。それも環境構築を楽...

先日、scoutyさん主催のCrawler Night 2019に参加してLTしてきました。

何事も第一回というのは面白いもので、若干の黒さがあるテーマとも相まって会場は妙な熱気があり楽しかったです。

で、そこでいろいろ話もしたのですが、クローリングにおいて特にseleniumを使う場合、botと分かるとすぐにbanされるサイトなどがあるので

IP rotation
UA rotation

等は必須です。その他にもchromedriverがデフォルトで使うwindow変数などはチェックされている可能性が高いなどいろいろな闇の部分があることが調べるとわかってきました。

Can a website detect when you are using selenium with chromedriver?

I've been testing out Selenium with Chromedriver and I noticed that some pages can detect that you're using Selenium even though there's no automation at all. Even when I'm just browsing manually j...

あと、いろんなサイトでbot判定とかをやってるwebサービスはDistil Networksというのが有名らしく、ここのbot検出ロジックを学ぶのも有益でした。

How does Distil Networks Bot and Scraper Detection work? Are there advantages...

Distil Networks is more like a CDN (Content Delivery Network), so every traffic to customers website should pass through Distil server. In other words you have to point your DNS to their CDN (that can potentially bring down your site). They keep a...

っつーことでseleniumベースのクローラーのソースコードを更新しました:

Drunkar/crawler-base

Crawler base script using python and selenium. Examples for reddit.com and instagram.com. - Drunkar/crawler-base

chromedriverの変数書き換え
IP rotation
UA rotation

等に対応したところが大きいですね。

コメント

コメントを返信するコメントをキャンセル