twitterすらもダークサイドに堕ちたwebの世界で、クローラはweb開発者の嗜みとなっています
先日、scoutyさん主催のCrawler Night 2019に参加してLTしてきました。
何事も第一回というのは面白いもので、若干の黒さがあるテーマとも相まって会場は妙な熱気があり楽しかったです。
で、そこでいろいろ話もしたのですが、クローリングにおいて特にseleniumを使う場合、botと分かるとすぐにbanされるサイトなどがあるので
- IP rotation
- UA rotation
等は必須です。その他にもchromedriverがデフォルトで使うwindow変数などはチェックされている可能性が高いなどいろいろな闇の部分があることが調べるとわかってきました。
あと、いろんなサイトでbot判定とかをやってるwebサービスはDistil Networksというのが有名らしく、ここのbot検出ロジックを学ぶのも有益でした。
っつーことでseleniumベースのクローラーのソースコードを更新しました:
- chromedriverの変数書き換え
- IP rotation
- UA rotation
等に対応したところが大きいですね。
コメント