twitterすらもダークサイドに堕ちたwebの世界で、クローラはweb開発者の嗜みとなっています

先日、scoutyさん主催のCrawler Night 2019に参加してLTしてきました。

何事も第一回というのは面白いもので、若干の黒さがあるテーマとも相まって会場は妙な熱気があり楽しかったです。

で、そこでいろいろ話もしたのですが、クローリングにおいて特にseleniumを使う場合、botと分かるとすぐにbanされるサイトなどがあるので

  • IP rotation
  • UA rotation

等は必須です。その他にもchromedriverがデフォルトで使うwindow変数などはチェックされている可能性が高いなどいろいろな闇の部分があることが調べるとわかってきました。

あと、いろんなサイトでbot判定とかをやってるwebサービスはDistil Networksというのが有名らしく、ここのbot検出ロジックを学ぶのも有益でした。

っつーことでseleniumベースのクローラーのソースコードを更新しました:

  • chromedriverの変数書き換え
  • IP rotation
  • UA rotation

等に対応したところが大きいですね。

 

関連記事

fitbitの睡眠スコアを90弱で安定させる良い睡眠を続ける簡単な方法

m1 ipad pro 12.9 2021のusb-cハブはコレがベスト

Time Machine不要!Macを11.2.3にダウングレードして原神をm1 macbook airでプレイする

MH-Z19CとM5StickCで二酸化炭素濃度モニタリング

【神軽量HMD】Avegant Glyph 改造: 瓶詰堂さんのaltglyphを作った

PC、iPad、Android、switchもドックいらず!あまりに万能なusb-cハブが最強だった

コメント

コメントを返信する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です