複数のURLを一括スクレイピング
仕組み
/crawl エンドポイントの動作とほぼ同じです。バッチを開始して完了まで待つことも、開始して完了処理を自分で行うこともできます。
batchScrape(JS)/batch_scrape(Python):バッチジョブを開始し、完了まで待って結果を返します。startBatchScrape(JS)/start_batch_scrape(Python):バッチジョブを開始し、ポーリングやウェブフックに使えるジョブIDを返します。
使い方
レスポンス
batchScrape/batch_scrape を呼び出すと、バッチ完了時に完全な結果が返されます。
完了
startBatchScrape/start_batch_scrape を呼び出すと、getBatchScrapeStatus/get_batch_scrape_status、API エンドポイント /batch/scrape/{id}、または Webhook を使って追跡できるジョブ ID が返されます。ジョブの結果は、完了後 24 時間まで API 経由で取得できます。この期間を過ぎても、activity logs からバッチスクレイプの履歴と結果を確認できます。
構造化抽出を伴うバッチスクレイプ
レスポンス
batchScrape/batch_scrape は完全な結果を返します:
完了
startBatchScrape/start_batch_scrape はジョブ ID を返します:
Webhooks を使ったバッチスクレイプ
cURL
クイックリファレンス
batch_scrape.started- バッチスクレイプが開始されたときbatch_scrape.page- 各URLのスクレイプに成功したときbatch_scrape.completed- すべてのURLの処理が完了したときbatch_scrape.failed- バッチスクレイプでエラーが発生した場合
Webhook の詳細な構成方法、セキュリティのベストプラクティス、トラブルシューティングについては、Webhooks のドキュメントをご覧ください。

