コンプライアンス

crawl-hubは用途・domain・出力・保存・負荷を制御する監査可能なWebデータ取得基盤です。

P0はsupported site / reviewed domain中心です。unknown domainはreview requiredまたは低頻度HTML取得に制限します。

ログイン後ページ、CAPTCHA回避、credential forwarding、個人情報大量収集、口コミ・記事本文・画像の大量再配布は禁止またはmanual approvalです。

CAPTCHA突破、アクセス制御回避、CookieやAuthorizationなど対象サイト向けcredential headerの転送を目的にした利用は受け付けません。

HTML本文、抽出JSON、画像バイナリはデフォルト保存しません。store_artifact=true の明示がある場合だけ保存します。

request_id、API key ID、tenant、domain、status、latency、html_bytes、cost_units、error codeなど運用メタデータを記録します。

利用目的、allowed sites、allowed operations、quota、concurrency、domain policyで利用範囲を制御します。