📛 Cloudflare выпустили собственный краулер для сайтов
Компания Cloudflare, которая много лет помогает сайтам защищаться от ботов и парсеров, неожиданно представила собственный инструмент для сканирования сайтов. Речь идёт о новом эндпоинте /crawl в сервисе Browser Rendering.
Этот API позволяет просканировать и извлечь контент целого сайта одним запросом. Инструмент рассчитан прежде всего на задачи, связанные с ИИ и анализом данных.
Основные сценарии использования:
🟡 подготовка данных для RAG-пайплайнов
🟡 сбор информации для обучения AI-моделей
🟡 мониторинг сайтов
🟡 различные исследовательские задачи
Самый ироничный момент — именно Cloudflare является одним из главных игроков в защите сайтов от краулеров, которые собирают данные для обучения нейросетей. То есть компания фактически выпустила инструмент, против которого сама же годами помогала защищаться.
В Cloudflare, впрочем, объясняют, что их бот будет работать «ответственно»: он должен уважать правила сайта и robots.txt, а также соблюдать ограничения владельцев ресурсов.

Добавить комментарий