Cloudflare выпустили собственный краулер для сайтов Компания Cloudflare, которая много лет помогает

📛 Cloudflare выпустили собственный краулер для сайтов

Компания Cloudflare, которая много лет помогает сайтам защищаться от ботов и парсеров, неожиданно представила собственный инструмент для сканирования сайтов. Речь идёт о новом эндпоинте /crawl в сервисе Browser Rendering.

Этот API позволяет просканировать и извлечь контент целого сайта одним запросом. Инструмент рассчитан прежде всего на задачи, связанные с ИИ и анализом данных.

Основные сценарии использования:
🟡 подготовка данных для RAG-пайплайнов
🟡 сбор информации для обучения AI-моделей
🟡 мониторинг сайтов
🟡 различные исследовательские задачи

Самый ироничный момент — именно Cloudflare является одним из главных игроков в защите сайтов от краулеров, которые собирают данные для обучения нейросетей. То есть компания фактически выпустила инструмент, против которого сама же годами помогала защищаться.

В Cloudflare, впрочем, объясняют, что их бот будет работать «ответственно»: он должен уважать правила сайта и robots.txt, а также соблюдать ограничения владельцев ресурсов.

🤑 ForgetMe | Boosty

Приобрести подписку на любые сервисы
@forgetshop_bot

#нейросети #новости

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *