– С чего начать разбираться в скрапинге?
– Начни с того, чтобы попытаться его избежать.
© из диалога с человеком, который более 15 лет занимается скрапингом и парсингом.
Работа AI-агентов – это, в конечном итоге, анализ текстовой (как правило) информации при помощи LLM.
В какой-то момент, формируя контекст для AI-агента, сталкиваешься с тем, что данные из интернета для его наполнения могут быть не доступны по прямому запросу.
Большая часть крупных интернет-проектов имеют связанные с прямым скрапингом ограничений.
Чтобы самому не загружать себя вопросами по постоянному обходу ограничений, существует проект apify.com.
Платформа предоставляет множество вариантов скрапинга различных сайтов. Происходит это через специальные сущности, называемые акторами (actors). Это процесс, который запускается на мощностях APIfy и производит скрапинг той или иной страницы в интернете.
С другой стороны, если вы специалист по скрапингу данных, можно разместить на платформе собственный actor и получать процент с того, что пользователь платит за его использование.
Важные моменты при работе с APIfy:
1. Это в 99% случаев будет платно. Как правило, стоимость оправдана. С бесплатным тарифом можно протестировать работоспособность акторов, разве что, через интерфейс.
2. Никогда не доверяйте выбор актора AI-агенту. И сам запутается, и вас на деньги разведёт. Выбор правильных акторов от хороших поставщиков – залог успешной работы на платформе. Если есть актор от самих apify, вам повезло. Но такое везение случается нечасто.
3. У APIfy есть несколько вариантов оплаты за работу актора. Лучше всего выбирать «pay per result». В таком формате оплаты, как правило, вы платите 5-10 долларов за объём в 1000 полученных результатов. «Pay per usage», например, может отвалиться по таймауту и за один вызов, который не принёс результата, потратит $1.
4. Поскольку каждый актор – это продукт той или иной команды или разработчика, у них нет унифицированного API. Каждый со своим интерфейсом.
5. Для AI-агента, который пишет вам код, формируйте полноценный пайплайн с тем, на каком этапе и какой актор будет использоваться. Coding-агент самостоятельно может обратиться в API и изучить, какой формат ожидает актор на входе и что даёт на выходе.
6. Зачастую стоит посмотреть через интерфейс APIfy логи актора, когда он работает. Поскольку их создают сторонние разработчики, надёжность у акторов может сильно варьироваться. А логи помогают заранее определить потенциальные проблемы с надёжностью.
7. Если логи никакой полезной информации вам не дают, у каждого актора есть 5-бальный рейтинг, а также количество пользователей, которые его используют. У самых популярных акторов по 200 тысяч пользователей.
8. Некоторые акторы могут съедать много оперативки (привет, запрещённый Instagram!). Это также стоит учитывать и не делать параллельно несколько «тяжёлых» запросов.
9. APIfy – универсальная платформа. Порой ни один актор не решает поставленную задачу. В таких случаях можно обратиться к специализированным платформам, которые занимаются только скрапингом продуктов от Google, например. Или сосредоточены на SEO-данных.
Если у вас есть, чем расширить мой список – добро пожаловать в комментарии 😊