МАС нейрослоп, как синта для LLM. Как-то говорил, что агентные системы будут одним из источников д

МАС нейрослоп, как синта для LLM.

Как-то говорил, что агентные системы будут одним из источников данных в эру, когда датка появляется медленнее, чем ее поглощает обучение моделек.

И вот челики выложили способ получить датасет с логами диалогов код-агентов.

Зачем? С одной стороны, дословно, они про демократизацию ИИ:

DataClaw
This is a performance art project. Anthropic built their models on the world’s freely shared information, then introduced increasingly dystopian data policies to stop anyone else from doing the same with their data — pulling up the ladder behind them. DataClaw lets you throw the ladder back down. The dataset it produces is yours to share.

Turn your Claude Code, Codex, and Gemini CLI conversation history into structured data and publish it to Hugging Face with a single command. DataClaw parses session logs, redacts secrets and PII, and uploads the result as a ready-to-use dataset.(с)

С другой стороны, это позволяет вам использовать такие данные (тут полный набор в HF текущих сетов) для анализа и обучения LMок. Конечно, чтобы не словить слопа, нужно предварительно это дело почистить и привести в нужный для sft вид. Дерзайте и делитесь, код тут. 👍

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *