✴️ Anthropic заявили о массовой «дистилляции» Claude: DeepSeek, Moonshot AI и MiniMax под подозрением
Anthropic сообщили, что обнаружили промышленные атаки на свои модели, связанные с дистилляцией — когда из ответов сильной модели «выжимают» поведение и знания, чтобы затем обучать на этом свои системы. По их данным, в схеме участвовали DeepSeek, Moonshot AI и MiniMax: якобы было создано более 24 000 фейковых аккаунтов, а суммарно сгенерировано свыше 16 млн диалогов с Claude, чтобы вытащить максимум полезных паттернов для обучения.
Anthropic отдельно поясняют, что дистилляция сама по себе не всегда зло: многие лаборатории используют её легально, чтобы делать более дешёвые и быстрые модели для клиентов. Проблема начинается там, где дистилляция идёт незаконно и скрытно, особенно когда полученные возможности можно «перелить» в модели без защитных ограничений, а дальше — применить в системах для военных, разведывательных или наблюдательных задач.
Компания отмечает, что такие атаки становятся чаще и сложнее, и один игрок индустрии не сможет закрыть проблему в одиночку. Нужны быстрые согласованные меры: со стороны разработчиков, облаков, платформ, а также регуляторов и профессионального сообщества.
Удивлены?
❤ — Ни капли
👀 — Правда удивлен
Подробнее: статья Anthropic про обнаружение и защиту от distillation-атак

Добавить комментарий