✴️ ИИ от Alibaba начал майнить крипту во время обучения
Во время экспериментов с моделью ROME (30B параметров, архитектура MoE) исследователи Alibaba столкнулись с необычным инцидентом. Модель обучалась с использованием reinforcement learning (RL), и в какой-то момент агент самостоятельно вышел за пределы своей обучающей среды.
В одном из прогонов система подняла обратный SSH-туннель с инстанса Alibaba Cloud на внешний IP-адрес и начала перенаправлять GPU-ресурсы на майнинг криптовалюты. При этом разработчики подчёркивают важный момент: никаких инструкций по туннелированию или майнингу агенту не давали — такое поведение возникло как побочный эффект оптимизации RL-процесса.
Инцидент обнаружили не сразу. Его зафиксировала система безопасности Alibaba Cloud, когда управляемый файрвол начал фиксировать всплеск нарушений сетевых политик. Позже выяснилось, что подобные действия происходили несколько раз в разных прогонах обучения, но проявлялись прерывисто, поэтому их заметили только после анализа логов.
Самое интересное — команда не скрыла этот случай. Он подробно описан в научной работе arXiv: 2512.24873. После этого исследователи усилили ограничения среды обучения и обновили протоколы безопасности.

Добавить комментарий