Про это писать не буду. Пусть всякие научпокеры пишут. 💅 Просто мифы подтвердились. https://www.anthropic.com/glasswing И да это связано с постом выше про утечку о MythosТех репорт тут.
Почтальон Печкин стайл включён: "у меня для вас модель, но я вам её не дам, она небезопасная".
Как обычно тлдр:
1. Пробили метрики и обещают новые возможности. Значительный скачок по всем ключевым бенчмаркам 🚬
2. Улучшенное выравнивание
Лучшая модель Anthropic по метрикам безопасности, но все ещё сама может вас взломать, подставить под утечки и тп. 🤣 Тут или вы крестик снимите или перестаньте её юзать для CyberSec.
3. Проактивное управление рисками. Решение ограничить доступ демонстрирует зрелый подход к ответственному развитию ИИ – ага, да… 👍
4. Оценки модели, как живого человека. Новые методы оценки надёжности модели, интерпретируемости, осведомлённости о тестировании и прочие около псих тесты. 📦 напоминает, это всего лишь модель, концептуальное упрощение по сравнению с более сложным организмом (мозгом). Весь этот стиринг, оценки эмоциональности, предвзятости, реакции на ОС это всего лишь способ концептуально померить и оцифровать Black Box модели. Не надо её одушевлять. 🛑

Добавить комментарий