Вышел ARC-AGI-3 Франсуа Шолле представил интерактивный бенчмарк ARC-AGI-3 для измерения интеллекта

Написано

🧠 Вышел ARC-AGI-3

Франсуа Шолле представил интерактивный бенчмарк ARC-AGI-3 для измерения интеллекта ИИ-агентов. Он оценивает способность обучаться на лету и адаптироваться к новым задачам без предварительных знаний.

— Заменяет статические головоломки на интерактивные видеоигровые grid-среды. Агент исследует мир, открывает цели и строит модель окружения через пробы и ошибки.
— Работает без естественного языка, инструкций, подсказок и культурного контекста. Опирается исключительно на базовую логику: объектную перманентность, причинность и пространственные отношения.
— Считает эффективность приобретения навыков по количеству действий агента до достижения результата в сравнении с человеком.
— Включает более 1000 уровней в 150 созданных вручную окружениях. Поддерживает запись повторов для детального анализа логики решений.
— Фиксирует тотальный разрыв: люди решают 100% задач за минуты, тогда как лучшие модели не справляются:

Gemini 3.1 Pro набирает 0.37% GPT-5.4 — 0.26%
Claude Opus 4.6 — 0.25%
Grok-4.20 — 0%

Доступно в веб-версии и через Python-пакет arc-agi. Код опубликован на GitHub, а статистика собирается в открытом лидерборде.

💠 PERCEPTRON.

Вышел ARC-AGI-3 Франсуа Шолле представил интерактивный бенчмарк ARC-AGI-3 для измерения интеллекта

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Telegram пометил всех пользователей Telega у юзеров неофициальных клиентов стала появляться плашка

Протестировал Qwen 3.6 Plus Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат

Grok Heavy самая бессмысленная подписка в мире Оформил её, чтобы протестировать Heavy-модель, и ос

Кооп завезли в Mount & Blade 2 коммьюнити буквально умоляло разрабов выкатить эту фичу и они вы