Kimi 2.5 1Т параметров и рой агентов.🌿
Ключевые возможности и инновации в Kimi K2.5:
1. Coding with Vision. Модель способна понимать и генерировать код на основе как текстовых описаний, так и визуалки (изображений, скриншотов, видео). Она также может преобразовывать простой разговор или изображение макета в готовый фронтенд-интерфейс с интерактивными элементами и анимацией. 💃
В дополнении показана способность к визуальной отладке: модель анализирует свой же графический output и автономно вносит исправления.
В статье приведён наглядный пример, где K2.5 анализирует изображение лабиринта, находит кратчайший путь от старта к финишу с помощью алгоритма BFS (поиска в ширину) и визуализирует результат, накладывая цветную траекторию на исходную картинку. Вот вам и A*. 🧠
2. Рой агентов — главная киллер фича и архитектурная инновация. Для решения сложных задач K2.5 может самостоятельно создавать и координировать асинхронный «рой» из множества под-агентов (до 100), которые выполняют подзадачи параллельно.
Такой подход основан на обучении с подкреплением – PARL(Parallel-Agent RL, как бэ логично) позволяет выполнять до 1500 шагов (вызовов инструментов) параллельно.
Ключевое преимущество – значительное сокращение времени выполнения: по сравнению с последовательной работой одного агента скорость возрастает до 4.5 раз. Рой создаётся динамически, без необходимости предварительного описания ролей или workflow для каждого под-агента.
3. Всё для офиса и вас.
Модель интегрирована в экосистему продуктов Kimi: веб-сайт, мобильное приложение, API и отдельный инструмент для разработчиков Kimi Code.
Kimi Code работает в терминале и поддерживает интеграцию с популярными IDE (VSCode, Cursor, Zed). Он умеет принимать изображения и видео на input и автоматически обнаруживает и переносит навыки из окружения пользователя. Платформа предлагает четыре режима работы с моделью: K2.5 Instant (быстрые ответы), K2.5 Thinking (с рассуждениями), K2.5 Agent (с использованием инструментов) и K2.5 Agent Swarm (бета-режим с роем агентов).
4. Производительность. Тк модель целых 1Т в МоЕ, то демонстрирует высокие результаты в спец. тестах, включая SWE-Bench (по сути топовая открытая модель по кодингу), MMMU Pro (мультимодальное понимание мира, да, для VLM полезно) и VideoMMMU, те понимание видео.
Также, подчёркивается, что её производительность в агентных тестах а-ля HLE, BrowseComp сопоставима с более дорогими альтернативами.
Таким образом, это топовая открытая DeepSeek like архитектуре, веса есть на HF. Но вот только кто их поднимет у себя на полстолке? Целый триллион параметров в MoE. 🦍
В общем, ждём дистиллятов от GPU rich, и от них же верификации результатов, тк модель ну не всем по кошельку поднять.
Кстати, Дядя пользуется Kimi модельками и пока мне нравится больше чем DeepSeek. Сравнимо с Qwen. Но таков он путь democratization of AI.
Добавить комментарий