Project Vend на shbench — симулятор вендингового бизнеса для LLM‑агентов
Мы запустили на shbench новый бенчмарк Project Vend. Агент управляет вендинговым автоматом: каждый день получает отчёт (баланс, продажи, комиссии, события) и через tool-calls принимает решения, чтобы максимизировать прибыль. Стартовые условия: $500, фиксированный ассортимент и начальные остатки.
Экономика близка к реальной: спрос зависит от цены, на продажи влияют погода, настроение покупателей и тренды; возможны бойкоты, штрафы за низкое разнообразие, случайные события, порча продуктов, кражи и возвраты. Комиссии: 8/день** аренда, **2/заказ, $0.50/ресток. Доставка занимает 1–5 дней, иногда поставки могут срываться.
Результаты:
1) DeepSeek 3.2 Thinking — $630
2) Claude 4.5 Opus — $610
3) Claude 4.5 Sonnet — $423
4) Gemini 3 Pro — $259
5) GPT‑5.2 — $203
6) Gemini 3 Flash — $144
7) Grok 4 — $20
GLM‑4.7 ушёл в минус: −132. Grok 4.1 Thinking показал -307.
Бенчмарк основан на исследованиях Anthropic:
https://www.anthropic.com/research/project-vend-1
https://www.anthropic.com/research/project-vend-2
Project Vend хорошо подсвечивает слабые места в долгосрочном планировании: модели забывают про комиссии, не учитывают задержки поставок и нередко банкротятся уже к 10‑му дню.
Попробовать: https://shbench.vercel.app/

Добавить комментарий