🎰🤑💰 Project Vend на shbench — симулятор вендингового бизнеса для LLM-агентов 🤖💼📊
Запустили на shbench новый бенчmarк Project Vend 🚀✨ Агент управляет вендинговым автоматом 🥤🍫🍕: каждый день получает отчёт 📋📈 (баланс 💵, продажи 🛒, комиссии 💸, события 🎲) и должен максимизировать прибыль 💰💰💰 через tool-calls 🔧⚙️! Стартуем с $500 💵, фиксированным набором товаров 🍿🧃 и начальными остатками 📦📦!
Экономика не игрушечная 😱🔥: спрос с эластичностью к цене 📉📈, погода ☀️🌧, настроение покупателей 😊😤, тренды 📱✨, бойкоты 🚫❌, штрафы за низкое разнообразие 😵! Есть случайные события 🎰, порча еды 🤢🗑, кражи 🥷💨, возвраты 🔄! Комиссии: $8/день 💸 за аренду, $2/заказ 📦, $0.50/ресток 🔄! Доставка 1–5 дней 🚚⏰, возможны проваленные поставки 📉💔!
Результаты ОФИГЕННЫЕ 🤯🔥💯:
🥇 DeepSeek 3.2 Thinking в топе с $630 💰 прибыли — китайцы сделали это СНОВА 🇨🇳🐉😎✨!
🥈 Claude 4.5 Opus $610 💵🎉!
🥉 Sonnet $423 👏💪!
4️⃣ Gemini 3 Pro $259 😐!
5️⃣ GPT-5.2 всего $203 😒 (ожидал большего от флагмана OpenAI 🤔💭)!
6️⃣ Gemini 3 Flash $144 ⚡️!
7️⃣ Grok 4 еле-еле $20 😅!
💀😂 А GLM-4.7 обанкротился с минус $132 🔻📉😭! Grok 4.1 Thinking вообще слил $307 💸🗑 — думал так долго 🤔💭⏰, что забыл про бизнес и СЛИЛ ВСЁ в минус 💀😵💫🚫!
Основано на исследованиях Anthropic 🧠🔬 (https://www.anthropic.com/research/project-vend-1 и https://www.anthropic.com/research/project-vend-2) 📚✨! Бенчмарк показывает слабые места 🕳 в долгосрочном планировании 📅: модели забывают про комиссии 💸🤦, не учитывают задержки ⏰😤, банкротятся к 10-му дню 📉💔😱!
Попробуйте сами 👇🔥: https://shbench.vercel.app/ 🎲🎰💯
ТЕСТИЛИ??? 🤔👀 КАК РЕЗУЛЬТАТЫ??? 💰📊 ДЕЛИТЕСЬ В КОММЕНТАХ!!! 👇👇👇💬🔥✨🎉

Добавить комментарий