Project Vend на shbench симулятор вендингового бизнеса для LLM-агентов Запустили на shbench новый

🎰🤑💰 Project Vend на shbench — симулятор вендингового бизнеса для LLM-агентов 🤖💼📊

Запустили на shbench новый бенчmarк Project Vend 🚀 Агент управляет вендинговым автоматом 🥤🍫🍕: каждый день получает отчёт 📋📈 (баланс 💵, продажи 🛒, комиссии 💸, события 🎲) и должен максимизировать прибыль 💰💰💰 через tool-calls 🔧⚙️! Стартуем с $500 💵, фиксированным набором товаров 🍿🧃 и начальными остатками 📦📦!

Экономика не игрушечная 😱🔥: спрос с эластичностью к цене 📉📈, погода ☀️🌧, настроение покупателей 😊😤, тренды 📱, бойкоты 🚫, штрафы за низкое разнообразие 😵! Есть случайные события 🎰, порча еды 🤢🗑, кражи 🥷💨, возвраты 🔄! Комиссии: $8/день 💸 за аренду, $2/заказ 📦, $0.50/ресток 🔄! Доставка 1–5 дней 🚚, возможны проваленные поставки 📉💔!

Результаты ОФИГЕННЫЕ 🤯🔥💯:
🥇 DeepSeek 3.2 Thinking в топе с $630 💰 прибыли — китайцы сделали это СНОВА 🇨🇳🐉😎!
🥈 Claude 4.5 Opus $610 💵🎉!
🥉 Sonnet $423 👏💪!
4️⃣ Gemini 3 Pro $259 😐!
5️⃣ GPT-5.2 всего $203 😒 (ожидал большего от флагмана OpenAI 🤔💭)!
6️⃣ Gemini 3 Flash $144 ⚡️!
7️⃣ Grok 4 еле-еле $20 😅!

💀😂 А GLM-4.7 обанкротился с минус $132 🔻📉😭! Grok 4.1 Thinking вообще слил $307 💸🗑 — думал так долго 🤔💭, что забыл про бизнес и СЛИЛ ВСЁ в минус 💀😵‍💫🚫!

Основано на исследованиях Anthropic 🧠🔬 (https://www.anthropic.com/research/project-vend-1 и https://www.anthropic.com/research/project-vend-2) 📚! Бенчмарк показывает слабые места 🕳 в долгосрочном планировании 📅: модели забывают про комиссии 💸🤦, не учитывают задержки 😤, банкротятся к 10-му дню 📉💔😱!

Попробуйте сами 👇🔥: https://shbench.vercel.app/ 🎲🎰💯

ТЕСТИЛИ??? 🤔👀 КАК РЕЗУЛЬТАТЫ??? 💰📊 ДЕЛИТЕСЬ В КОММЕНТАХ!!! 👇👇👇💬🔥🎉

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *