Ребят, я тут придумал новые тесты для агентов ИИ
Суть в следующем, даем агенту задание, написать продукт или утилиту с потенциальным коммерческим потеницалом:
1. Markdown Previewer — это страница с двумя окнами: слева человек пишет текст с разметкой Markdown, справа сразу видит, как этот текст будет выглядеть в оформленном виде.
2. Weather Dashboard — Это приложение, где пользователь вводит город и видит погоду: температуру, влажность, ветер, прогноз.
… тут я еще не придумал
10. Blockchein Explorer — ну полноценный эксплорер любого блокчеин.
В чем новиночка такого теста, то что агент по краткому описанию, должен собрать готовый сервис с одного шота.
Протестируем:
Устаревишие модели: GPT-4.1, GPT-5-mini
Китайские опенсорс модели: GLM, Kimi, MiniMax, Qwen
Топовые модели: Opus 4.6, GPT-5.4 Pro, Gemini 3.1 Pro
Напишите в комментах идеи сервисов, на которых тестировать агента.
Добавить комментарий