Ребят, я тут придумал новые тесты для агентов ИИ Суть в следующем, даем агенту задание, написать пр

Ребят, я тут придумал новые тесты для агентов ИИ

Суть в следующем, даем агенту задание, написать продукт или утилиту с потенциальным коммерческим потеницалом:
1. Markdown Previewer — это страница с двумя окнами: слева человек пишет текст с разметкой Markdown, справа сразу видит, как этот текст будет выглядеть в оформленном виде.
2. Weather Dashboard — Это приложение, где пользователь вводит город и видит погоду: температуру, влажность, ветер, прогноз.
… тут я еще не придумал
10. Blockchein Explorer — ну полноценный эксплорер любого блокчеин.

В чем новиночка такого теста, то что агент по краткому описанию, должен собрать готовый сервис с одного шота.

Протестируем:
Устаревишие модели: GPT-4.1, GPT-5-mini
Китайские опенсорс модели: GLM, Kimi, MiniMax, Qwen
Топовые модели: Opus 4.6, GPT-5.4 Pro, Gemini 3.1 Pro

Напишите в комментах идеи сервисов, на которых тестировать агента.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *