Протестировал Haiku 4.5 — качество просто ниже плинтуса Промпт: Создайте Nokia 3310 с пиксельным

Протестировал Haiku 4.5 — качество просто ниже плинтуса 🤦‍♂️

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Сначала я запустил промпт в резиме планирования, в Claude Code там работает Sonnet 4.6, а уже план выполнял Haiku 4.5

Методология тестирования:

Всего будет 5 попыток. Программа считается рабочей, если все три функции работают:
• рингтон играет
• смс набираются
• змейка ползает и умирает
• всякие мелкие косяки (типа экран не влезает в корпус телефона) не считаются

Оценка 2 из 5, но со звездочкой *

И вот почему, как видите по скриншотам, из всех 5 телефонов один телефон полностью не рабочий, а полностью рабочий только 1 у второго рабочего экран настолько мелкий, что бы увидеть работают ли смс, нужно увеличивать экран (поэтому, со звездочкой).

В некоторых телефонах не работает смс, у некотрых нет кнопки ок, у некторых при повтороном запуске змейки, еда не появляется (ну змейку по несколько раз запускать, это ну совсем дно).

Один плюс, эта модель работает быстро, очень быстро. В среднем с реализацией плана справляется минуты за 2. Ну а планирует долго, потому что там Sonnet.

Итого:

По сравнению с китайскими открытыми моделями — этот haiku ну полный шлак, рекомендовать можно разве что тем, кто: только учится работать с Колд Кодом, ну или тем у кого денег совсем нет, но даже если денег нет, то в этом лучае лучше выбрать opencode и бесплатные модели и не мучатся. Страшно даже представить, что будет, если запустить промпт из accept edits (без режима планирования), т.е. просто пустая трата времени (и токенов).

Так что модель Haiku 4.5 я могу всем и каждому порекомендовать к удалению (А уж сколко кода я на ней понаписал — это жесть, и даже друзьям ее советовал. Вот что значит правильно подобрать тесты, но зато теперь ясно, почему ничего не работает и агент «тупит»).

Но, важная ремарка:

Хорошо и плохо по сравнению с чем? Если сравнивать с GPT-4o — то это просто небо и змеля будет. А года 2 назад все пользовались и нахваливали.

Протестировал Haiku 4.5 — качество просто ниже плинтуса 🤦‍♂️

Промпт:

Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона.

Сначала я запустил промпт в резиме планирования, в Claude Code там работает Sonnet 4.6, а уже план выполнял Haiku 4.5

Методология тестирования:

Всего будет 5 попыток. Программа считается рабочей, если все три функции работают:
• рингтон играет
• смс набираются
• змейка ползает и умирает
• всякие мелкие косяки (типа экран не влезает в корпус телефона) не считаются

Оценка 2 из 5, но со звездочкой *

И вот почему, как видите по скриншотам, из всех 5 телефонов один телефон полностью не рабочий, а полностью рабочий только 1 у второго рабочего экран настолько мелкий, что бы увидеть работают ли смс, нужно увеличивать экран (поэтому, со звездочкой).

В некоторых телефонах не работает смс, у некотрых нет кнопки ок, у некторых при повтороном запуске змейки, еда не появляется (ну змейку по несколько раз запускать, это ну совсем дно).

Один плюс, эта модель работает быстро, очень быстро. В среднем с реализацией плана справляется минуты за 2. Ну а планирует долго, потому что там Sonnet.

Итого:

По сравнению с китайскими открытыми моделями — этот haiku ну полный шлак, рекомендовать можно разве что тем, кто: только учится работать с Колд Кодом, ну или тем у кого денег совсем нет, но даже если денег нет, то в этом лучае лучше выбрать opencode и бесплатные модели и не мучатся. Страшно даже представить, что будет, если запустить промпт из accept edits (без режима планирования), т.е. просто пустая трата времени (и токенов).

Так что модель Haiku 4.5 я могу всем и каждому порекомендовать к удалению (А уж сколко кода я на ней понаписал — это жесть, и даже друзьям ее советовал. Вот что значит правильно подобрать тесты, но зато теперь ясно, почему ничего не работает и агент «тупит»).

Но, важная ремарка:

Хорошо и плохо по сравнению с чем? Если сравнивать с GPT-4o — то это просто небо и змеля будет. А года 2 назад все пользовались и нахваливали.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *