Сегодня на ютубе наткнулся на видео канала «Коллектив», в котором профессиональный графолог соотносил почерки людей с их личностью. Во время просмотра мне стало любопытно: а как с этой задачей справятся нейросети? Смогут ли нейронки проявить такую же проницательность?
Я решил провести эксперимент. Для этого я сделал скриншот всех образцов письма, показанных в ролике, составил список героев с видео, и загрузил эти данные в флагманские модельки 😎
Промпт я составил так:
Ты — графолог
По почерку с фото определи кто есть кто.
Среди героев есть:
— эмо
— девушка из массажного салона
— автоугонщик
— бывший милиционер
— разведчица
— лудоман
Присвой каждому почерку с фото героя, аргументируй свой выбор.
Вот, если что, верные ответы с видео, по которым сравнивал ответы ИИ с реальностью:
2 — эмо
4 — бывший милиционер
5 — разведчица
1 — лудоман
6 — девушка из массажного салона
3 — автоугонщик
И вот сами результаты теста: сколько почерков смогли верно определить разные ИИ:
• GPT 5.2 Thinking. Верно определил эмо, лудомана и девушку с массажки. Аргументы здравые — почти слово в слово как у графолога из видео. Неплохо! Думал 2 минуты.
• Grok 4.1 Thinking. 0/6, не разгадал ничего
• Gemini 3 Pro. 0/6. Ответы и пояснения почти как у Грока. Разочаровал 🥲
• Gemini 3 Flash Thinking. 1/6, угадал разведчицу, остальное как у 3 про
• Claude 4.5 Sonnet Thinking. 3/6, забрал лудомана, разведчицу и девушку с массажки. Аргументация верная!
• GPT 5.2 Pro. Забавно, но 0/6 👶. Это странно, учитывая крутой ответ версии 5.2 Thinking. Прошка думала по 12-15 минут, и видимо начала заблуждаться, потому и выдала бред…
Конечно, стоит сделать скидку на рандом: они могли тупо угадать. Но я прогонял каждую модельку 2-3 раза и брал среднее — результаты почти не скакали. Gemini 3 Pro лишь однажды попала в точку. GPT 5.2 Thinking и Sonnet стабильно выбивали 2–3 правильных ответа, а у остальных (Grok, Flash и 5.2 Pro) показатели почти не менялись
Вышло интересно: Gemini, которую позиционируют как одну из лучших по вижну, полностью слилась. Победили GPT 5.2 Thinking и 4.5 Sonnet (из тех, кто есть в тесте). Хотелось бы проверить модель Claude 4.5 Opus Thinking, но у меня нет подписки. Если вам интересно, что ответят другие нейронки — закидывайте в них этот запрос, а результаты кидайте в комменты. Почитаем, будет любопытно =D
*прикреплённое фото — с почерками и цифрами, его прикреплял к запросу

Добавить комментарий