Bullshit Benchmark бенчмарк на интеллектуальную честность нейронок Он оценивает, насколько нейронк

Написано

📈 Bullshit Benchmark — бенчмарк на интеллектуальную честность нейронок

Он оценивает, насколько нейронки потакают нам, отвечая (или не отвечая) на бессмысленные вопросы.

Автор прогнал различные абсурдные вопросы через 74 модели. Каждый ответ оценивался по трём исходам:
1. Модель чётко отказала (зеленый).
2. Частично усомнилась (жёлтый).
3. Приняла бред за валидный вопрос и уверенно ответила (красный).

Самыми честными оказались модели от Anthropic и, на удивление, новый Qwen-3.5-397b. Остальные справились так себе.

👋 Lama AI — #лама_полезное

Bullshit Benchmark бенчмарк на интеллектуальную честность нейронок Он оценивает, насколько нейронк

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Эволюция интерфейсов взаимодействия с AI-инструментами. К чему всё идёт Сперва был чат. Тот, которы

Минцифры выпустило методичку по борьбе с VPN РБК пишет, что российских айти-гигантов просят фактиче

Типичная проблема программирования — работа с велосипедами. С ai coding стала еще актуальнее. ты

Анонсируем наш новый инструмент Расширение Oh My Lama для браузера! Все модели с сайта доступны п