Буквально за пару лет чат-боты с искусственным интеллектом (ИИ) стали частью повседневной жизни десятков и даже сотен миллионов человек. Спросить что-нибудь у того же ChatGPT — обычное дело, однако и эта, и другие ИИ-модели частенько грешат неточностями, а порой и просто подменяют факты вымыслом. Так что чрезмерно полагаться на их рекомендации и анализ определенно не стоит, особенно при принятии важных решений.
Исследователи периодически оценивают способности популярных чат-ботов — результаты одной из таких оценок в виде инфографики представил пользователь портала Voronoi App. В ее основу легли два индекса Artificial Analysis Omniscience, оценивающие генеративные языковые модели по критериям достоверности ответов на вопросы (Accuracy; чем показатель выше, тем лучше) и «галлюцинирования» (Hallucination; чем ниже, тем лучше).
Первый показатель определяется как доля вопросов, на которые модель в ходе теста ответила правильно, среди всех заданных вопросов, включая и те, на которые ИИ дал частично правильный отвел или не стал отвечать.
Второй показатель обозначает долю неправильных ответов на вопросы, на которые ИИ попытался ответить, не зная правильного ответа, и не преуспел, хотя мог бы дать частично правильный ответ или отказаться от ответа. По сути, этот показатель представляет собой оценку вероятности того, что чат-бот даст полностью неправильный ответ на вопрос, если правильный он не знает.
Результаты оценки 17 генеративных языковых моделей (розовым отмечены проприетарные модели, бирюзовым — с открытым исходным кодом) представлены ниже.
Как нетрудно заметить, в лидеры по показателю достоверности (вертикальная шкала) выбились модели GPT-5 (0,39), Grok 4 (0,39), Gemini 2.5 Pro (0,37), Claude 4.1 Opus (0,36), Claude 4.5 Sonnet (0,31). При этом по части «галлюцинирования» (горизонтальная шкала) лучше всех дела обстоят у двух последних моделей (по 0,48), тогда для Grok 4 этот показатель составляет 0,64, для GPT-5 — 0,81, а для Gemini 2.5 Pro — 0,89.
Отметим, что текущим лидером по достоверности (0,53) в рейтинге Artificial Analysis Omniscience недавно стала модель Gemini 3 Pro, которая вышла в ноябре 2025 года. А вот индекс ее «галлюцинирования» составил по итогам теста 0,88.
Подробнее о том, почему нейросети нам лгут и можно ли отличить их вымыслы от правды, читайте в материале «Вокруг света».
