Инфографика: какие популярные ИИ-модели стараются давать корректные ответы, а какие — склонны к выдумкам

Буквально за пару лет чат-боты с искусственным интеллектом (ИИ) стали частью повседневной жизни десятков и даже сотен миллионов человек. Спросить что-нибудь у того же ChatGPT — обычное дело, однако и эта, и другие ИИ-модели частенько грешат неточностями, а порой и просто подменяют факты вымыслом. Так что чрезмерно полагаться на их рекомендации и анализ определенно не стоит, особенно при принятии важных решений.

Исследователи периодически оценивают способности популярных чат-ботов — результаты одной из таких оценок в виде инфографики представил пользователь портала Voronoi App. В ее основу легли два индекса Artificial Analysis Omniscience, оценивающие генеративные языковые модели по критериям достоверности ответов на вопросы (Accuracy; чем показатель выше, тем лучше) и «галлюцинирования» (Hallucination; чем ниже, тем лучше).

Первый показатель определяется как доля вопросов, на которые модель в ходе теста ответила правильно, среди всех заданных вопросов, включая и те, на которые ИИ дал частично правильный отвел или не стал отвечать.

Второй показатель обозначает долю неправильных ответов на вопросы, на которые ИИ попытался ответить, не зная правильного ответа, и не преуспел, хотя мог бы дать частично правильный ответ или отказаться от ответа. По сути, этот показатель представляет собой оценку вероятности того, что чат-бот даст полностью неправильный ответ на вопрос, если правильный он не знает.

Результаты оценки 17 генеративных языковых моделей (розовым отмечены проприетарные модели, бирюзовым — с открытым исходным кодом) представлены ниже.

На изображении присутствует логотип компании Meta, признанной в России экстремистской организацией, ее деятельность на территории РФ запрещена | Источник: Shashank A Pandey, CC BY, via Voronoi App — На изображении присутствует логотип компании Meta, признанной в России экстремистской организацией, ее деятельность на территории РФ запрещена
Источник:
Shashank A Pandey, CC BY, via Voronoi App

Как нетрудно заметить, в лидеры по показателю достоверности (вертикальная шкала) выбились модели GPT-5 (0,39), Grok 4 (0,39), Gemini 2.5 Pro (0,37), Claude 4.1 Opus (0,36), Claude 4.5 Sonnet (0,31). При этом по части «галлюцинирования» (горизонтальная шкала) лучше всех дела обстоят у двух последних моделей (по 0,48), тогда для Grok 4 этот показатель составляет 0,64, для GPT-5 — 0,81, а для Gemini 2.5 Pro — 0,89.

Отметим, что текущим лидером по достоверности (0,53) в рейтинге Artificial Analysis Omniscience недавно стала модель Gemini 3 Pro, которая вышла в ноябре 2025 года. А вот индекс ее «галлюцинирования» составил по итогам теста 0,88.

Подробнее о том, почему нейросети нам лгут и можно ли отличить их вымыслы от правды, читайте в материале «Вокруг света».