Современные Проблемы Больших Моделей Языка ИИ
Современные большие языковые модели искусственного интеллекта, включая модель o3 от OpenAI, оказываются менее точными, чем их предшественники. Об этом сообщается в The New York Times, ссылаясь на множество исследований.
Проблемы с точностью наблюдаются также у моделей ИИ других известных компаний, таких как Google и китайский стартап DeepSeek. Несмотря на улучшение математических возможностей, количество ошибок в ответах продолжает расти.
Одной из основных проблем являются так называемые "галлюцинации", когда модели выдумывают информацию без надлежащих источников. Амр Авадалла, генеральный директор стартапа Vectara, отмечает, что эти ошибки останутся, несмотря на усилия разработчиков.
Например, ИИ-бот технической поддержки инструмента Cursor неверно утверждал, что программу можно будет использовать только на одном устройстве, что привело к недовольству пользователей. Позже выяснилось, что компания не вносила таких изменений — это была выдумка бота.
В тестах различных моделей уровень выдуманных фактов достигал 79%. Внутреннее тестирование модели o3 показало 33% галлюцинаций в ответах на вопросы о знаменитостях, что вдвое больше, чем у предыдущей модели o1. Новая модель 04-mini продемонстрировала еще худшие результаты — 48% ошибок.
При ответах на общие вопросы уровень галлюцинаций у моделей o3 и o4-mini был еще выше — 51% и 79% соответственно, в то время как у старшей модели o1 этот показатель составил 44%. В OpenAI признают необходимость дополнительных исследований для выявления причин этих ошибок.
Независимые исследования подтверждают, что галлюцинации также характерны для моделей с возможностями рассуждения от Google и DeepSeek. Собственное исследование компании Vectara показало, что такие модели выдумывают факты как минимум в 3% случаев, а иногда этот показатель достигает 27%. Несмотря на усилия компаний, уровень галлюцинаций снизился всего на 1-2% за последний год.



