Пошук

Сучасні проблеми великих мовних моделей ШІ

07 Травня 2025

Сучасні великі мовні моделі штучного інтелекту, зокрема модель o3 від OpenAI, виявляються менш точними, ніж раніше. Про це повідомляє The New York Times, спираючись на численні дослідження.

Проблеми з точністю спостерігаються також у ШІ моделей інших відомих компаній, таких як Google та китайський стартап DeepSeek. Незважаючи на покращення математичних можливостей, кількість помилок у відповідях зростає.

Однією з основних проблем є так звані "галюцинації", коли моделі вигадують інформацію без належних джерел. Амр Авадалла, генеральний директор стартапу Vectara, зазначає, що ці помилки залишаться, незважаючи на зусилля розробників.

Наприклад, ШІ-бот технічної підтримки інструменту Cursor неправдиво стверджував, що програму можна буде використовувати лише на одному пристрої, що призвело до незадоволення користувачів. Згодом з'ясувалося, що компанія не вносила таких змін — це була вигадка бота.

У тестуваннях різних моделей рівень вигаданих фактів сягав 79%. Внутрішнє тестування моделі o3 показало 33% галюцинацій у відповідях на запитання про знаменитостей, що вдвічі більше, ніж у попередньої моделі o1. Нова модель 04-mini демонструє ще гірші результати — 48% помилок.

При відповіді на загальні запитання, рівень галюцинацій у моделях o3 та o4-mini становив 51% і 79% відповідно, тоді як старша модель o1 мала показник 44%. У OpenAI визнають необхідність подальших досліджень для виявлення причин цих помилок.

Незалежні дослідження підтверджують, що галюцинації також характерні для моделей з можливостями міркування від Google та DeepSeek. Власне дослідження компанії Vectara виявило, що такі моделі вигадують факти в 3% випадків, а іноді цей показник досягає 27%. Незважаючи на зусилля компаній, за останній рік рівень галюцинацій знизився лише на 1-2%.