Нові моделі штучного інтелекту від OpenAI
OpenAI представила два нові відкриті рішення в галузі штучного інтелекту — gpt-oss-120b і gpt-oss-20b, які стали першими моделями з відкритими вагами компанії після виходу GPT-2, що відбулося понад п’ять років тому. Обидва проекти доступні безкоштовно на Hugging Face і спроектовані для розробників та дослідників, які прагнуть створювати власні програми на основі відкритих моделей.
Ці моделі різняться за потужністю та апаратними вимогами:
- gpt-oss-120b — більш потужна та продуктивна модель, здатна працювати на одній графічній карті NVIDIA;
- gpt-oss-20b — спрощена версія, яка може запускатися на звичайному ноутбуці з 16 ГБ оперативної пам’яті.
Основною метою OpenAI є створення американської платформи з відкритим штучним інтелектом, яка стане альтернативою зростаючому впливу китайських лабораторій DeepSeek, Qwen (Alibaba) та Moonshot AI, що активно розвивають потужні відкриті технології.
Щодо тестування, то на платформі Codeforces модель 120b отримала 2622 бали, а 20b — 2516, перевищивши DeepSeek R1, але поступившись закритим моделям o3 та o4-mini. На складному тестуванні Humanity’s Last Exam (HLE) модель 120b досягла 19%, а 20b — 17,3%, що виявилося краще, ніж у інших відкритих моделей, але нижче за o3.
Нові моделі тренувалися за методами, схожими на ті, що використовуються в закритих моделях OpenAI. Вони застосовують mixture-of-experts (MoE), активуючи лише частину параметрів для кожного токена, що підвищує загальну ефективність. Додаткове RL-посленавчання дозволило навчити моделі будувати логічні ланцюги та викликати інструменти, такі як веб-пошук або виконання коду на Python.
Моделі працюють виключно з текстовими даними, не генерують зображення чи аудіо. Вони розповсюджуються під ліцензією Apache 2.0, що дозволяє комерційне використання без необхідності отримання дозволу від OpenAI, хоча дані для навчання залишаються закритими через ризики порушення авторських прав.
Запуск gpt-oss має на меті зміцнити позиції OpenAI в спільноті розробників і відповісти на політичний тиск з боку США, які прагнуть підвищити роль відкритих американських моделей у глобальній конкуренції.



