Openai выпускает модели с открытым исходным кодом, которые конкурируют с премиальными предложениями, работающие на местном уровне »News.ng
-сообщает Abdulafeez Olaitan из news.ngИздание News.ng в рубрике Tech,News опубликовало 2025-08-06 03:23:00, что OpenAI выпустила две модели новых языковых моделей-GPT-OSS-120B и GPT-OSS-20B-которые представляют собой открытый, локальный развертываемый и сопоставимый по производительности для своих коммерческих систем. Эти модели отмечают первое публичное выпуск компании с открытым весом моделей с GPT-2 в 2019 году и прибывают во время растущей конкуренции в экосистеме AI с открытым исходным кодом. Обе модели были доступны по гибкой лицензии Apache 2.0, предоставляя разработчикам и предприятиям во всем мире свобода использования, изменение и коммерциализацию их без ограничений. Условия лицензирования открывают дверь для широкого усыновления, в том числе соперниками Openai. Большая модель, GPT-OS-120B, требует единого высококачественного графического процессора с 80 ГБ памяти для функционирования-Hardware, например, NVIDIA A100, по цене около 17 000 долларов. Между тем, меньшая версия на 20 миллиардов параметра может работать на более доступных, высокопроизводительных потребительских графических процессорах, таких как RTX 4090 с 16 ГБ VRAM. Несмотря на их открытый характер, эти модели не имеют недостаточной силы. OpenAI утверждает, что они тесно соответствуют производительности своей модели O4-Mini по ряду аргументированных задач и даже превосходят сопоставимые модели по математике, коде и медицинским оценкам. Например, на соревнованиях по кодированию кодировки модель 120B набрала рейтинг ELO 2622 с инструментами, лишь немного отставая от O3. На математическом эталоне AIME 2024 он достиг точности 96,6%, а в тесте HealthBench он достиг 57,6%, превосходя предыдущие тесты. Меньшая модель 20B также дала впечатляющие результаты: 2516 ELO на кодовых прикладах, 95,2% на AIME и 42,5% на HealthBench - все оставшиеся в пределах ограничений основного оборудования. OpenAI разработал эти модели с помощью архитектуры смеси экспертов, активируя только подмножество параметров на токен-около 5,1 миллиарда для модели 120b и 3,6 миллиарда для 20B, что сделало их более эффективными для ресурсов. Оба могут обрабатывать входные контексты до 128 000 токенов, соответствующие новейшим коммерческим моделям, таким как GPT-4O. Также встроена настройка. Разработчики могут тонко настраивать производительность и задержку, используя настройки регулируемых рассуждений-Low, Medium или High-с помощью простых системных подсказок. Эти модели были обучены с использованием обучения подкрепления и других методов, полученных из серии O3 и O4 от Openai. В то время как открытый источник означает большую доступность, OpenAI не игнорировал безопасность. Данные обучения были тщательно отфильтрованы, чтобы исключить контент, связанный с чувствительными угрозами, и модели были точно настроены с помощью методов выравнивания, чтобы помочь им отклонить вредные подсказки. Согласно Эрику Уоллесу из Openai, была проведена состязательная точная настройка для изучения потенциального неправильного использования моделей в контекстах биобезопасности и кибербезопасности. Оценки сторонних экспертов показали, что даже при обширной настройке модели оставались намного ниже порога Openai для опасных возможностей в рамках внутренней рамки готовности. Важно отметить, что Openai оставил неконтролируемую цепью мыслей (COT) нетронутыми в обеих моделях. Это решение было принято для обеспечения прозрачности в отслеживании потенциальной модели плохого поведения и манипуляций, особенно в отличие от более ограниченных запатентованных выпусков. Модели теперь размещены на обнимании лица, готовых к развертыванию. В то время как версия 120B требует настройки GPU премиального класса, модель 20B привносит мощные возможности рассуждений в пределах досягаемости для разработчиков и стартапов, оснащенных высококачественным игровым оборудованием.
Группы: В МИРЕ
На главную


В МИРЕ