Сбер открыл доступ к нейросети для генерации текста на русском языке ruGPT-3.5

Она умеет продолжать тексты на русском и английском языках, а также языках программирования

Абдулла ШАКИРОВ

Сбер открыл доступ к нейросети для генерации текста на русском языке ruGPT-3.5

Фото: Светлана МАКОВЕЕВА. Перейти в Фотобанк КП

Сбербанк открыл доступ к нейросетевой модели для генерации текста для русского языка под названием Russian Generative Pretrained Transformer версии 3.5, или ruGPT-3.5.

Как уточняется в пресс-релизе кредитной организации, имеющемся в распоряжении KP.RU, «дообученная версия» этой нейросети лежит в основе сервиса GigaChat. RuGPT-3.5 13B содержит 13 миллиардов параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования, при этом длина контекста этой модели составляет 2048 токенов.

В Сбере сообщили, что нейросеть обучена на текстовом корпусе размером около 1 Тб, в который вошел большой объем текстовых данных из открытых источников, используемых для обучения ruGPT-3, часть открытого сета с кодом The Stack и корпусы новостных текстов. Внутри GigaChat находится «целый ансамбль моделей», для создания которого нужно было выбрать базовую языковую модель для обучения на инструктивных данных, отмечается в сообщении.

Кроме того, банк выложил расширенную версию модели mGPT 13B, которая стала самой большой из семейства многоязычных моделей Сбера – она способна генерировать тексты на 61 языке, включая языки стран СНГ и малых народов России. Длина контекста этой модели составляет 512 токенов, она обучена на 600 Гб текстов на разных языках, уточнили в Сбере.

И ruGPT-3.5, и mGPT 13B доступны пользователям на депозитарии HuggingFace, а использовать их имеют возможность все разработчики, поскольку обе модели опубликованы под открытой лицензией MIT, разработанной Массачусетским технологическим институтом. Как отметил старший вице-президент и руководитель блока «Технологии» Сбера Андрей Белевцев, публикация новых нейросетевых моделей должна подстегнуть работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, и на их базе буду созданы собственные технологические продукты и решения.