0
7125
Газета Экономика Печатная версия

21.02.2023 17:05:00

Нейросеть Сбера сдала экзамен по русскому на отлично

По результатам независимого тестирования языковая модель FRED-T5 оставила конкурентов далеко позади

Тэги: сбер, нейросеть, языковая программная модель, русский язык


сбер, нейросеть, языковая программная модель, русский язык Специально для «НГ-науки» нейросеть Сбера Kandinsky 2.0 сгенерировала визуальный образ FRED-T5. Иллюстрация SberDevices

Языковая программная модель FRED-T5 (Full-scale Russian Enhanced Denoisers T5) признана наиболее близкой к возможностям человека по качеству понимания смысла русского текста. Такие результаты показали тесты лидерборда Russian SuperGLUE – главного русскоязычного бенчмарка для оценки больших языковых моделей. По итогам испытаний FRED-T5, разработанная Сбером и SberDevices, с существенным отрывом обошла другие представленные на лидерборде модели для русского языка, многие из которых больше лидера по размеру. Оставить конкурентов позади FRED-T5 удалось благодаря усовершенствованиям в архитектуре и методах обучения.

Сбер имеет большой опыт создания языковых моделей трансформерного типа – одной из самых эффективных на данный момент нейросетевых архитектур. В частности, в 2019 году были обучены русскоязычные модели ruBERT и ruGPT-2, а год спустя с помощью Christofari – суперкомпьютера Сбера, одним из основных предназначений которого является как раз обучение нейросетей на гигантском массиве данных – разработана ruGPT-3. Самый большой вариант данной модели насчитывает 13 млрд параметров.

В то время как модели семейства GPT состоят только из декодирующих блоков, FRED-T5 содержит также кодирующие блоки. Это позволяет гораздо эффективнее решать различные задачи в области обработки естественного языка. Архитектурно модель реализована на базе трансформера T5, имеет 1,7 млрд параметров и 24 слоя. Во время обучения, происходившего на суперкомпьютере Christofari Neo, модель решала задачи восстановления случайно удаленных фрагментов текста. Процесс занял шесть недель, обучающая выборка содержала около 300 ГБ текста.

Такой подход специалисты по автоматической обработке естественного языка называют MoD – Mixture of Denoisers. Ранее он был реализован командой Google в модели UL2. Разработчики FRED-T5 применили его с рядом существенных изменений, основанных на результатах собственных исследований.

«Ведущие исследовательские центры в области машинного обучения в последние годы создают все более и более крупные нейронные языковые модели. Количество параметров самых больших монолитных нейросетей уже перевалило за 500 млрд и продолжает расти. Это беспрецедентные в истории человечества вычислительные проекты», – отметил директор управления экспериментальных систем машинного обучения SberDevices Сергей Марков.

Однако, по его словам, прогресс заключается не только в создании все более огромных «нейросетевых монстров», но и в совершенствовании архитектур сетей и методов их обучения. «Благодаря этому самые современные модели при том же количестве параметров интеллектуально превосходят своих предшественников. Хорошим примером этого эффекта является нейросеть FRED-T5, которая при сравнительно скромном по нынешним меркам числе параметров стала лидером в понимании русского языка», – подчеркнул Сергей Марков.

Это подтверждается итогами тестирования, проведенного Russian SuperGLUE (General Language Understanding Evaluation) – открытым проектом исследователей данных, работающих с русскоязычными нейросетями. Команда проекта разработала методологию сравнения и оценки множества современных языковых моделей – BERT, ELMo, XLNet, RoBERTa и др. Специалистами впервые подготовлен полный тест для русского языка, аналогичный англоязычному бенчмарку, и также впервые представлен лидерборд моделей для русского языка с сопоставимыми результатами. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. FRED-T5 стала лучшей моделью по пониманию русского текста, уступив в точности только человеку. 


Читайте также


Технология XXI века: эксперты обсудили принципы обучения робототехнике

Технология XXI века: эксперты обсудили принципы обучения робототехнике

Владимир Полканов

0
1028
Мигрантов ставят во все более жесткие условия

Мигрантов ставят во все более жесткие условия

Екатерина Трифонова

Проверки по русскому языку пока не касаются новоиспеченных граждан РФ

0
3286
Путин расширяет границы ядерного сдерживания...

Путин расширяет границы ядерного сдерживания...

Иван Родин

Бывшим соседям по СССР показывают разные способы "дружбы народов"

0
5886
Умные решения для умного дома

Умные решения для умного дома

Виталий Барсуков

В холодное время года можно с комфортом экономить на отоплении

0
20341

Другие новости