Специально для «НГ-науки» нейросеть Сбера Kandinsky 2.0 сгенерировала визуальный образ FRED-T5. Иллюстрация SberDevices
Языковая программная модель FRED-T5 (Full-scale Russian Enhanced Denoisers T5) признана наиболее близкой к возможностям человека по качеству понимания смысла русского текста. Такие результаты показали тесты лидерборда Russian SuperGLUE – главного русскоязычного бенчмарка для оценки больших языковых моделей. По итогам испытаний FRED-T5, разработанная Сбером и SberDevices, с существенным отрывом обошла другие представленные на лидерборде модели для русского языка, многие из которых больше лидера по размеру. Оставить конкурентов позади FRED-T5 удалось благодаря усовершенствованиям в архитектуре и методах обучения.
Сбер имеет большой опыт создания языковых моделей трансформерного типа – одной из самых эффективных на данный момент нейросетевых архитектур. В частности, в 2019 году были обучены русскоязычные модели ruBERT и ruGPT-2, а год спустя с помощью Christofari – суперкомпьютера Сбера, одним из основных предназначений которого является как раз обучение нейросетей на гигантском массиве данных – разработана ruGPT-3. Самый большой вариант данной модели насчитывает 13 млрд параметров.
В то время как модели семейства GPT состоят только из декодирующих блоков, FRED-T5 содержит также кодирующие блоки. Это позволяет гораздо эффективнее решать различные задачи в области обработки естественного языка. Архитектурно модель реализована на базе трансформера T5, имеет 1,7 млрд параметров и 24 слоя. Во время обучения, происходившего на суперкомпьютере Christofari Neo, модель решала задачи восстановления случайно удаленных фрагментов текста. Процесс занял шесть недель, обучающая выборка содержала около 300 ГБ текста.
Такой подход специалисты по автоматической обработке естественного языка называют MoD – Mixture of Denoisers. Ранее он был реализован командой Google в модели UL2. Разработчики FRED-T5 применили его с рядом существенных изменений, основанных на результатах собственных исследований.
«Ведущие исследовательские центры в области машинного обучения в последние годы создают все более и более крупные нейронные языковые модели. Количество параметров самых больших монолитных нейросетей уже перевалило за 500 млрд и продолжает расти. Это беспрецедентные в истории человечества вычислительные проекты», – отметил директор управления экспериментальных систем машинного обучения SberDevices Сергей Марков.
Однако, по его словам, прогресс заключается не только в создании все более огромных «нейросетевых монстров», но и в совершенствовании архитектур сетей и методов их обучения. «Благодаря этому самые современные модели при том же количестве параметров интеллектуально превосходят своих предшественников. Хорошим примером этого эффекта является нейросеть FRED-T5, которая при сравнительно скромном по нынешним меркам числе параметров стала лидером в понимании русского языка», – подчеркнул Сергей Марков.
Это подтверждается итогами тестирования, проведенного Russian SuperGLUE (General Language Understanding Evaluation) – открытым проектом исследователей данных, работающих с русскоязычными нейросетями. Команда проекта разработала методологию сравнения и оценки множества современных языковых моделей – BERT, ELMo, XLNet, RoBERTa и др. Специалистами впервые подготовлен полный тест для русского языка, аналогичный англоязычному бенчмарку, и также впервые представлен лидерборд моделей для русского языка с сопоставимыми результатами. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. FRED-T5 стала лучшей моделью по пониманию русского текста, уступив в точности только человеку.