В МГУ НЕЙРОСЕТЬ ОБУЧИЛИ АНАЛИЗУ НАУЧНЫХ ТЕКСТОВ

«Модель показывает высокие значения метрик, имея при этом небольшое количество параметров, а значит, гораздо меньшие требования к вычислительным ресурсам, – прокомментировал руководитель междисциплинарной группы проекта академик Алексей Хохлов. – Данное свойство делает SciRus-tiny эффективной моделью для использования в условиях высокой нагрузки. Разработанная нейросеть ляжет в основу поисково-рекомендательной системы для ученых, тестирование которой начнется уже в начале следующего года».

Также исследователи опубликовали в открытом доступе бенчмарк ruSciBench для оценки эмбеддингов научных текстов, состоящий из 14 задач, выполняемых на почти 400 тыс. параллельных аннотаций на русском и английском языках. Все работы по обучению модели и подготовке бенчмарка были проведены в рамках гранта междисциплинарной научно-образовательной школы МГУ «Математические методы анализа сложных систем» (проект «Разработка математических методов машинного обучения для обработки текстовой научной информации большого объема»). Подробнее о результатах работы можно прочитать на сайте МГУ.

«Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в области эмбеддингов научных текстов выбор не такой широкий, особенно для русского языка. Для английского языка существуют бенчмарк SciDocs и его расширенная версия SciRepEval.

Для русского языка первый бенчмарк ruSciDocs был опубликован нами около года назад вместе с моделью ruSciBERT и состоял из небольшого количества данных на русском языке, которые мы смогли собрать в открытом доступе. В этом году благодаря данным, которые предоставил нам портал eLibrary, мы смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который содержит гораздо большее количество данных по большему числу тематик», – рассказал руководитель лаборатории машинного обучения и семантического анализа Института искусственного интеллекта МГУ, профессор РАН Константин Воронцов.