Новосибирские разработчики научили ИИ кратко пересказывать научные статьи

Первый датасет для пересказа научных статей создала выпускница Новосибирского госуниверситета Алена Цанда. Девушка уже протестировала на нем языковые модели. Это первая система для работы с русскоязычными научными статьями, которые размещены в открытом доступе. 

Особенность системы – ее мультимодальность. Искусственный интеллект может анализировать не только тексты статей, аннотации к ним, а также таблицы и рисунки с описаниями. 

По мнению разработчицы, задача краткого пересказа статей становится все более актуальной в связи в растущим объемом информации во всемирной сети. Сейчас в датасете собрано и обработано уже 480 работ. 

В перспективе исследовательница собирается научить ИИ пересказывать статьи по математике и физике  – трудность заключается в большом количестве формул.