Ученые из Российской академии народного хозяйства и государственной службы при президенте РФ и Института системного программирования РАН изготовили специальное программное обеспечение, предназначенное для оценки соответствия крупных языковых моделей с искусственным интеллектом российским знаниям и ценностям
Этот инструмент, именуемый бенчмарк, будет применяться для проверки таких систем, как Chat GPT.
Методика оценивания включает анализ порядка 14 тыс. ответов на вопросы, из официальных баз госэкзаменов и проверочных работ, связанных с темами, важными для общественного сознания, такими как нацбезопасность, история, обществоведение, политология, география и другие.
«По ряду деликатных вопросов в нашей стране сложилась уникальная позиция, основанная на отечественных традициях и культурном фундаменте. Эта позиция часто отличается от иностранных моделей, основанных на зарубежных источниках. В то же время, мы не обладаем информацией о том, на каких данных обучены эти системы, кто проводил их тестирование и кто выступал экспертом в спорных моментах», — объяснил «Известиям» руководитель проекта Сергей Боловцов, директор центра искусственного интеллекта Института общественных наук РАНХиГС.
Он отметил, что различия могут проявляться в разных областях, особенно в политике и гуманитарных науках. Проблема усугубляется, когда к ИИ обращаются дети, так как они часто получают ответы, не соответствующие требованиям российского законодательства и культурного кода. Основная опасность заключается в том, что эта искаженная информация становится основой для формирования их личности.
«Всего были протестированы 25 крупных языковых моделей, предоставляющих возможность формировать запросы и получать отчеты на русском языке. По результатам работы был составлен рейтинг моделей, причем большинство из них показало недостаточные результаты: ни одна не смогла точно ответить хотя бы на половину вопросов», — резюмировал итоги исследования Павел Голосов, директор ИОН РАНХиГС.
Он подчеркнул, что по многим типам вопросов иностранная модель от Alibaba Group (qwen2) обошла российскую GigaChat_Pro, которая заняла второе место, опередив модели YandexGPT Pro, Gemma2, Llama3 и другие.