«Яндекс» представил обновленную нейросеть YandexART 1.3

Технология латентной диффузии создает промежуточное представление изображения в формате латентного кода. Это компактное описание с основными данными об изображении в сжатом формате. После этого нейросеть в один шаг разворачивает код в полноценное изображение высокого разрешения. Как отмечают в компании, данный метод эффективнее многоэтапного уточнения картинки в каскадной диффузии.

Также «Яндекс» увеличил датасет, на котором обучалась нейросеть, в два с половиной раза. В него добавили синтетические тесты. Сам набор данных был увеличен до более чем 850 миллионов пар картинок с текстом.

Для того чтобы YandexART учитывала больше деталей из промта, в новой модели используются не один, а два текстовых энкодера, с помощью которых модель переводит текстовый запрос.

Также теперь с помощью YandexART можно создавать картинки в разных форматах: 16:9, 4:3 или 3:4. Обновление уже действует в «Шедевруме», вскоре оно появится и в других сервисах компании.