Kandinsky 2.0 — первая мультиязычная диффузия для генерации изображений по тексту |
Диффузия всё увереннее вытесняет GANы и авторегрессионные модели в ряде задач цифровой обработки изображений. Это не удивительно, ведь диффузия обучается проще, не требует сложного подбора гиперпараметров, min-max оптимизации и не страдает нестабильностью обучения. А главное, диффузионные модели демонстрируют state-of-the-art результаты почти на всех генеративных задачах — генерации картинок по тексту, генерация звуков, видео и даже 3D!
К сожалению, большинство работ в области text-to-something сосредоточены только на английском и китайском языках. Чтобы исправить эту несправедливость, мы решили создать мультиязычную text-to-image диффузионную модель Kandinsky 2.0, которая понимает запросы более чем на 100 языках! И главное, на русском ;) Подробности — под катом.
Читать далееhttps://habr.com/ru/post/701162/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701162
Комментировать | « Пред. запись — К дневнику — След. запись » | Страницы: [1] [Новые] |