Kandinsky 2.0 — первая мультиязычная диффузия для генерации изображений по тексту

Среда, 23 Ноября 2022 г. 17:30 + в цитатник

Диффузия всё увереннее вытесняет GANы и авторегрессионные модели в ряде задач цифровой обработки изображений. Это не удивительно, ведь диффузия обучается проще, не требует сложного подбора гиперпараметров, min-max оптимизации и не страдает нестабильностью обучения. А главное, диффузионные модели демонстрируют state-of-the-art результаты почти на всех генеративных задачах — генерации картинок по тексту, генерация звуков, видео и даже 3D!

К сожалению, большинство работ в области text-to-something сосредоточены только на английском и китайском языках. Чтобы исправить эту несправедливость, мы решили создать мультиязычную text-to-image диффузионную модель Kandinsky 2.0, которая понимает запросы более чем на 100 языках! И главное, на русском ;) Подробности — под катом.

https://habr.com/ru/post/701162/?utm_source=habrahabr&utm_medium=rss&utm_campaign=701162

<a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post496584910/">Kandinsky 2.0 вЂ” РїРµСЂРІР°СЏ РјСѓР»СЊС‚РёСЏР·С‹С‡РЅР°СЏ РґРёС„С„СѓР·РёСЏ РґР»СЏ РіРµРЅРµСЂР°С†РёРё РёР·РѕР±СЂР°Р¶РµРЅРёР№ РїРѕ С‚РµРєСЃС‚Сѓ</a><br/>Р”РёС„С„СѓР·РёСЏ РІСЃС‘ СѓРІРµСЂРµРЅРЅРµРµ РІС‹С‚РµСЃРЅСЏРµС‚ GANС‹ Рё Р°РІС‚РѕСЂРµРіСЂРµСЃСЃРёРѕРЅРЅС‹Рµ РјРѕРґРµР»Рё РІ СЂСЏРґРµ Р·Р°РґР°С‡ С†РёС„СЂРѕРІРѕР№ РѕР±СЂР°Р±РѕС‚РєРё РёР·РѕР±СЂР°Р¶РµРЅРёР№. РС‚Рѕ РЅРµ СѓРґРёРІРёС‚РµР»СЊРЅРѕ, РІРµРґСЊ РґРёС„С„СѓР·РёСЏ РѕР±СѓС‡Р°РµС‚СЃСЏ РїСЂРѕС‰Рµ, РЅРµ С‚СЂРµР±СѓРµС‚ СЃР»РѕР¶РЅРѕРіРѕ РїРѕРґР±РѕСЂР° РіРёРїРµСЂРїР°СЂР°РјРµС‚СЂРѕРІ, min-max РѕРїС‚РёРјРёР·Р°С†РёРё Рё РЅРµ СЃС‚СЂР°РґР°РµС‚ РЅРµСЃС‚Р°Р±РёР»СЊРЅРѕСЃС‚СЊСЋ РѕР±СѓС‡РµРЅРёСЏ. Рђ РіР»Р°РІРЅРѕРµ, РґРёС„С„СѓР·РёРѕРЅРЅС‹Рµ РјРѕРґРµР»Рё РґРµРјРѕРЅСЃС‚СЂРёСЂСѓСЋС‚ state-of-the-art СЂРµР·СѓР»СЊС‚Р°С‚С‹ РїРѕС‡С‚Рё РЅР° РІСЃРµС… РіРµРЅРµСЂР°С‚РёРІРЅС‹С… Р·Р°РґР°С‡Р°С… вЂ” РіРµРЅРµСЂР°С†РёРё РєР°СЂС‚РёРЅРѕРє РїРѕ С‚РµРєСЃС‚Сѓ, РіРµРЅРµСЂР°С†РёСЏ Р·РІСѓРєРѕРІ, РІРёРґРµРѕ Рё РґР°Р¶Рµ 3D!Рљ СЃРѕР¶Р°Р»РµРЅРёСЋ, Р±РѕР»СЊС€РёРЅСЃС‚РІРѕ СЂР°Р±РѕС‚ РІ РѕР±Р»Р°СЃС‚Рё text-to-something СЃРѕСЃСЂРµРґРѕС‚РѕС‡РµРЅС‹ С‚РѕР»СЊРєРѕ РЅР° Р°РЅРіР»РёР№СЃРєРѕРј Рё РєРёС‚Р°Р№СЃРєРѕРј СЏР·С‹РєР°С…. Р§С‚РѕР±С‹ РёСЃРїСЂР°РІРёС‚СЊ СЌС‚Сѓ РЅРµСЃРїСЂР°РІРµРґР»РёРІРѕСЃС‚СЊ, РјС‹ СЂРµС€РёР»... <a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post496584910/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Поиск по дневнику

-Подписка по e-mail

-Статистика

Kandinsky 2.0 — первая мультиязычная диффузия для генерации изображений по тексту