„Google“ pristatė „Imagen“ neuroninį tinklą
įvairenybės / / May 24, 2022
Ir tai daro bent taip gerai, kaip DALL-E 2.
Google paskelbė „Imagen“ yra neuroninis tinklas, kuris tekstinę užklausą paverčia vaizdais. Tai tiesioginis konkurentas DALL-E2 iš OpenAI – kuri kai kuriais atvejais veikia dar geriau.
Tekstinei užklausai atpažinti neuroninis tinklas naudoja didelius kalbos modelius – jais remiasi ir natūralūs kalbos apdorojimo algoritmai, tokie kaip GPT-3.
Sistema veikia trimis etapais. Pirmasis nupiešia nedidelį 64 x 64 pikselių vaizdą, kuris tobulinamas tol, kol neuroninis tinklas gali jį pakeisti, kad geriau atitiktų pradinę užklausą. Tada vaizdas padidinamas iki 256 x 256 pikselių, o „Imagen“ patikslina detales. Trečiame etape tas pats kartojamas jau su galutinio dydžio drobe - 1024 x 1024 pikseliai.
Tyrimo tekste pažymima, kad „Imagen“ geriau nei „DALL-E 2“ supranta sudėtingas užklausas. Pavyzdžiui, pagal užklausą „Panda gamina latte art“ DALL-E 2 pateikė tik latte art su pandomis, o „Google“ neuroninis tinklas sugebėjo pateikti dažniausiai teisingus rezultatus:
Tačiau „Google“ taip pat pripažįsta, kad nė vienas iš šių neuroninių tinklų negalėjo susidoroti su užklausa „jodinėjantis astronautas“: abu atkakliai pasodina astronautą ant žirgo, o ne atvirkščiai. Akivaizdu, kad abu turi kur augti.
Nepriklausomų žiūrovų vertinimo rezultatai rodo, kad „Imagen“ lenkia DALL-E 2 tikslumu ir tinkamumu. Ir nors šį palyginimą galima laikyti subjektyviu, tokie rezultatai vis tiek įspūdingi, turint omenyje tai DALL-E 2 iki šiol buvo nepasiekiamas idealas, kuriam negalėjo prilygti kiti panašaus pobūdžio neuroniniai tinklai. Kelionės tikslas.
Bet kokiu atveju „Imagen“ kol kas išlieka eksperimentiniu projektu, kurio paprasti vartotojai negali pasiekti. Neaišku, kiek užtruks, kol „Google“ sukurs jos pagrindu atviros prieigos paslaugą.
Taip pat skaitykite🧐
- Naujasis neuroninis tinklas Paint Transformer paverčia nuotrauką tapybos objektu
- Ateities polaroidas: naujasis NVIDIA neuroninis tinklas 2D vaizdus paverčia 3D modeliais
- Sber paleido ruDALL-E neuroninį tinklą, kuris generuoja vaizdus pagal aprašymą
Geriausias savaitės pasiūlymas: AliExpress, Lamoda, Mixit ir kitų parduotuvių nuolaidos