Mašina kalba: kaip "Siri" susitvarko savo balsą?
Makradar Technologijos / / December 19, 2019
"Google", "Apple", "Microsoft", ir net "Amazon" yra aktyviai plėtoti savo balso paslaugas. Šviežiai kepta ant iOS 7 yra tas pats "Siri", tik naujų funkcijų ir... balsas. Ar jums įdomu, kaip tai procesas? Kaip kompiuteriai yra mokomi kalbos? tai tikras menas.
Už kiekvienas balsas Siri - Jūsų aktorius. Kai ji baigė savo vaidmenį artikuliacijos, darbas dar tik prasidėjo... Žmogus balsas tęsia savo kelionę. Šio kelionę istorija, tiek vyro ir robotas - vienas iš labiausiai sudėtingų technologinių procesų, kurių nebuvo galima atliekamas prieš dešimt metų.
Susipažinkime su projektavimo ir tobulinimo balso Nuance direktorių, ji yra viena iš didžiausių nepriklausomų kompanijų pasaulyje, susijusių su kalbos atpažinimo ir teksto į kalbą. Brant Ward (J. Brant Ward), naudojami būti kompozitorius, komponuoti vakarėlį styginių kvartetams ir sintezatorių, ir dabar jis komponuoja jį naudojant sintetinį balsus. Jis dirba kalbos sintezės pramonės Silicio slėnyje, daugiau nei dešimtmetį.
Tekstas į kalbą - labai konkurencinga pramonė, ir jos darbuotojams yra labai slaptos. Nors pasaulyje ir mano, kad "Nuance sukuria Siri balso Ward ir jo kolega Davidas Vasquez (Davidas Vazquez) būtų išvengta tiesioginio atsakymo. Nepaisant to, jie sutiko paaiškinti, bent jau bendrais bruožais, kaip sukurti nuostabų mašinos balsų procesas.
Nereikia nė sakyti, nereikia ištarti ir rašyti kiekvieną žodį iš žodyno. Bet kai jis ateina į taikymo, kuris turėtų būti skaityti bet kokią naujieną savo biuletenį, arba rasti kažką už jus internete, ji tiesiog privalo kalbėti kiekvieną žodį žodyne.
Dauguma pasiūlymų yra pasirinktas dėl "turto fonetikos" - tai yra, jos yra daug skirtingų kombinacijų fonemas. "Iš tiesų, tuo daugiau duomenų turime, tuo realesnis rezultatas bus", - sako Ward.
Po teksto įrašomas gyvai balso aktorius (nuobodų procesą, kuris gali užtrukti kelis mėnesius), labai sunkus darbas prasideda. Žodžiai ir sakiniai yra analizuojami, padalintas pagal kategorijas ir įrašyti didelės duomenų bazės. Šioje sudėtingoje darbo dalyvavo dedikuoti kalbininkams komandą, taip pat naudoti savo kalbinę programinę įrangą.
Kai visa tai bus padaryta, kad Nuance vienetas išversti tekstą į kalbą sukuria bitų žodžius ir frazes, kad aktorius gali Aš niekada iš tikrųjų ištarė, bet tai skamba labai panašus į aktorių kalbos, nes techniškai jis yra balsas aktorius.
Procesas kalbėjimo yra be sąmonės. Mes tai padaryti negalvodami apie tai, kaip vyksta šis procesas: situacija, kurioje yra mūsų kalba, kuri santykiai yra pastatytas tarp fonemų, ir taip toliau - lengvai ir efektyviai išreikšti sudėtingas idėjas ir emocijas. Tačiau tam, kad kompiuteris pakėlė žmogaus balsus garsą, turi būti atsižvelgta į visus šiuos veiksnius. Kaip vienas profesorius lingvistikos, yra užduotis "Titanikas".
Jūs neturėtumėte galvoti: "Aš kalbu su kompiuteriu." Jūs paprastai nereikia apie tai galvoti.
"Mano vaikai bendrauja su ir Siri, kaip jei ji buvo gyvas padaras... Jie nejaučia skirtumo", - sako Ward.
Iki šiol, ir tarp žmonių ir robotai draugystei - pavyzdžiui, žmonėms. Daugelis žmonių norėtų, jei "Siri" gali atpažinti emocinę būklę garsiakalbio, ir kažkaip reaguoti į jį (pavyzdžiui, apima raminančią balso režimas). Įsivaizduokite - kalbėti robotas, kuris yra morališkai paglostymą jums ant galvos. Galbūt, "Nuance jau galvoja apie tai, ...