Võtmed kaasavõtmiseks
- Ettevõtted püüavad leida viise, kuidas muuta arvutiga loodud kõne realistlikumaks.
- NVIDIA avalikustas hiljuti tööriistad, mis suudavad jäädvustada loomuliku kõne heli, võimaldades teil treenida tehisintellekti oma häälega.
- Intonatsioon, emotsioonid ja musikaalsus on need omadused, mis arvutihäältel ikka veel puuduvad, ütleb üks ekspert.
Arvuti loodud kõne võib peagi tunduda inimlikum alt.
Arvutiosade tootja NVIDIA avalikustas hiljuti tööriistad, mis suudavad jäädvustada loomulikku kõnet, võimaldades teil oma häälega tehisintellekti treenida. Tarkvara võib edastada ka ühe kõneleja sõnu, kasutades teise inimese häält. See on osa kasvavast tõukest, mille eesmärk on muuta arvutikõne realistlikumaks.
"Täiustatud hääl-AI-tehnoloogia võimaldab kasutajatel rääkida loomulikult, ühendades paljud päringud ühte lausesse ja kaotades vajaduse algse päringu üksikasju pidev alt korrata, " kõnetuvastusettevõtte SoundHoundi tegevjuht Michael Zagorsek, ütles Lifewire'ile antud meiliintervjuus.
"Mitme keele lisamine, mis on nüüd saadaval enamikul kõne-AI-platvormidel, muudab digitaalsed häälassistendid kättesaadavaks rohkemates geograafilistes piirkondades ja suurema hulga elanikkonna jaoks," lisas ta.
Robospeech Rising
Amazoni Alexa ja Apple'i Siri kõlavad palju paremini kui kümne aasta tagune arvutikõne, kuid neid ei peeta niipea autentsete inimhäältega segi.
Kunstkõne loomulikumaks muutmiseks töötas NVIDIA teksti kõneks muutmise uurimisrühm välja RAD-TTS mudeli. Süsteem võimaldab inimestel õpetada kõneks muutmise (TTS) mudelit oma häälega, sealhulgas rütmi, tonaalsust, tämbrit ja muid tegureid.
Ettevõte kasutas oma uut mudelit, et luua oma I Am AI videoseeria jaoks rohkem vestluskõlalist hääljutustust.
Selle liidese abil saab meie videoprodutsent salvestada end lugemas video stsenaariumi ja seejärel kasutada tehisintellekti mudelit, et muuta oma kõne naisjutustaja hääleks. Seda algjutustust kasutades saab produtsent seejärel AI-d suunata nagu häälnäitleja kohandab sünteesitud kõnet, et rõhutada konkreetseid sõnu ja muudab jutustamise tempot, et videot paremini väljendada,“kirjutas NVIDIA oma veebisaidil.
Kõvam, kui see kõlab
Arvuti loodud kõne loomulikuks muutmine on asjatundjate sõnul keeruline probleem.
"Selle arvutiversiooni loomiseks peate salvestama sadu tunde kellegi häält, " ütles kõneks kõneks mõeldud tarkvarafirma Kukarella tegevjuht Nazim Ragimov Lifewire'ile antud meiliintervjuus. «Ja salvestus peab olema kvaliteetne, salvestatud professionaalses stuudios. Mida rohkem tunde kvaliteetset kõnet laaditakse ja töödeldakse, seda parem on tulemus."
Tekst kõneks muutmist saab kasutada mängudes, häälepuudega inimeste abistamiseks või kasutajatel oma häälega keelte vahel tõlkimisel.
Intonatsioon, emotsioonid ja musikaalsus on omadused, mis arvutihäältel ikka veel puuduvad, ütles Ragimov.
Kui tehisintellekt suudab need puuduvad lingid lisada, on arvutiga loodud kõne "tõeliste näitlejate häältest eristamatu", lisas ta. "See on pooleli. Teised hääled saavad raadiosaatejuhtidega konkureerida. Varsti näete hääli, mis oskavad laulda ja audioraamatuid lugeda."
Kõnetehnoloogia muutub paljudes ettevõtetes populaarsemaks.
"Autotööstus on hiljuti hääl-AI kasutusele võtnud, et luua turvalisemaid ja paremini ühendatud sõidukogemusi," ütles Zagorsek.
"Sellest ajast alates on häälassistendid muutunud üha üldlevinud, kuna kaubamärgid otsivad viise, kuidas parandada klientide kogemusi ja vastata nõudlusele lihtsamate, ohutumate, mugavamate, tõhusamate ja hügieenilisemate meetodite järele oma toodete ja teenustega suhtlemiseks."
Tavaliselt teisendab hääl-AI päringud vastusteks kaheetapilise protsessi käigus, mis algab kõne transkribeerimisega tekstiks automaatse kõnetuvastuse (ASR) abil ja seejärel sisestab selle teksti loomuliku keele mõistmise (NLU) mudelisse.
SoundHoundi lähenemisviis ühendab need kaks etappi üheks protsessiks, et jälgida kõnet reaalajas. Ettevõte väidab, et see meetod võimaldab hääleassistentidel mõista kasutaja päringute tähendust isegi enne, kui inimene on rääkimise lõpetanud.
Tulevased edusammud arvutikõnes, sealhulgas mitmesuguste ühenduvusvõimaluste kättesaadavus alates ainult manustatud (pole vaja pilveühendust) kuni hübriidideni (manustatud pluss pilv) ja ainult pilvega "annavad ettevõtetele erinevates tööstusharudes rohkem valikuvõimalusi kulude, privaatsuse ja töötlemisvõimsuse kättesaadavuse osas," ütles Zagoresk.
NVIDIA ütles, et tema uudiste tehisintellekti mudelid ulatuvad kaugemale häälesaadetest.
"Tekst kõneks muutmist saab kasutada mängudes, häälepuudega inimeste abistamiseks või kasutajatel oma häälega keelte vahel tõlkimisel," kirjutas ettevõte. "See võib isegi taasluua ikooniliste lauljate esitused, sobitades mitte ainult laulu meloodiaga, vaid ka vokaali taga oleva emotsionaalse väljendusega."