Võtmed kaasavõtmiseks
- Päev läheneb kiiresti, mil te ei suuda arvutiga loodud kõnet tegelikust eristada.
- Google avalikustas hiljuti LaMDA – mudeli, mis võimaldab loomulikumaid vestlusi.
- Inimsarnase kõne tekitamine võtab samuti tohutul hulgal töötlemisvõimsust.
Praegu on arvutiga rääkides lihtne aru saada, kuid see võib peagi muutuda tänu hiljutistele tehisintellekti arengutele.
Google avalikustas hiljuti eksperimentaalse mudeli LaMDA, mis ettevõtte väitel võib suurendada tema vestlusvõimeliste AI-assistentide võimekust ja võimaldada loomulikumaid vestlusi. LaMDA eesmärk on lõpuks normaalselt vestelda peaaegu kõigest ilma igasuguse eelneva koolituseta.
See on üks kasvavatest tehisintellektiprojektidest, mis võib panna teid mõtlema, kas räägite inimesega.
"Minu hinnangul hakkavad kasutajad järgmise 12 kuu jooksul nende uute, emotsionaalsemate häältega kokku puutuma ja nendega harjuma," ütles James Kaplan, vestlusliku tehisintellekti virtuaalse hääleassistendi ja otsingumootori MeetKai tegevjuht. mootor, ütles meiliintervjuus.
"Kui see juhtub, kõlab tänane sünteesitud kõne kasutajatele samamoodi, nagu meile täna kõlab 2000. aastate alguse kõne."
Tegelastega hääleassistendid
Google'i LaMDA põhineb Transformeril, mis on Google Researchi leiutatud närvivõrgu arhitektuur. Erinev alt teistest keelemudelitest oli Google'i LaMDA koolitatud tõeliseks dialoogiks.
Osa loomuliku AI-kõne loomise väljakutsest on vestluste avatud olemus, kirjutas Google'i Eli Collins oma ajaveebipostituses.
"Vestlus sõbraga telesaate teemal võib areneda aruteluks selle riigi üle, kus saade filmiti, enne kui asutakse arutelule selle riigi parimate piirkondlike köökide üle," lisas ta.
Asjad liiguvad robotkõnega kiiresti. Vestluspõhisesse tehisintellekti investeeriva Tsingyuan Venturesi juhtivpartner Eric Rosenblum ütles, et mõned arvutipõhise kõne põhiprobleemid on praktiliselt lahendatud.
Näiteks kõne mõistmise täpsus on juba väga kõrge selliste teenuste puhul nagu Otter.ai tarkvaraga tehtud transkriptsioonid või DeepScribe'i tehtud meditsiinilised märkmed.
"Järgmine piir on aga palju keerulisem," lisas ta.
"Konteksti mõistmise säilitamine, mis on loomulikust keeletöötlusest palju kaugemale ulatuv probleem, ja empaatiavõime, näiteks inimestega suhtlevad arvutid, peavad mõistma frustratsiooni, viha, kannatamatust jne. Mõlema probleemi kallal töötatakse, kuid mõlemad on rahuldavast üsna kaugel."
Närvivõrgud on võti
Elutruu häälte loomiseks kasutavad ettevõtted sellist tehnoloogiat nagu sügavad närvivõrgud, masinõppe vorm, mis klassifitseerib andmeid kihtide kaudu, ütles Matt Muldoon, teksti kõneks kõneks tarkvara arendava ettevõtte ReadSpeaker Põhja-Ameerika president, ütles meiliintervjuus.
"Need kihid viimistlevad signaali, sorteerides selle keerukamatesse klassifikaatoritesse," lisas ta. "Tulemuseks on sünteetiline kõne, mis kõlab kohutav alt nagu inimene."
Teine väljatöötamisel olev tehnoloogia on Prosody Transfer, mis hõlmab ühe tekst-kõneks hääle heli kombineerimist teise kõnestiiliga, ütles Muldoon. Samuti on olemas ülekandeõpe, mis vähendab uue neuraalse teksti kõneks muutmise hääle loomiseks vajalike treeningandmete hulka.
Kaplan ütles, et inimliku kõne loomine nõuab ka tohutult palju töötlemisvõimsust. Ettevõtted töötavad välja närvikiirendite kiipe, mis on kohandatud moodulid, mis töötavad koos tavaliste protsessoritega.
"Selle järgmine etapp on nende kiipide paigutamine väiksemasse riistvarasse, nagu praegu tehakse seda juba kaamerate puhul, kui nägemise jaoks on vaja tehisintellekti," lisas ta. "Ei lähe kaua aega, kui seda tüüpi andmetöötlusvõimalus on saadaval ka kõrvaklappides."
Üks väljakutse AI-põhise kõne arendamiseks on see, et kõik räägivad erinev alt, nii et arvutitel on tavaliselt raske meist aru saada.
"Mõelge Georgia vs Boston vs. North Dakota rõhumärkidele ja sellele, kas inglise keel on teie põhikeel või mitte," ütles Monica Dema, kes töötab ettevõttes MDinc häälotsingu analüütikaga. "Globaalselt mõeldes on seda kulukas teha kõigis Saksamaa, Hiina ja India piirkondades, kuid see ei tähenda, et seda ei tehta või ei saaks teha."