Varsti te ei pruugi teadagi, et räägite arvutiga

👤 Autor Abigail Brown 📧 [email protected].
⏱ Public 2023-12-17 06:45.
🖍 Viimati modifitseeritud 2025-06-01 07:16.

Võtmed kaasavõtmiseks

Päev läheneb kiiresti, mil te ei suuda arvutiga loodud kõnet tegelikust eristada.
Google avalikustas hiljuti LaMDA - mudeli, mis võimaldab loomulikumaid vestlusi.
Inimsarnase kõne tekitamine võtab samuti tohutul hulgal töötlemisvõimsust.

Praegu on arvutiga rääkides lihtne aru saada, kuid see võib peagi muutuda tänu hiljutistele tehisintellekti arengutele.

Google avalikustas hiljuti eksperimentaalse mudeli LaMDA, mis ettevõtte väitel võib suurendada tema vestlusvõimeliste AI-assistentide võimekust ja võimaldada loomulikumaid vestlusi. LaMDA eesmärk on lõpuks normaalselt vestelda peaaegu kõigest ilma igasuguse eelneva koolituseta.

See on üks kasvavatest tehisintellektiprojektidest, mis võib panna teid mõtlema, kas räägite inimesega.

"Minu hinnangul hakkavad kasutajad järgmise 12 kuu jooksul nende uute, emotsionaalsemate häältega kokku puutuma ja nendega harjuma," ütles James Kaplan, vestlusliku tehisintellekti virtuaalse hääleassistendi ja otsingumootori MeetKai tegevjuht. mootor, ütles meiliintervjuus.

"Kui see juhtub, kõlab tänane sünteesitud kõne kasutajatele samamoodi, nagu meile täna kõlab 2000. aastate alguse kõne."

Tegelastega hääleassistendid

Google'i LaMDA põhineb Transformeril, mis on Google Researchi leiutatud närvivõrgu arhitektuur. Erinev alt teistest keelemudelitest oli Google'i LaMDA koolitatud tõeliseks dialoogiks.

Osa loomuliku AI-kõne loomise väljakutsest on vestluste avatud olemus, kirjutas Google'i Eli Collins oma ajaveebipostituses.

"Vestlus sõbraga telesaate teemal võib areneda aruteluks selle riigi üle, kus saade filmiti, enne kui asutakse arutelule selle riigi parimate piirkondlike köökide üle," lisas ta.

Asjad liiguvad robotkõnega kiiresti. Vestluspõhisesse tehisintellekti investeeriva Tsingyuan Venturesi juhtivpartner Eric Rosenblum ütles, et mõned arvutipõhise kõne põhiprobleemid on praktiliselt lahendatud.

Näiteks kõne mõistmise täpsus on juba väga kõrge selliste teenuste puhul nagu Otter.ai tarkvaraga tehtud transkriptsioonid või DeepScribe'i tehtud meditsiinilised märkmed.

"Järgmine piir on aga palju keerulisem," lisas ta.

"Konteksti mõistmise säilitamine, mis on loomulikust keeletöötlusest palju kaugemale ulatuv probleem, ja empaatiavõime, näiteks inimestega suhtlevad arvutid, peavad mõistma frustratsiooni, viha, kannatamatust jne. Mõlema probleemi kallal töötatakse, kuid mõlemad on rahuldavast üsna kaugel."

Närvivõrgud on võti

Elutruu häälte loomiseks kasutavad ettevõtted sellist tehnoloogiat nagu sügavad närvivõrgud, masinõppe vorm, mis klassifitseerib andmeid kihtide kaudu, ütles Matt Muldoon, teksti kõneks kõneks tarkvara arendava ettevõtte ReadSpeaker Põhja-Ameerika president, ütles meiliintervjuus.

"Need kihid viimistlevad signaali, sorteerides selle keerukamatesse klassifikaatoritesse," lisas ta. "Tulemuseks on sünteetiline kõne, mis kõlab kohutav alt nagu inimene."

Teine väljatöötamisel olev tehnoloogia on Prosody Transfer, mis hõlmab ühe tekst-kõneks hääle heli kombineerimist teise kõnestiiliga, ütles Muldoon. Samuti on olemas ülekandeõpe, mis vähendab uue neuraalse teksti kõneks muutmise hääle loomiseks vajalike treeningandmete hulka.

Kaplan ütles, et inimliku kõne loomine nõuab ka tohutult palju töötlemisvõimsust. Ettevõtted töötavad välja närvikiirendite kiipe, mis on kohandatud moodulid, mis töötavad koos tavaliste protsessoritega.

"Selle järgmine etapp on nende kiipide paigutamine väiksemasse riistvarasse, nagu praegu tehakse seda juba kaamerate puhul, kui nägemise jaoks on vaja tehisintellekti," lisas ta. "Ei lähe kaua aega, kui seda tüüpi andmetöötlusvõimalus on saadaval ka kõrvaklappides."

Üks väljakutse AI-põhise kõne arendamiseks on see, et kõik räägivad erinev alt, nii et arvutitel on tavaliselt raske meist aru saada.

"Mõelge Georgia vs Boston vs. North Dakota rõhumärkidele ja sellele, kas inglise keel on teie põhikeel või mitte," ütles Monica Dema, kes töötab ettevõttes MDinc häälotsingu analüütikaga. "Globaalselt mõeldes on seda kulukas teha kõigis Saksamaa, Hiina ja India piirkondades, kuid see ei tähenda, et seda ei tehta või ei saaks teha."

Soovitan:

Varsti te ei pruugi teadagi, et räägite arvutiga

Sisukord:

Võtmed kaasavõtmiseks

Tegelastega hääleassistendid

Närvivõrgud on võti

Soovitan:

Sony PlayStation võib varsti teie telefoni jaoks rohkem häid mänge turule tuua

Varsti saate ühe pilguga välja valida hea mängumonitori

Teie lemmikautofunktsioonid võivad varsti nõuda tellimust

Teie kodu aknad võivad varsti toota puhast energiat

Teie Oculuse VR-peakomplekt kuulab nüüd, kui räägite

Linksysi vaikeparoolide loend (värskendatud 2022. aasta septembris)

Cisco vaikeparoolide loend (värskendatud 2022. aasta septembris)

NETGEARi vaikeparoolide loend (värskendatud 2022. aasta septembris)

Livedrive'i ülevaade (värskendatud 2022. aasta septembriks)

Zoolzi ülevaade (värskendatud 2022. aasta septembriks)

Miks peavad meie vidinad meile rohkem teavet andma

TCL-i uus eelarvega 5G-telefon võimaldab teil seda kritseldada

Kuidas näha Spotifys oma parimaid artiste

Kuidas kasutada oma Maci Apple TV Bluetoothi klaviatuurina

Madala hinnaga andurid võivad aidata jälgida õhusaastet

Apple'i kaardimakseteenus ei tööta

Kuidas MP4-sid iPhone'i alla laadida ja salvestada

Kuidas ühendada Surface sülearvuti monitoriga

Flexispoti Theodore'i kirjutuslaud annab mulle võimaluse töötamise ajal seista

Kuidas lisada PDF-faili teksti