AI saab nüüd teie videotest aru, neid vaadates

Sisukord:

AI saab nüüd teie videotest aru, neid vaadates
AI saab nüüd teie videotest aru, neid vaadates
Anonim

Võtmed kaasavõtmiseks

  • Teadlased ütlevad, et nad saavad õpetada tehisintellekti videoid sildistama, vaadates ja kuulates.
  • AI-süsteem õpib andmeid esitama, et jäädvustada visuaalsete ja heliandmete vahel jagatud mõisteid.
  • See on osa püüdest õpetada tehisintellekti mõistma mõisteid, mille õppimisega inimestel pole probleeme, kuid mida arvutitel on raske mõista.

Image
Image

Uus tehisintellekti süsteem (AI) saaks vaadata ja kuulata teie videoid ning sildistada toimuvaid asju.

MIT-i teadlased on välja töötanud tehnika, mis õpetab tehisintellekti jäädvustama video ja heli vahel jagatud toiminguid. Näiteks võib nende meetod mõista, et beebi nututegu videos on seotud heliklipis öeldud sõnaga "nutt". See on osa püüdest õpetada tehisintellekti mõistma mõisteid, mille õppimisega inimestel pole probleeme, kuid mida arvutitel on raske mõista.

"Valdav õppimise paradigma, juhendatud õpe, töötab hästi, kui teil on hästi kirjeldatud ja täielikud andmestikud," ütles AI-ekspert Phil Winder meiliintervjuus Lifewire'ile. "Kahjuks on andmestikud harva täielikud, kuna reaalses maailmas on halb komme uusi olukordi esitada."

Targem AI

Arvutitel on raskusi igapäevaste stsenaariumide väljamõtlemisega, sest nad peavad inimeste moodi heli ja kujutiste asemel andmeid purustama. Kui masin "näeb" fotot, peab ta selle foto kodeerima andmeteks, mida saab kasutada ülesande täitmiseks, näiteks kujutise liigitamiseks. AI võib takerduda, kui sisendid tulevad mitmes vormingus, nagu videod, heliklipid ja pildid.

"Siin on peamine väljakutse, kuidas saab masin neid erinevaid viise joondada? Inimestena on see meile lihtne," ütles MIT-i teadlane ja selleteemalise artikli esimene autor Alexander Liu. pressiteade. "Me näeme autot ja kuuleme siis möödasõitva auto häält ja me teame, et need on samad asjad. Kuid masinõppe puhul pole see nii lihtne."

Liu meeskond töötas välja AI-tehnika, mis nende sõnul õpib andmeid esitama, et jäädvustada visuaalsete ja heliandmete vahel jagatud mõisteid. Neid teadmisi kasutades saab nende masinõppemudel tuvastada, kus konkreetne toiming videos toimub, ja sellele märgistada.

Uus mudel võtab töötlemata andmeid, nagu videod ja nende vastavad pealdised, ning kodeerib need, eraldades videos olevate objektide ja toimingute kohta funktsioone või tähelepanekuid. Seejärel kaardistab see need andmepunktid võrku, mida nimetatakse manustamisruumiks. Mudel koondab sarnased andmed ruudustiku üksikute punktidena; kõik need andmepunktid või vektorid on esindatud üksiku sõnaga.

Näiteks võib žongleeriva inimese videoklipi vastendada vektoriga, millel on silt "žongleerimine".

Teadlased kujundasid mudeli nii, et see saaks vektorite märgistamiseks kasutada ainult 1000 sõna. Mudel võib otsustada, milliseid toiminguid või kontseptsioone ta soovib ühte vektorisse kodeerida, kuid see võib kasutada ainult 1000 vektorit. Mudel valib sõnad, mis tema arvates kõige paremini andmeid esindavad.

"Kui sigade kohta on video, võib mudel määrata ühele 1000 vektorist sõna "siga". Kui modell kuuleb heliklipis kedagi ütlemas sõna "siga", see peaks siiski kasutama sama vektorit selle kodeerimiseks," selgitas Liu.

Teie videod, dekodeeritud

Paremad märgistussüsteemid, nagu MIT-i välja töötatud, võiksid aidata vähendada tehisintellekti erapoolikust, ütles biomeetriafirma Innovatrics uurimis- ja arendustegevuse juht Marian Beszedes Lifewire'ile e-posti intervjuus. Beszedes soovitas, et andmetööstus saaks AI-süsteeme vaadata tootmisprotsessi vaatenurgast.

"Süsteemid aktsepteerivad toorandmeid sisendina (toormaterjalid), eeltöötlevad neid, neelavad neid, teevad otsuseid või prognoose ja väljundanalüütikat (valmistooted), " ütles Beszedes. "Me nimetame seda protsessivoogu "andmetehaseks" ja nagu ka teisi tootmisprotsesse, peaks see olema allutatud kvaliteedikontrollile. Andmetööstus peab käsitlema tehisintellekti kallutatust kvaliteediprobleemina.

"Tarbija vaatenurgast muudavad valesti märgistatud andmed näiteks konkreetsete piltide/videote veebist otsimise keerulisemaks," lisas Beszedes. "Õige arendatud tehisintellektiga saate märgistada automaatselt, palju kiiremini ja neutraalsem alt kui käsitsi märgistamise korral."

Image
Image

Kuid MIT mudelil on siiski mõned piirangud. Esiteks keskendusid nende uuringud korraga kahest allikast pärit andmetele, kuid reaalses maailmas puutuvad inimesed korraga kokku mitut tüüpi teabega, ütles Liu

"Ja me teame, et seda tüüpi andmekogumiga töötab 1000 sõna, kuid me ei tea, kas seda saab üldistada reaalseks probleemiks," lisas Liu.

MIT-i teadlaste sõnul ületab nende uus tehnika paljusid sarnaseid mudeleid. Kui tehisintellekti saab õpetada videoid mõistma, võite lõpuks oma sõbra puhkusevideote vaatamise vahele jätta ja saada selle asemel arvutiga loodud aruande.

Soovitan: