Understanding Speech and Scene with Ears and Eyes

Projektin yksityiskohdat

Tiivistelmä

Yksi tekoälyn suurimmista haasteista on kehittää menetelmä jolla puhetta ja videokuvaa voisi tunnistaa yhtä tehokkaasti kuin ihmiset. Projektin tavoitteena on kehittää multimodaalisia tekniikoita jotka ymmärtävät puhetta ja kuvaa. Nämä uudet koneoppimismentelmät oppivat ensin tehokkaita eritasoisia esitystapoja sekä kuville että puheelle ja sitten modaliteettien välisiä korrelaatioita niiden välille. Tämä voidaan saavuttaa kehittämällä uusia neuroverkkoallgoritmeja ja käyttämällä opetuksessa sekä erillisiä video- ja puheaineistoja että multimodaalisia aineistoja. Uskomme että lopputuloksena sekä automaattisen puheentunnistuksen että videoiden kuvailun tarkkuus paranee.
AkronyymiUSSEE
TilaKäynnissä
Todellinen alku/loppupvm01/01/202231/12/2024

Sormenjälki

Tutustu tutkimuksen aiheisiin, joita tämä projekti koskee. Nämä merkinnät luodaan taustalla olevien stipendien/apurahojen perusteella. Yhdessä ne muodostavat ainutlaatuisen sormenjäljen.