• EMBEDDIA - Medjezikovne vektorske vložitve za manj zastopane jezike v evropskih medijih
Naročnik: Evropska komisija ( EMBEDDIA )
Tip projekta: Evropski projekti
Trajanje projekta: 2019 - 2021
  • Opis

V zadnjem času je uporaba globokih nevronskih mrež bistveno izboljšala uspešnost pristopov umetne inteligence pri obdelavi naravnega jezika, od prepoznavanja govora do strojnega prevajanja in nalog razumevanja besedila, kot je analiza sentimenta. Vendar pa je uspešnost metod globokega učenja odvisna od razpoložljivosti velikih označenih podatkovnih množic za dani jezik in nalogo. Večina sodobnih jezikovnih modelov strojnega učenja uporablja vektorske vložitve besed, kar pomeni, da besede niso predstavljene s simboli, ampak kot množice števil. Taka predstavitev vsebuje pomembne informacije o pomenu in ohrani semantične relacije med besedami, kar velja celo med jeziki: vložitve besed so podobne v različnih jezikih. S poravnavo besednih vložitev, pridobljenih iz enojezičnih jezikovnih virov, dobimo skupno predstavitev, ki omogoča hitro in učinkovito integracijo informacij v različnih jezikih. Ta medjezikovni način poravnav vložitev ima zato velik potencial za manjše jezike: orodja strojnega učenja se lahko razvijejo z viri enega jezika, delujejo pa tudi na drugih jezikih.
Napredni jezikovni viri in raziskave obstajajo za nekaj prevladujočih evropskih jezikov (angleščina, francoščina, nemščina), medtem ko manjše jezikovne skupnosti in njihovi mediji nimajo ustreznih tehnoloških orodij. Projekta EMBEDDIA bo naslovil te izzive z inovativnimi medjezikovnimi vložitvami in globokimi nevronskimi mrežami, kar bo omogočalo prenos obstoječih enojezičnih virov v različne jezike. Šest akademskih in štirje industrijski partnerji projekta bodo v treh letih razvili nove rešitve za manj zastopane jezike in jih preizkusili v realnem okolju medijske produkcije.