V zadnjih letih je umetna inteligenca doživela ogromen napredek na vseh področjih, še posebej na področju računalniškega vida in obdelave naravnega jezika, predvsem zahvaljujoč napredku na področju globokega učenja. Kljub impresivni sposobnosti teh sistemov ostajajo nerešena vprašanja glede globine razumevanja umetne inteligence in njenih zmožnosti razlage svojih odločitev. Pri projektu smo zavezani reševanju teh ključnih vprašanj, pri čemer posebno pozornost posvečamo problemu detekcije anomalij na slikah. Glavni cilj projekta je razviti več-modalne modele, ki lahko zaznajo, ČE je na sliki kaj narobe, in določijo KJE, obenem pa razumejo in razložijo, ZAKAJ. To vključuje integracijo vizualnih in jezikovnih informacij za reševanje treh ključnih področij sodobne umetne inteligence: razumevanje (slik), več-modalnost in razložljivost. Prvi raziskovalni izziv, semantično razumevanje slik, se osredotoča na pomanjkljivosti modelov za detekcijo površinskih anomalij pri detekciji kompleksnih logičnih anomalij. Cilj je izboljšati semantično razumevanje slik ter omogočiti prepoznavanje zapletenih vizualnih kompozicij in strukturnih variacij. Drugi raziskovalni izziv, več-modalno razumevanje slik, predstavlja prizadevanje za izboljšanje vizualne detekcije anomalij v slikah z jezikovno informacijo. Naš cilj je razviti metodo za detekcijo anomalij brez doučitve, kjer detekcija površinskih anomalij poteka brez predhodne izpostavljenosti izgledu objektov ter se namesto tega zanaša na koncepte anomalij, kodirane v vizualno-jezikovnih modelih. Poleg tega načrtujemo razvoj metod, ki upoštevajo besedilne opise anomalij na ravni naloge ter posameznih primerov, s čimer dopolnjujejo vizualne podatke. Pri tretjem raziskovalnem izzivu, več-modalni razložljivosti, se bomo osredotočili na obogatitev vizualnih razlag anomalij, kot so mape intenzivnosti in segmentacijske mape, s pripadajočimi besedilnimi opisi. Projekt MUXAD si torej prizadeva potisniti detekcijo anomalij na novo raven. Z izkoriščanjem moči več-modalne umetne inteligence si prizadeva ustvariti modele, ki so učinkoviti, hkrati pa tudi intuitivni in razložljivi, kar predstavlja ključen premik k bolj preglednim in razumljivim sistemom umetne inteligence.
Fate projekta in njihova realizacija:
DP1: Semantično razumevanje slik za detekcijo anomalij
DP2: Večmodalno razumevanje slik
DP3: Večmodalne razlage
DP4: Primeri uporabe: Vizualni pregled v proizvodnji in interpretacija medicinskih slik
Leto 1: · Učenje lokalnega in globalnega videza · Učenje kompozicije objektov · Izdelava podatkovnih množic
Leto 2: · Detekcija anomalij brez predhodnih primerov · Vključevanje besedilnega znanja · Na-besedilu-osnovano šibko-nadzorovano učenje · Vizualni pregled v proizvodnji
Leto 3: · Besedilne razlage · Negotovost v vizualno-jezikovnih modelih · Interpretacija medicinskih slik