BI-RS/20-21/031 - Pristopi za induktivno učenje iz delno označenih učnih primerov v raznolikih množicah o boleznih

I) UVOD in PODROČJE RAZISKOVANJA Tematika projekta spada na področje inteligentnih računalniških sistemov, ki se lahko samodejno učijo iz podatkov in gradijo napovedne modele. Te modele je možno uporabiti za opisovanje učnih podatkov, napovedovanje novih primerov in pridobivanje novega znanja. Uporaba takšnega napovednega modeliranja prinaša v zadnjih letih veliko sprememb v zdravstvu, zlasti na glavnih področjih bolezni, kot so rak, nevrologija in kardiologija (Jiang et al., 2017). Za uspešno zaznavanje povezav med medicinskimi simptomi in boleznimi morajo zdravniki pravilno diagnosticirati vsakega pacienta in zabeležiti diagnozo v evidenco. Ta postopek je lahko dolgotrajen in drag (v smislu diagnostičnih stroškov in ročnega dela). Zato so v praksi večinoma na razpolago le delno označeni (diagnosticirani) podatki o pacientih. Področje delno-nadzorovanega učenja (angl. semi-supervised learning) se ukvarja s problemom dodatnega izkoriščanja neoznačenih učnih primerov poleg označenih primerov s ciljem izboljšati točnost napovednega modela (Zhu, 2005). V predlaganem projektu želimo razviti nove metode za delno-nadzorovano učenje iz medicinskih učnih množic. Nove predlagane metode bodo kombinirale najsodobnejše pristope, kot so globoko učenje, mehko učenje in aktivno učenje z ocenjevanjem zanesljivosti učnih primerov. II) CILJI SODELOVANJA CILJI. Glavni cilji sodelovanja bodo razviti, ovrednotiti in uporabiti različne metode za delno-nadzorovano učenje za odkrivanje in sklepanje na vzroke in posledice rakavih, kognitivnih in srčnih obolenj. Specifični cilji projekta bodo: 1.) Opraviti pregled in analizo prednosti in slabosti obstoječih pristopov delno-nadzorovanega učenja. Poudarek pregleda bo na objavah, ki predstavljajo zadnji napredek na področju; 2.) Razvoj novih pristopov za delno-nadzorovano učenje, ki združujejo prednosti drugih obstoječih pristopov. Ideje za nove pristope vključujejo: (1) izvajanje aktivnega učenja z izbiro najbolj zanesljivih primerov z uporabo ocen zanesljivosti napovedi (Bosnić in Kononenko, 2008); (2) uporaba nadzorovanega gručenja za umetno označevanje neoznačenih primerov; (3) mehko učenje z verjetnostnim označevanjem neoznačenih primerov in izvajanjem verjetnostne klasifikacije; (4) globoko učenje in analiza skritih faktorjev (uteži na nevronu) za sklepanje na oznake neoznačenih primerov; 3.) Testirati in empirično ovrednotiti obstoječe in nove metode na realnih medicinskih podatkih, ki vključujejo podatke okognitivnih motnjah (Alzheimerjeva in Parkinsonova bolezen), srčnih obolenjih in raku dojke; 4.) Vzpostaviti dolgoročno sodelovanje med partnerskima institucijama v Ljubljani in Novem Sadu za nadaljnji razvoj metodologije in iskanje tematike in partnerjev za vzpostavitev projekta v evropskem obsegu (Horizon 2020 ipd.). NAČRTOVANI PRISPEVKI: 1.) Množica novih metod za delno-nadzorovano učenje, ki bodo uporabljale neoznačene primere z različnimi strategijami. Predlagane metode bodo dovolj splošne, da jih bo mogoče uporabiti na podatkih iz raznolikih domeh (npr. medicinski, industrijski, finančni, zavarovalniški, bančni ipd. podatki). 2.) Izdelava primerjalne analize uspešnosti razvitih metod na razpoložljivih podatkih o kognitivnih motnjah, pridobljenih od Nevrološkega inštituta (Novi Sad), podatkih o raku dojk, pridobljenih od Univerzitetnega kliničnega centra (Ljubljana), in javno dostopnih podatkih o srčnih obolenjih. 3.) Diseminacija raziskovalnih rezultatov o novih metodah in o odkritih medicinskih spoznanjih v interdisciplinarnih revijah na področjih računalništva in zdravstvene informatike, kot so Statistical Methods In Medical Research, IEEE Journal of Biomedical and Health Informatics, and Artificial Intelligence In Medicine. III) KOMPLEMENTARNOST SKUPIN / DODANA VREDNOST Komplementarnost pri sodelovanju obeh skupin izvira iz: (1) ekspertize v različnih metodologijah s področja algoritmov za analizo podatkov, (2) možnosti dostopa do različnih podatkov o dementnih obolenjih in (3) nabora lastnih računalniških orodij, katerih avtorji so. V preteklosti so se raziskovalci fakultete v Novem Sadu intenzivno ukvarjali z uporabo metodologij za sklepanje na podlagi posameznih primerov (angl. Case-Based Reasoning) v medicinskih domenah. Ta skupina je razvila tudi splošno programsko ogrodje FAP (framework for time-series analysis and prediction), ki ga je možno uporabiti za razvoj poljubnega sistema za podporo odločanju (ogrodje so do sedaj uporabili na področju napovedovanja multiple skleroze). V okviru predlaganega projekta bo srbska skupina prispevala implementacijo svojih orodij (FAP) in metodologij v skupni prototip odločitvenega sistema. Fakulteta v Ljubljani aktivno izvaja raziskave na področju srčnih in onkoloških obolenj, vključno z nadzorovanim in nenadzorovanim modeliranjem. Slednji so tudi razvili metodologijo za razlago posameznih napovedi in učnih modelov, ki se je izkazala za obetavno v medicini, saj zdravnikom pomaga razumeti razloge za nastanke bolezni ter omogoča načrtovanje različnih potekov zdravljenja. Raziskovalna skupina je razvila tudi inovativno metodologijo za ocenjevanje zanesljivosti posameznih napovedi, ki je pri medicinskih napovedih pomembna, saj preprečuje negativne posledice napačnih diagnoz in zdravstvenih ukrepov. DODANA VREDNOST SODELOVANJA izhaja pri predlaganem projektu iz napredka, ki bo lahko nastal z združitvijo ekspertiz in sinergije obeh skupin. Rezultati projekta bodo predstavljali napredek tako na metodološkem (temeljnem) področju metod za analizo velikih podatkovnih zbirk kot tudi na področju medicinskega znanja (razlogih, indikatorjih, posledicah, terapijah). Obe raziskovalni skupini sta v zadnjem desetletju izvedli značilne raziskave na področju medicinskih odločitvenih sistemov in objavili prispevke o novih metodah umetne inteligence v vrhunskih znanstvenih revijah in na konferencah. Skupini sta močno motivirani za vzpostavitev formalnega sodelovanja, ki bi zagotovilo tudi sodelovanje na daljši rok.

Sodelavci na projektu