BI-US/22-24-097 - Novi algoritmi za časovno-odvisno interpretacijo podatkovno-bogatih omrežij znanja v biomedicini

Podatkovno rudarjenje v biomedicini (BioNLP) je raziskovalno področje, ki se ukvarja z razvojem novih metod obdelave besedil in strojnega učenja nad biomedicinskimi besedili. BioNLP združuje raziskovalne ideje iz obdelave naravnih besedil, strojnega učenja, lingvistike in bioinformatike. Predvsem se osredotoča (i) na nove metode za ekstrakcijo znanja iz biomedicinskih besedil z namenom zmanjšanja podvajanj in negotovosti ter (ii) na metode za učenje in sklepanje nad ekstrahiranimi podatki.

BioNLP raziskave uporabljajo biomedicinska besedila, kot so biološka znanstvena literatura, zapisi zdravnikov in zdravniški ali zdravstveni kartoni. Eden najpopolnejših repozitorijev takšnih besedil je NCBI PubMed, vzdrževan s strani ameriške državne knjižnice za medicino (U.S. National Library of Medicine - NCBI). Le ta vsebuje več kot 30 milijonov biomedicinskih besedil, revij življenjske znanosti in spletnih knjig. Vsak zapis vsebuje tudi naslov, povzetek, in medicinske oznake MeSH. Te predstavljajo celovit slovar, ki je definiran in vzdrževan s strani NCBI kuratorjev. Repozitorij vsebuje tudi več kot 10 milijonov polnih besedil znanstvenih člankov.

Ogromna količina besedil predstavlja dva izziva: (i) Biomedicinska besedila vsebujejo manjkajoče podatke, ponovljene meritve in nasprotujoča si opažanja; (ii) Ekstrakcija konceptov in njihova normalizacija - npr. za isti koncept uporabljena različna imena. Glavni izziv je, kako avtomatsko obdelati te podatke in jih pripraviti v uporabne za nadaljnje analize. BioNLP se ukvarja z načini kako organizirati in predstaviti biomedicinsko literaturo s podatkovno-bogatimi grafi ter kako se avtomatsko učiti in sklepati nad takšnimi grafi, da zagotovimo učinkovite rešitve za biomedicinske probleme.

Cilji

Projekt sestoji iz dveh glavnih ciljev, vezanih na rezultate predhodnega sodelovanja, kjer smo izdelali velik biomedicinski graf. (1) Razvoj metod za interpretacijo napovedi s pomočjo vektorskih vložitev, ki bodo uporabljale ta biomedicinski graf. Naš glavni cilj bo razvoj takšnih metod, ki bodo znale razložiti koncepte in njihove kombinacije na način generiranja besedil (npr. avtomatsko generiranje človeku razumljivega besedila, vezanega na določen koncept ali interakcijo). Nadaljne uporabe razvitih metod bodo možne za napovedovanje škodljivih učinkov zdravil, razumevanje mehanizmov bolezni in prenos znanja iz modelnih vrst na ljudi. (2) Obogatitev interpretacij s časovno komponento. Večina izdelanih baz znanja se nanaša le na dejstva, pri čemer se zanemarja časovne odvisnosti. Najprej bomo definirali časovne omejitve, ki bodo temeljile na W3C časovni ontologiji (angl., Time Ontology). Metode za interpretacijo bodo nato nadgrajene s prepoznavanjem časovnih odvisnosti, kar bo omogočilo identifikacijo procesov v skupni bazi znanja. Poleg obstoječih pristopov, kjer se napovedujejo le biološke interakcije, bomo odkrivali še relacijske odvisnosti, ki bodo izboljšale napovedi.

Grafi znanja so omrežja, ki so bila zasnovana za zajem strukture različnih bioloških vidikov in za predstavitev odvisnosti med njimi. Vozlišča in povezave predstavljajo entitete, kot so na primer bolezni, proteini, zdravila in interakcije med geni. Trenutni trendi v statističnem učenju nad grafi se še vedno ukvarjajo z razvojem metod z gradnjo le ad-hoc podatkovno-bogatih omrežij, ki jih uporabljajo le za predlaganje novih vozlišč ali povezav, prepoznavanje tipov obstoječih ali odkrivanje skritih struktur. V okviru našega raziskovanja bomo zasnovali pregledne in razložljive modele nad grafovskimi podatki ter razvili nova orodja za interpretacijo na podlagi časovnih komponent (zaporedje konceptov in povezav, trajanje aktivnosti).

Organizacija in učinkovitost

Laboratorij za strojno učenje v znanosti in medicini, ki ga vodi Prof. Marinka Zitnik na Univerzi Harvard, Oddelku za Biomedicinsko informatiko, in Broad Inštitutu Univerze MIT in Harvard (HARVARD) razvija nove metode na področju podatkovnih ved in strojnega učenja za učenje in sklepanje nad bogatimi prepletenimi podatki ter prilagaja razvite metode v rešitve za biomedicinske probleme. Skupina je nedavno prva odkrila uspešne metode vložitev nad bogatimi biomedicinskimi grafi. Zaradi tega so pridobili tudi več velikih projektov, ki so povezani z (i) učenjem strukture predstavitev za biomedicino, (ii) metodami vložitev nad omrežji in (iii) fuzijo raznovrstnih podatkov v podatkovno-bogata omrežja.

Laboratorij za podatkovne tehnologije (UL) se ukvarja s procesiranjem podatkov. Njegova raziskovalna skupina se ukvarja z rudarjenjem besedil in procesiranjem naravnega jezika, vključno z ekstrakcijo povezav, odkrivanjem koreferenčnosti, razdvoumljanjem, semantičnim spletom in informacijskim poizvedovanjem. Laboratorij je vključen v več industrijskih projektov tudi na tem področju, kot je na primer avtomatizacija procesiranja vseh dnevnih slovenskih novic za pripravo dnevnih medijskih pregledov.

Skupina HARVARD je aktivna na področju podatkovnih ved in strojnega učenja za biomedicinske probleme. Komplementarno ima skupina UL bogate izkušnje v razvoju metod za analizo besedil in njihovo procesiranje. Zaradi komplementarnosti ekspertiz sta skupini primerni za skupno raziskovanje na področju obdelave biomedicinskih besedil in deljenje ter uporabo medsebojnih novih idej. Doktorski študenti, podoktorski raziskovalci in raziskovalci v obeh skupinah predstavljajo osnovo za nadaljnje sodelovanje. S pridobitvijo dodatnega znanja na področju biomedicine bo skupina UL pridobila nove izkušnje za analizo tudi slovenskih podatkov ne tem področju.

Doprinosi

Sodelovanje z močno raziskovalno skupino v ZDA bo vzpostavilo pomembne raziskovalne povezave in odprlo nove možnosti za prihodnje skupne raziskovalne projekte. Pomembni rezultati in odkritja bodo objavljena na najboljših konferencah (ACL, EMNLP, ISMB) in v znanstvenih revijah (Bioinformatics, Nature Communications), kjer sta oba prijavitelja objavila že več prispevkov.

Vse podatkovne množice, razvite v okviru projekta, bomo javno objavili. Prav tako bomo javno objavili programsko kodo za vložitve nad podatkovno-bogatimi biomedicinskimi grafi. Koristi bodo tako vzajemne in sinergistične za obe raziskovalni skupini. Projekt bo omogočil doktorskim študentom obeh institucij skupno delo na daljavo, ki se bodo lahko nato srečali v živo.

Sodelavci na projektu