Razvoj inovativnega računalniškega pristopa za obdelavo izraznih profilov človeških tkiv v podporo odkrivanju bioloških označevalcev in odločanja na področju k posamezniku usmerjene medicine. Projekt bo razvil temeljni model za izražanje človeških genov izmerjenih z metodo RNA-Seq, najpogostejšo obliko karakterizacije človeških tkiv na podlagi podatkov.
Profili genskih izrazov beležijo aktivnost vsakega gena v biološkem vzorcu, kot je biopsija tumorja, vendar je tip podatkov statistično težek za strojno učenje, saj tipični zbrani klinični podatki vsebujejo več deset tisoč značilnosti (genov) a le majhno število vzorcev primerov in kontrol, pri čemer se lahko naučeni modeli zlahka pretirano prilagodijo podatkom. Da bi se izognili pretiranemu prilagajanju, je temeljni pristop, ki trenutno prevladuje v umetni inteligenci za slikovne, besedilne in večpredstavnostne podatke, učenje modelov na velikem številu vzorcev. V projektu bomo zajeli in uporabili veliko množico javno dostopnih podatkov o izražanju človeških genov in gradili temeljenje modele za izražanje genov z namenom ugotavljanja povezav med geni in fenotipi, odkrivanju bioloških označevalcev, razpoznavanju genskih interakcij, in, najpomembneje, predstavitev podatkov iz manjših kliničnih študij v kompakten in informativen prostor značilk.
V projektu obravnavamo tri kategorije problemov in izzivov, ki vplivajo na izbiro in razvoj računalniških metod za razvoj temeljnih modelov izražanja človeških genov:
· Zbiranje in obdelava podatkov. Uporabiti želimo veliko vzorcev z izražanjem genov. Doslej so raziskovalci vzpostavili velike zbirke podatkov o izražanju genov. V zadnjem času so bili vzpostavljeni tudi projekti, ki sistematično zbirajo, organizirajo in zagotavljajo enostaven dostop do teh podatkov v Pythonu. Primer takega vira, ki zbira sto tisoče vzorcev iz več kot deset tisoč eksperimentov, je ARCHS4. Tukaj se bomo srečali s problemom učinka šarže v podatkih o izražanju genov. To je sistematična tehnična napaka, ki se pojavlja med različnimi poskusi, kar lahko oteži biološko razlago. Preizkusili bomo več rešitev: izraženost genov v različnih študijah bomo skušali bolj poenotiti ali pa ne bomo storili ničesar v tej smeri in bomo zaupali moči nevronskih mrež na velikih zbirkah podatkov, da same rešijo ta problem. Preizkusili bomo oba pristopa, ju primerjali in validirali na ločenih podatkih.
· Gradnja modelov in prenos znanja. Klinične študije vsebujejo majhno število vzorcev, zaradi velikega števila značilk (genov) pa lahko hitro pride do pretiranega prilagajanja modela, da najde lažne povezave med geni in fenotipi, ki obstajajo po naključju. Ključna inovacija in prispevek predlaganega projekta so temeljni modeli,razviti na velikih zbirkah podatkov. Te modele bomo kasneje uporabili na majhnem naboru kliničnih vzorcev in majhnem naboru značilk, izpeljanih iz temeljnih modelov. To manjšo, stisnjeno vložitev bomo nato analizirali, kategorizirali in vizualizirali.
· Razlaga in interpretacija. Temeljni modeli prinašajo večjo točnost napovedi, vendar jih zaradi njihove kompleksnosti pogosto obravnavamo kot črne skrinjice. V molekularni biologiji je razlaga ključnega pomena, zato je pomembno, da znamo napovedi modela tudi interpretirati. Naš prispevek bo na več področjih: (1) za dano nalogo klasifikacije fenotipa poiskati gene (vhodne podatke), katerih sprememba vpliva na klasifikacijo vzorcev, (2) uporabiti znane genske interakcije in področno znanje za pripravo temeljnih modelov, ki zagotavljajo interpretacijo, in (3) raziskati in interpretirati razvite modele na podlagi genskih interakcij, ki izhajajo iz podatkovnih zbirk.
Bistveni cilji projekta so:
· Razvoj zbirke podatkov in znanja, ki ga bo projektni konzorcij uporabil za organizacijo podatkov o izražanju genov in relacijsko bazo znanja o domeni v smislu množic sodelujočih genov, bioloških poti in genskih interakcij.
· Izdelava temeljnih modelov za izražanje človeških genov in ocena njihove uporabnosti pri nalogah posamezniku prilagojene medicine, zlasti pri razvoju napovednih bioloških označevalcev.
· Raziskava uporabnosti in predstavitev rezultatov.