Področje raziskav rakavih obolenj je trenutno eno izmed najdejavnejših področij kliničnih raziskav. Sooča se z dvema večjima težavama. Prva težava je klasifikacija rakavih obolenj z namenom določanja točne diagnoze ter ustreznega zdravljenja. Drugo težavo predstavlja vprašanje, kako stalno rastočo količino podatkov iz mikromrež učinkovito uporabiti za reševanje odprtih vprašanj na tem področju. Večina dosedanjih študij s področja klasifikacije rakavih obolenj je osnovanih na podlagi splošnih kliničnih slik pacientov, v katere so zajeti tudi histološki pojavi na nivoju tkiv. Točnost podanih diagnoz je iz tega razloga nizka. Mnogi obstoječi razredi tumorjev so namreč heterogeni, molekularno različni in zahtevajo različno klinično obravnavo. Diferencialna diagnoza znotraj neke skupine histološko podobnih rakavih obolenj tako predstavlja pomemben izziv v klinični medicini.
V zadnjem času se je močno razširila uporaba DNA mikromrež za opredelitev celičnih procesov. S tem postaja dostopnih vse več podatkov iz mikromrež, zajetih pri raziskavah povezanih z rakom. Različne raziskave istih tipov rakavih obolenj sicer poskušajo odgovoriti na podobna vprašanja, vendar je njihova primerjava otežkočena zaradi uporabe heterogenih platform mikromrež ter metod, uporabljenih pri analizi. Trenutno so tako na voljo ogromne količine podatkov iz mikromrež, ki pa zvečine ostajajo neobdelane in je izkoriščen le majhen delež njihovega potenciala. Podatke o ekspresiji genov, pridobljene iz mikromrež, bi bilo mogoče z analizo uporabiti za kar čim bolj točno diagnozo rakavih obolenj. Klasifikacija obolenj na tej osnovi potencialno nudi višjo specifičnost v razlikovanju različnih rakavih obolenj in boljšo klinično sliko, ki zajema tudi molekularne spremembe v bolnikih, kar vodi do posamezniku prilagojene terapije z manjšimi nezaželenimi stranskimi učinki. Trenutni pristopi k klasifikaciji rakavih obolenj na podlagi genov uporabljajo podatke o različnih mutacijah eksonov iz javno dostopnih baz. Pri njihovi uporabi je klasifikacija obolenja nekega novega pacienta možna le, kadar je primerek z identično mutacijo prisoten tudi v uporabljeni bazi. Zaradi kombinatorične narave količine vseh mogočih mutacij je te potrebno vzorčiti z ozirom na njihovo distribucijo v dostopnih bazah podatkov. Ker se nekatere izmed možnih kombinacij mutacij v bazah sploh ne pojavijo, mora postati klasifikacija novih pacientov, za katere v bazi ni identičnega vnosa, verjetnostna. Pri tem sta izjemno pomembni tako zanesljivost posamezne klasifikacije kot tudi razlaga končne odločitve, ki uporabniku (zdravniku) nudi dodaten vpogled v proces odločanja.
Cilj projekta je pripraviti eksperimentalno podatkovno zbirko. Predlagana zbirka bo poleg vnosov o pacientih z znanim tipom rakavega obolenja in mutacijami eksona vsebovala tudi negativne primere (tj. zdrave paciente), ter bo s pomočjo nadzorovanega vzorčenja dopolnjena z dodatnimi vnosi. Tako nadgrajena podatkovna zbirka bo analizirana z uporabo algoritmov strojnega učenja. Metode za ocenjevanje značilk bodo uporabljene za določanje pomembnosti posameznih delov eksonov in odkrivanje interakcij med mutacijami. Zgrajena baza bo nadaljnje analizirana z algoritmi induktivnega logičnega programiranja (ILP), ki so zmožni odkrivanja logičnih relacij med objekti in s tem zanimivih odnosov med različnimi mutacijami. Kot del projekta bodo algoritmi ILP prilagojeni za uporabo na konkretnem primeru s strani Laboratorija za kognitivno modeliranje (LKM). Z namenom zagotavljanja čim višje točnosti klasifikacije bodo poleg metod ILP uporabljeni tudi drugi sodobni pristopi v strojnem učenju, kot so metoda podpornih vektorjev (SVM), naključni gozdovi, nevronske mreže in njihovi ansambli. Razviti modeli bodo nadgrajeni z možnostjo razlage posamezne napovedi ter oceno njene zanesljivosti. V ta namen bosta prilagojeni metodologiji za ocenjevanje zanesljivosti posameznih predikcij in njihovih razlag, ki sta bili v zadnjih letih razviti v LKM.