• Priznanje za demokratizacijo podatkovne analitike
Novice

Univerza v Ljubljani je priznanje za najodličnejši raziskovalni dosežek za preteklo leto podelila skupini sodelavcev Laboratorija za bioinformatiko na Fakulteti za računalništvo in informatiko. Priznanje so prejeli za razvoj orodja za demokratizacijo podatkovne analitike. Komisija je pri ocenjevanju 45  predlogov in končnem izboru desetih najodličnejših raziskovalnih dosežkov upoštevala predvsem mednarodno odmevnost, celovitost dosežka, aktualnost za širšo strokovno in splošno javnost ter koristnost uporabe.


Metode strojnega učenja in umetne inteligence so postale gonilo sprememb v znanosti, inženirstvu in družbi. Računalniški pristopi, ki lahko iz obsežnih podatkovnih zbirk izluščijo zanimive vzorce in oblikujejo napovedne modele, postajajo vseprisotni. A le redki strokovnjaki in še bolj redki laični posamezniki razumejo osnove znanosti o podatkih. Potrebna je demokratizacija strojnega učenja in razvoj načinov, kako lahko komurkoli na konceptualnem nivoju pojasnimo, kaj to zmore in kako ga lahko uporabimo. V Laboratoriju za bioinformatiko UL so razvili okolje, računske tehnike in pedagoške pristope, ki so namenjeni prav temu.

 

Globoko učenje je v zadnjem času spodbudilo uporabo računskih pristopov za analizo podatkov v naravoslovju, toda "za nepoznavalce ta tehnologija predstavlja velike težave," (Deep learning for biology, Nature, 22. februar 2018). Intuitivna orodja, ki bi se osredotočila na uporabnost in ne na velikost in kompleksnost rešitev, bi globoko učenje in tehnike strojnega učenja lahko naredila pristopnejše znanstveni skupnosti. Pristop, ki olajša uporabo tehnik strojnega učenja in ga ponudi na voljo domenskim strokovnjakom iz biomedicinskih laboratorijev so v člankih v revijah Nature Communications in Bioinformatics predlagali in opisali raziskovalci Fakultete za računalništvo in informatiko Univerze v Ljubljani (raziskovalec dr. Primož Godec, asist. dr. Matjaž Pančur, tehniški sodelavec Aleš Erjavec, asist. Ajda Pretnar, prof. dr. Janez Demšar, asist. dr. Marko Toplak, raziskovalec Jaka Kokošar, raziskovalka Vesna Tanko, asist. Pavlin Gregor Poličar, asist. dr. Lan Žagar, raziskovalec Jan Hartman, prof. dr. Blaž Zupan) in prof. dr. Uroš Petrovič z Biotehniške fakultete Univerze v Ljubljani.

 

Pristop sloni na okolju Orange, ki ga razvijajo v Laboratoriju za bioinformatiko UL. Orange uporablja vizualno programiranje, s katerim uporabnik s sestavljanjem osnovnih analitičnih gradnikov določi potek analize. V članku revije Nature Communications so predstavili uporabo tega orodja na štirih različnih zbirkah slik, ki vključujejo celjenja mišjih kosti, razvoja mišjih jajčnih celic, morfogeneze socialne amebe in lokalizacije beljakovin v celicah kvasovk. Pokažejo, da se lahko iz zbirk slik v okolju Orange enostavno gradi natančne modele za napovedovanje fenotipov.

 

Drugačnega problema, a prav tako s pristopi vizualnega programiranja, so se lotili v članku revije Bioinformatics, kjer predstavijo uporabo okolja Orange za analizo genskih izrazov posameznih celic. Tudi tu je njihov glavni dosežek razbitje problema podatkovne analize na enostavne analitične gradnike, ki jih lahko uporabnik potem, kot nekakšne Lego kocke, zlaga v analitično shemo in pri tem s kombinacijo grafičnih prikazov, gradnje modelov in interaktivnih raziskovalnih vmesnikov išče zakonitosti v dani množici podatkov.

 

Čeprav se v člankih osredotočajo na domene iz molekularne biologije, je pristop, ki so ga razvili, uporaben splošno tako v znanosti in industriji kot tudi drugje, kjer imamo opravka s podatki.

 

Vira:

  • Godec P, Pančur M, Ilenič N, Čopar A, Stražar M, Erjavec A, Pretnar A, Demšar J, Starič A, Toplak M, Žagar L, Hartman J, Wang H, Bellazzi R, Petrovič U, Garagna S, Zuccotti M, Park D, Shaulsky G, Zupan B (2019) Democratized image analytics by visual programming through integration of deep models and small-scale machine learning, Nature Communications 10(1):4551. doi: 10.1038/s41467-019-12397-x.
  • Stražar M, Žagar L, Kokošar J, Tanko V, Erjavec A, Poličar P, Starič A, Demšar J, Shaulsky G, Menon V, Lamire A, Parikh A, and Zupan B (2019) scOrange – A Tool for Hands-On Training of Concepts from Single Cell Data Analytics, Bioinformatics 35(14):i4-i12, doi: 10.1093/bioinformatics/btz348.