Težko bi pretiravali v poudarjanju tega, kako pomembna je danes statistična analiza podatkov: vse empirične znanosti, zdravstvo, finance, odkrivanje goljufij, telekomunikacije, družabna omrežja, in trženje so samo nekatera izmed področij, ki se močno zanašajo na podatke in njihovo analizo. Čeprav je v zadnjem času uporabna statistika močno napredovala in postala bolj dostopna, še posebej sodobna Bayesova statistika, se je napredek upočasnil, saj s sodobnimi računskimi metodami ne moremo več obvladati statističnih modelov in količin podatkov, ki jih želimo analizirati danes.
Problem neučinkovitih računskih metod je bil pred kratkim izpostavljen kot eden izmed 5 najpomembnejših odprtih problemov v statistiki. Naš primarni cilj je prispevati k reševanju tega problema z raziskavo pristopa za bolj učinkovito splošnonamensko računanje in implementacijo ugotovitev v računsko orodje, ki nam bo omogočilo analizo vse večje količine podatkov po zmerni ceni.
Cilj bomo dosegli s samodejno paralelizacijo najbolj potratnih delov splošnonamenskih računskih algoritmov iz družine Monte Carlo z markovskimi verigami (natančneje, algoritma Metropolis-Hastings in algoritma hamiltonski Monte Carlo) in z uporabo grafičnih kartic. Grafične kartice so glede na ceno na enoto računske moči najbolj učinkovita strojna oprema, kar bo v bližnji prihodnosti postalo še bolj izrazito. Kot rezultat projekta pričakujemo 100-krat hitrejše izvajanje algoritmov za nizko ceno (manj kot €1.000,00). K projektu smo privabili vrhunske raziskovalce in strokovnjake iz Univerze v Ljubljani, Slovenske akademije znanosti in umetnosti in industrije. Vse množice podatkov in aplikativni problemi, ki jih bomo uporabili za vpogled, razvoj, ocenjevanje in validacijo razvite metodologije, bodo izhajale iz nekega pomembnega praktičnega problema, s katerim se spopadajo slovenski raziskovalci.
V preteklosti so že bili uspešni poskusi učinkovitega računanja za statistične namene, a le za posebne primere statističnih modelov. Naš cilj - splošnonamenska statistična analiza, ki je samodejno paralelizirana za visoko učinkovitost računanja - je novost in bi pomenila pomemben korak naprej. Projekt je izjemno aktualen tako z vidika znanosti, saj gre za pomemben znanstveni dosežek na področju računskih metod, kakor tudi zaradi številnih praktičn učinkov nizkocenovne in dostopne, a visoko učinkovite statistične analize.
Utrinki iz sorodnih del namigujejo, da lahko dosežemo pohitritve, ki smo si jih zadali. Čeprav gre za raziskovalni projekt in bo potrebno razrešiti več tehničnih in implementacijskih problemov, trdno verjamemo v uspešno izvedbo projekta, saj smo dobro definirali zahteve in mere uspešnosti, izdelali načrt, kako jih bomo dosegli, in zbrali ustrezne strokovnjake z različnimi ozadji, ki pokrivajo vsa zahtevana teoretična in praktična znanja. Prav tako smo privabili sofinanciranje iz gospodarstva ter tako okrepili proračun, aktivno pa bomo spodbujali tudi sodelovanje naših študentov.
Glavni prispevki projekta bodo teoretična raziskava, ki bo pripeljala do učinkovitih računskih metod, praktična implementacija raziskovalnih rezultatov v programsko orodje za splošnonamensko statistično analizo in, kot stranski učinek, raziskovalni rezultati v empiričnih znanostih in industriji, ki jih bo omogočila razvita metodologija. Učinkovito računanje bo zmanjšalo čas in ceno statistične analize, kar predstavlja neposredno korist gospodarstvu in, glede na vseprisotnost podatkov, tudi družbi. Nenazadnje pa bo sodelovanje med raziskovalci, aplikativnimi raziskovalci, gospodarstvom in študenti dvignilo nivo uporabnega statističnega znanja, področja, ki je v Sloveniji izjemno slabo razvito.
Faze projekta
Priprave in paralelizacija specifičnih modelov. [zaključena]
Raziskava avtomatizirane paralelizacije. [zaključena]
Implementacija raziskav in praktične aplikacije. [zaključena]
Testiranje in konsolidacija rezultatov. [zaključena]
Projekt se je zaključil.
Sodelujoče raziskovalne organizacije
http://www.sicris.si/search/prj.aspx?opt=2&lang=slv&id=10037
Sestava projektne skupine
http://www.sicris.si/search/prj.aspx?opt=3&lang=slv&id=10037
PUBLIKACIJE:
ČEŠNOVAR, Rok, ŠTRUMBELJ, Erik. Parallel draws from the Polya-Gamma distribution for faster Bayesian multinomial and count model inference. V: GAMS, Matjaž (ur.), LUŠTREK, Mitja (ur.), PILTAVER, Rok (ur.). Slovenian Conference on Artificial Intelligence : proceedings of the 19th International Multiconference Information Society - IS 2016, 12 October 2016, Ljubljana, Slovenia : volume A. Ljubljana: Institut Jožef Stefan. 2016, str. 9-12. [1537224387]
ČEŠNOVAR, Rok, ŠTRUMBELJ, Erik. Bayesian Lasso and multinomial logistic regression on GPU. PloS one, ISSN 1932-6203, Jun. 2017, vol. 12, no. 6, str. 1-17. [1537467843]
ČEŠNOVAR, Rok, ŠTRUMBELJ, Erik. bayesCL : Bayesian Inference on a GPU using OpenCL. [S. l.]: The Comprehensive R Archive Network, 2017. https://cran.r-project.org/web/packages/bayesCL/index.html. [COBISS.SI-ID 1537481155]
ČEŠNOVAR, Rok, SLUGA, Davor, DEMŠAR, Jure, BRONDER, Steve, ŠTRUMBELJ, Erik. GPU optimized math routines in the Stan Math library : lecture at StanCon 2018 Helsinki, 29-31 August 2018. [ 1538085315]
CIGLARIČ, Tadej, ČEŠNOVAR, Rok, ŠTRUMBELJ, Erik. An OpenCL library for parallel random number generators. The journal of supercomputing, ISSN 0920-8542, 2019, vol. , no. , str. 1-16. [1538103747]
ŠTRUMBELJ, Erik, ČEŠNOVAR, Rok, SLUGA, Davor, JACKSON, Burton. GPU-based parallel computation of pharmacometric models in Stan software for Bayesian inference. V: The Ninth American Conference on Pharmacometrics : ACoP9, (Journal of pharmacokinetics and pharmacodynamics (Print), ISSN 1567-567X, vol. 45, iss. 1 (suppl.)). [S. l.]: Springer. cop. 2018, str. 39. [ 1538016707]
FAGANELI PUCER, Jana, ŠTRUMBELJ, Erik. Impact of changes in climate on air pollution in Slovenia between 2002 and 2017. Environmental pollution, ISSN 0269-7491. [Print ed.], 2018, vol. 242, part A, str. 398-406. [1537827267]
FAGANELI PUCER, Jana, PIRŠ, Gregor, ŠTRUMBELJ, Erik. A Bayesian approach to forecasting daily air-pollutant levels. Knowledge and information systems, ISSN 0219-1377. [Print ed.], Dec. 2018, vol. 57, no. 3, str. 635-654. [1537745603]
CIGLIČ, Rok, PERKO, Drago, HRVATIN, Mauro, ŠTRUMBELJ, Erik. Modeling and evaluating older landscape classifications with modern quantitative methods. V: From pattern and process to people and action. Ghent: IALE-Europe. 2017. [41978413]
BREG VALJAVEC, Mateja, CIGLIČ, Rok, OŠTIR, Krištof, RIBEIRO, Daniela. Modelling habitats in karstland scape by integrating remote sensing and topography data. Open geosciences, ISSN 2391-5447, 2018, vol. 10, issue 1, str. 137-156. [43194413]
ZUPANC, Kaja, ŠTRUMBELJ, Erik. A Bayesian hierarchical latent trait model for estimating rater bias and reliability in large-scale performance assessment. PloS one, ISSN 1932-6203, Apr. 2018, vol. 13, no. 4, str. 1-16. [1537763779]
ROBNIK ŠIKONJA, Marko. Explanation of prediction models with ExplainPrediction. Informatica : an international journal of computing and informatics, ISSN 0350-5596, Mar. 2018, vol. 42, no. 1, str. 13-22. [1537765315]
CIGLIČ, Rok, PERKO, Drago. A method for evaluating raster data layers according to landscape classification scale. Ecological informatics, ISSN 1574-9541, 2017, 39, str. 45-55. [ 41426477]
CIGLIČ, Rok. Landscape classification with quantitative methods. Evaluating raster data layers according to the scale of classification : predavanje na Ss. Cyril and Methodius University, Faculty of Natural Sciences and Mathematics, Institute of Geography, Skopje (Makedonija), 22. maj 2017. [ 41589293]
CIGLIČ, Rok. Evaluating landscape classifications with machine learning : the case of Slovenia : prispevek na 4th International Scientific Conference Geobalcanica 2018 "Connect all geographers!", Ohrid (Makedonija), 15. maj 2018. [ 43886893]