• Razkritje časovnih odvisnosti v visokodimenzionalnih podatkih
Novice

V dobi vse večje količine kompleksnih podatkov je eden ključnih izzivov, s katerimi se soočajo raziskovalci in analitiki, njihovo učinkovito razumevanje. Pogost pristop pri raziskovanju takšnih podatkov je zmanjševanje dimenzionalnosti – torej pretvorba podatkov z več sto ali tisoč spremenljivkami v enostavnejšo obliko, ki omogoča vizualizacijo v dveh dimenzijah. Tako lahko uporabniki lažje zaznavajo strukture, vzorce in posebnosti, ki bi sicer ostale skrite.


O vizualizaciji visokodimenzionalnih podatkov in izboljšanju njihove interpretacije z razkrivanjem časovnih odvisnosti pišeta asist. Pavlin G. Poličar in prof. dr. Blaž Zupan s Fakultete za računalništvo in informatiko UL v znanstvenem članku Uncovering Temporal Patterns in Visualizations of High-Dimensional Data, objavljenem v reviji Machine Learning.

 

V članku avtorja izpostavljata, da sodobni podatkovni nabori pogosto vsebujejo milijone zapisov z na tisoče meritev, kar otežuje razumevanje njihove strukture in odkrivanje zanimivih vzorcev. Raziskovalci zato pogosto posegajo po tehnikah zmanjševanja razsežnosti, ki podatke iz visoke razsežnosti preslikajo v dve dimenziji in jih prikažejo v razsevnem diagramu. Na ta način lahko raziskovalci in podatkovni analitiki vizualno prepoznavajo zanimive vzorce v kompleksnih naborih podatkov.

 

Vendar pa obstoječe metode, kot sta t-SNE in UMAP, ne upoštevajo časovne odvisnosti med vzorci, zaradi česar je težko zaznati časovne trende, ki se pojavljajo v večini realnih podatkovnih naborov.

 

V članku je predstavljen nov pristop, ki tem metodam omogoča modeliranje časovnih odvisnosti med vzorci, kar se odraža v časovno bolj verodostojnih vizualizacijah. Takšne vizualizacije uporabnikom omogočajo boljše razumevanje spreminjanja podatkov skozi čas in ponujajo globlji vpogled v časovno odvisne podatke.

 

Levo: prikaz podatkov s standardnimi metodami. Desno: metoda iz članka. Podatki predstavljajo preprost cikel, ki ga je na levi sliki težko prepoznati, medtem ko je vzorec na desni jasno razviden.

 

Celoten članek lahko preberete na povezavi: Uncovering temporal patterns in visualizations of high-dimensional data