Splet je skoraj neomejen vir podatkov. Z uporabo iskalnikov, kot so Google, Bing in podobni, lahko hitro najdemo vsebine, ki nas zanimajo. Vendar je teh zelo veliko in pogosto si ne moremo privoščiti, da bi prebrali vse spletne strani, ki nam jih kot zadetke na neko poizvedbo vrne iskalnik. Rešitev so računalniški programi, ki znajo iz velikih količin nestrukturiranih ali delno strukturiranih podatkov (kar je tudi splet) izluščiti relevantne informacije in nam jih posredovati v strukturirani obliki.
CILJ PREDMETA
Cilj predmeta Iskanje in ekstrakcija podatkov s spleta je študente naučiti, kako razviti računalniške programe za iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljenem predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in izluščijo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.
VSEBINA
Glavne teme, ki jih bomo obravnavali, zajemajo:
PREDZNANJA
Od študentov, ki vpišejo ta predmet, pričakujemo vsaj osnovno poznavanje programskih jezikov/tehnologij, kot so: Java, JavaScript, Python, HTML, CSS, struktura spletnih strani.
OBVEZNOSTI ŠTUDENTOV
Študent bo moral za pozitivno oceno uspešno zagovarjati tri projekte (seminar) ter na pisnem izpitu zbrati vsaj 50% vseh točk.