Naslov magistrskega dela: Avtomatska ekstrakcija podatkov o zaposlenih s spletišč podjetij
Povzetek: V tem delu se ukvarjamo s problemom ekstrakcije seznama oseb s poljubnega spletišča. V ta namen implementiramo spletnega pajka za identifikacijo potencialnih podstrani z osebami in ekstraktor podatkov, ki s poljubne spletne strani izvleče podatke o osebah.
Pokažemo, da osnovne metode, kot so primerjava imena s seznamom imen, ne dosežejo sprejemljive natančnosti. Pokažemo, da je analiza strukture seznama in prenos odkritega znanja ključna metoda za izboljšavo rezultatov do stopnje, kjer dosežemo sprejemljiv nivo natančnosti. S pomočjo tega pristopa smo izboljšali F1 mero za 50 % na razvojni in za 35 % na skriti testni množici.
Mentor: doc. dr. Slavko Žitnik
Komisija za zagovor:
izr. prof. dr. Matjaž Kukar, predsednik
doc. dr. Dejan Lavbič, član
doc. dr. Rok Rupnik, član
Povezava do video kanala, po katerem se bo prenašal zagovor in ga bo možno spremljati, bo dodana najkasneje na dan zagovora (predvidoma 30 minut pred terminom izvedbe zagovora) na spletni strani: https://ucilnica.fri.uni-lj.si/course/view.php?id=35