Odprta ekstrakcija podatkov za slovenski in srbski jezik

V okviru projekta bomo raziskali in predlagali seznam leksikalno-sintaktičnih omejitev za odprto ekstrakcijo podatkov v slovenskem in srbskem jeziku. Odprta ekstrakcija podatkov (Open IE) je bila predstavljena v letu 2007 (Banko and Etzioni, 2007) z glavnim ciljem, da se razvije splošne, domensko neodvisne ekstraktorje podatkov, ki bi bili primerni za delovanje nad spletnimi besedili. Za angleški jezik je bil cilj dosežen z razvojem postopkov, ki so neodvisni od ročno označenih podatkovnih množic ali domensko sprecifičnih terminov. Rezultat ekstracije je tako predstavljala množica trojic v obliki subjekt, predikat in objekt.

Tradicionalni postopki ekstrakcije podatkov (IE) (Sarawagi, 2008) sestojijo iz več glavnih nalog, kot so ekstrakcija imenskih entitet, ekstrakcija povezav in odkrivanje koreferenčnosti. Obstoječe metode so večinoma nadzorovane in posledično zahtevajo učenje nad ročno označenimi podatkovnimi množicami, ki so zelo omejene in domensko specifične. V primeru slovenskega in srbskega jezika še ni bilo razvitih podatkovnih množic, ki bi sploh omogočile izvedbo celostne ekstrakcije podatkov. Kvečjemu lahko pri procesiranju jezika v našem primeru uporabimo metode za predprocesiranje, kot so lematizatorji, oblikoslovni označevalniki in plitki razčlenjevalniki. Slednje metode so uporabne za sintaktično označevanje besedil, ki jih bomo v raziskovali v okviru projekta.

Značilnost slovanskih jezikov je, da lahko besede nastopajo v zelo različnih oblikah, kar zelo otežuje avtomatsko ekstrakcijo podatkov, vendar se lahko izkaže uporabno pri definiciji omejitev za ekstrahiranje domensko neodvisnih povezav (Przepiorkowski, 2007). Slovenski in srbski jezik sestojita iz podobne strukture, zato bomo razvili ogrodje za odprto ekstrakcijo informacij, ki bo uporabno za oba jezika. Za vsak jezik bomo uporabili svoje tehnike za izvedbo predprocesiranja in raziskali omejitve, s katerimi bomo omogočili ekstrakcijo povezav iz vhodne podatkovne množice.

Pri raziskovanju bomo uporabili spletna novičarska besedila in uravnotežene podatkovne vire, ki so jih razvili lingvisti. Omenjeni korpusi so bili uporabljeni tudi kot učni podatki za izgradnjo obstoječih metod za predprocesiranje. Poleg spletnih besedil bomo uporabili sledeče podatkovne množice:

- Za slovenski jezik: JOS100k, Gigafida, Kres (http://www.slovenscina.eu/)

- Za srbski jezik: SrpKor2013, SrpLemKor (http://korpus.matf.bg.ac.rs/prezentacija/korpusi.html)

Ker zgornje podatkovne množice ne vsebujejo semantičnih oznak, bomo morali rezultate v okviru našega projekta evalvirati ročno in s pomočjo semantičnih primerjav. Ocenjevanje s pomočjo semantičnih primerjav bomo izvedli avtomatsko z analizo ujemanj ekstrahiranih trojic s podatki v slovenskem in srbskem delu semantične podatkovne baze DBPedia (http://dbpedia.org/). Cilj evalvacije bo preveriti, kolikšen del ekstrahiranih trojic predstavlja smiselne povezave in ne le splošno obliko samostalnik-glagol-samostalnik.

Glavni cilji sodelovanja so sledeči:

a) Načrtovanje in razvoj ogrodja za raziskovanje besedil in definicijo leksikalno-sintaktičnih pravil: Ogrodje bo omogočalo obogatitev vhodne podatkovne množice s tehnikami za predprocesiranje, ekstrakcijo trojic glede na podane omejitve, grafičen način gradnje omejitev, filtriranje rezultatov in metode za evalvacijo.

b) Rangiran seznam leksikalno-sintaktičnih omejitev: Seznam omejitev, s katerimi se pri evalvaciji dosežejo najboljši rezultati. Vsaka omejitev bo opisana in ustrezno utemeljena iz lingvističnega stališča.

c) Gostovanje javnega spletnega servisa za vnašanje ali iskanje po obstoječih podatkovnih množicah: Končne metode bomo zbrane vključili v javni spletni servis, ki bo omogočal lingvistom in zainteresirani javnosti pridobiti boljši pregled nad podatki ali odkriti novo znanje iz podatkov. Osnovne storitve spletnega servisa bodo izdelane po zgledu sistema za odprto ekstrakcijo podatkov, ki je na voljo za angleški jezik (http://openie.allenai.org/) in je trenutno najbolj izpopolnjen. Poleg tega bomo za vse uporabnike omogočali definicije novih omejitev in vnašanje dodatnih množic podatkov.

Celotna zasnova in implementacija ogrodja ter spletnih storitev bo rezultat našega skupnega sodelovanja, medtem ko bomo raziskovanje podatkovnih množic in definicijo omejitev opravili bolj ločeno, saj bodo tej deli zelo odvisni od jezika. Skupno bomo nato preverili, kako podobne so omejitve med obema jezikoma.

Sodelavci na projektu