• P6-0411 - Jezikovni viri in tehnologije za slovenski jezik
Naročnik: Javna agencija za raziskovalno dejavnost RS ( P6-0411 )
Tip projekta: Raziskovalni programi ARRS
Trajanje projekta: 2019 - 2024
  • Opis

Program je namenjen raziskovanju sodobnega slovenskega jezika predvsem s stališča potreb in možnosti, ki jih prinaša pospešena digitalizacija jezikov in hiter razvoj informacijsko-komunikacijskih tehnologij. Cilj programa je omogočiti razvoj mednarodno primerljivih jezikovnih virov in tehnologij z upoštevanjem specifik slovenščine in upoštevanjem jezikovnih potreb govorcev in govork slovenščine.

Interdisciplinarni program zajema jezikoslovje, računalništvo in informatiko (jezikovne in govorne tehnologije) in vzgojo in izobraževanje (bralna pismenost). Program izvajajo izkušeni in mednarodno uveljavljeni raziskovalci Centra za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT UL). Raziskave potekajo po petih krovnih temah: jezikovni opis, standardizacija, jezikovne tehnologije, terminologija in večjezičnost. Zajemajo vse jezikovne ravnine (besediloslovje, semantika, skladnja, oblikoslovje, glasoslovje), s fokusom na celostni obravnavi jezikovnih pojavov. Izhodišče je empirično, raziskave temeljijo na podatkih o realni rabi sodobne slovenščine, ki so zbrani v besedilnih korpusih in podobnih virih. Na področjih terminologije in večjezičnosti program vključuje tudi raziskave stika slovenščine z drugimi jeziki za potrebe izdelave večjezičnih virov in tehnologij (npr. za strojno prevajanje). Raziskovalna metodologija izhaja iz sodobnih metod strojnega učenja in podatkovnega rudarjenja, ki se za druge jezike uporabljajo v teoretskem okviru računalniškega in korpusnega jezikoslovja.

Faze projekta:

1. Razvoj korpusnojezikoslovnih metod za analizo sodobne slovenščine

1.1 Metode jezikoslovne analize nestrukturiranih tekstovnih podatkov.

1.2 Metode avtomatskega luščenja jezikovnih podatkov iz (jezikoslovno označenih) korpusov.

1.3 Metode strojne analize strukturiranih jezikovnih virov za potrebe leksikogramatičnega opisa sodobne slovenščine.

1.4 Na korpusni analizi temelječ komunikacijski leksikogramatični opis sodobne slovenščine za potrebe jezikovnih tehnologij in e-izobraževanja.

2. Razvoj metod za računalniško-jezikoslovne raziskave večjezičnosti

2.1 Metode luščenja večjezičnih podatkov iz strukturiranih in nestrukturiranih virov za potrebe večjezične (kontrastivne) analize.

2.2 Metode povezovanja jezikovnih podatkov v večjezičnih virih in vključevanja večjezičnih jezikovnih podatkov v Linked (Linguistic) Open Data.

2.3 Razvoj metod statističnega in hibridnega strojnega prevajanja za slovenščino.

3. Analize in razvoj metod za izboljšanje bralne pismenosti v digitalnem okolju

3.1 Analiza (pisne) jezikovne produkcije v šolskem procesu.

3.2 Metode za individualizacijo opismenjevanja.

3.3 Podpora testiranju in diagnostiki jezikovnih težav.

4. Razvoj naprednih tehnologij za analizo jezika

4.1. Nadgradnja metodologije za rudarjenje heterogenih informacijskih omrežij.

4.2. Razvoj novih metod za izbor pomembnih atributov.

4.3. Prilagoditev metodologije globokih nevronskih mrež za specifične jezikovne probleme in slovenščino.

4.4. Razvoj metod razlage odločitev in njihove prilagoditve specifikam besedil.

Bibliografske reference:

MIOK, Kristian, ŠKRLJ, Blaž, ZAHARIE, Daniela, ROBNIK ŠIKONJA, Marko (2022). To BAN or not to BAN: Bayesian attention networks for reliable hate speech detection. Cognitive computation.

KLEMEN, Matej, KRSNIK, Luka, ROBNIK ŠIKONJA, Marko (2022). Enhancing deep neural networks with morphological information. Natural language engineering. pp. 1-23.

ŽAGAR, Aleš, ROBNIK ŠIKONJA, Marko (2022). Cross-lingual transfer of abstractive summarizer to less-resource language. Journal of intelligent information systems. Feb., vol. 58, no. 1, pp. 153-173.

ULČAR, Matej, ROBNIK ŠIKONJA, Marko (2022). Cross-lingual alignments of ELMo contextual embeddings. Neural computing & applications. pp. 1-19.

MARTINC, Matej, POLLAK, Senja, ROBNIK-ŠIKONJA, Marko (2021): Supervised and Unsupervised Neural Approaches to Text Readability. Computational Linguistics, 1-39.

LAVRAČ, Nada, ŠKRLJ, Blaž, ROBNIK-ŠIKONJA, Marko (2020). Propositionalization and embeddings: Two sides of the same coin. Machine Learning, 109(7): 1465-1507.

ŠKVORC, Tadej, KREK, Simon, POLLAK, Senja, ARHAR HOLDT, Špela, ROBNIK ŠIKONJA, Marko (2019). Predicting Slovene text complexity using readability measures. Contributions to the modern history, vol. 59, no. 1, pp. 198-220.