• Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres
Naročnik: Ministrstvo za kulturo
Tip projekta: Ostali nacionalni projekti
Trajanje projekta: 2015 - 2020
  • Opis

Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres

Korpus Gigafida je referenčni korpus slovenščine, tj. zbirka slovenskih besedil najrazličnejših zvrsti, od dnevnih časopisov, revij do knjižnih publikacij vseh vrst, spletnih besedil, prepisov parlamentarnih govorov in podobno, vsebuje okoli 1.2 milijarde besed v 40.000 dokumentih. Iz njega so izpeljani uravnoteženi korpus Kres in prosto dostopna podkorpusa ccGigafids in ccKres. Trenutno korpusi obsegajo besedila do leta 2012. Več podatkov je na voljo na spletnih straneh: http://www.slovenscina.eu/korpusi/.

Projekt nadgradnje teh korpusov ima tri cilje: usmerjeno zbiranje novih gradiv, strojna obdelava novih in obstoječih gradiv ter javna dostopnost nadgrajenih korpusov, njihova distribucija in javna promocija.

Pri zbiranju novih gradiv bo poudarek na trenutno ne dovolj dobro zastopanih besedilih (npr. učbeniki in druga besedila namenjena učencem in dijakom), besedilih z novičarskih portalov in dnevnih časopisov. Cilj je korpus Gigafida povečati na 1.5 milijarde besed. Pri strojni obdelavi besedil bodo vsa besedila oblikoslovno označena na enoten način in zapisana v standardnem zapisu. Izvedena bo deduplikacija. Vsi nadgrajeni korpusi bodo javno dostopni preko konkordančnikov v infrastrukturi CLARIN in predstavljeni splošni in strokovni javnosti.