Vsebina predmeta temelji na izboru sodobnih statističnih tehnik obdelave naravnega jezika podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku. Uvod: motivacija, razumevanje jezika, Turingov test, tradicionalni in statističen pristop. Jezikovni viri: korpusi, slovarji, tezavri, omrežja in semantične baze, pregled orodij. Lingvistika: fonologija in morfologija, sintaktična analiza, formalne gramatike. Uporaba avtomatov in gramatik: avtomati in algoritmi za iskanje nizov, prepoznavanje
sintakse, gramatično razčlenjevanje. Oblikoslovno označevanje besedil: vrste oznak, lematizacija, ngrami, skriti markovski model, označevanje s pravili. Računska in leksikalna semantika: predstavitve pomena, metode s pravili, leksikalna semantika. Razvrščanje besedil in mere podobnosti: kosinusna razdalja, jezikovna omrežja in grafi,
WordNet, vektorska predstavitev, uteževanje vektorjev, semantična korelacija. Tekstovno rudarjenje: prilagojene klasifikacijske metode, metoda podpornih vektorjev na dokumentih, izbira atributov. Globoka omrežja in besedila: predstavitev besedil za uporabo v globokih nevronskih mrežah, avtoenkoderji, rekurzivne nevronske mreže. Povzemanje: predstavitve besedil, matrična faktorizacija, ekstrakcijske metode, povpraševane metode. Strojno prevajanje: jezikovni model, prevajalni model, poravnava jezikov, parametri modelov, izzivi v prevajanju. Dopolnjevanje besedil z drugimi viri informacij: heterogena omrežja, predstavitev word2vec, heterogeni ansambli klasifikatorjev, analiza povezav. Metodologija in evalvacija pri obdelavi naravnega jezika.