Vsebina predmeta temelji na izboru sodobnih tehnik obdelave naravnega jezika, temelječih na globokem učenju, podkrepljenih s praktično rabo. V predavanjih predstavimo glavne pristope in pojasnimo delovanje posameznih metod in njihovo teoretično ozadje. V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.
1. Uvod v obdelavo naravnega jezika: motivacija, razumevanje jezika, dvoumnost, tradicionalni, statistični in nevronski pristopi.
2. Predobdelava in normalizacija besedila: regularni izrazi, gramatike, podobnost nizov, napredne tehnike normalizacije, lematizacija.
3. Jezikovni viri: korpusi, slovarji, tezavri, mreže in semantične zbirke podatkov, WordNet.
4. Podobnost besedil: mere, metode gručenja, kosinusna razdalja, jezikovne mreže in grafi.
5. Predstavitev besedil: redke in goste vložitve; jezikovni modeli; vložitve besed, stavkov in dokumentov.
6. Globoke nevronske mreže za besedila: rekurentne nevronske mreže, konvolucijske mreže za besedila, transformerji.
7. Nevronske vložitve: word2vec, fastText, ELMo, BERT, medjezikovne vložitve.
8. Veliki jezikovni modeli: BERT, GPT in T5, večmodalni modeli.
9. Plitva računska in leksikalna semantika: oblikoskladenjsko označevanje, skladenjsko razčlenjevanje, prepoznavanje imenskih entitet, označevanje semantičnih vlog.
10. Besedni pomeni in njihovo razločevanje.
11. Afektivna analiza: sentiment, čustva.
12. Povzemanje besedil, odgovarjanje na vprašanja in razumevanje besedil: metode in vrednotenje.
13. Strojno prevajanje: metode in vrednotenje