07.
maj
Zagovor diplomskega dela: Tjaš Ajdovec
ob 12:15

Naslov diplomskega dela: Zaznavanje zavajanja v kliničnih raziskavah z velikimi jezikovnimi modeli

 

Povzetek:

Zavajanje v raziskovalnih poročilih zajema prakse poročanja, ki izkrivljeno predstavijo rezultate. Posebej kritično je področje medicine, kjer je zavajanje prisotno pri več kot 50% randomiziranih kontroliranih raziskav (RCT), ki ne dosežejo praga statistične značilnosti. Primerjava napovedanega in poročanega izida je ključnega pomena za zaznavanje več vrst zavajanja, kot je npr. selektivno poročanje. Izdelali smo sistem za strojno zaznavanje zavajanja v kliničnih raziskavah. Uporabili smo 300 parov izidov, označenih s semantično podobnostjo. Preizkusili smo statistične modele, maskirne jezikovne modele (MLM) in generativne velike jezikovne modele (LLM). Generirali smo ocene podobnosti in uporabili Youdenov indeks za določanje praga klasifikacije. Predlagan pristop k primerjavi izidov z LLM zajema oblikovanje ukaznega poziva, generiranje ocen podobnosti na podlagi verjetnosti žetonov in večinsko glasovanje. Rezultati na testni množici 2500 primerov so s točnostjo 90% in F1 vrednostjo 78% boljši od namenskih modelov za ocenjevanje semantične podobnosti stavkov, vendar zaostajajo za prilagojenimi različicami modela BERT. Prednost našega pristopa je sposobnost generiranja razlag za klasificirane primere.

 

Mentor: prof. dr. Marko Robnik Šikonja

Somentor: dr. Simon Šuster

 

Komisija za zagovor:

izr. prof. dr. Tomaž Curk (predsednik),

prof. dr. Marko Robnik Šikonja (mentor),

doc. dr. Jana Faganeli Pucer (članica).

 

Prostor: Diplomska soba