S hitrim vzponom umetne inteligence je v ospredje večkrat postavljena problematika dejanske zanesljivosti metod umetne inteligence. Kot odgovor na to, sta Domen Vreš in prof. dr. Marko Robnik Šikonja objavila znanstveni članek »Preventing deception with explanation methods using focused sampling« v reviji Data mining and knowledge discovery, v katerem predlagata spremembe metod, da bi bile bolj zanesljive oziroma odpornejše proti poskusom raznih manipulacij.
Napovedni modeli strojnega učenja se vse bolj uporabljajo na občutljivih področjih, kot so zdravstvo, sodstvo, bančništvo in zavarovalništvo. Na teh in mnogih drugih področjih je poleg točnosti napovedi pomembna tudi razumljivost modelov, saj sicer uporabniki modelom ne zaupajo.
Za najuspešnejše kompleksne napovedne modele se za razlago uporabljajo perturbacijske metode razlage, za katere se je pred kratkim pokazalo, da so ranljive na morebitne manipulacije lastnikov modela, ki bi želeli prikriti pristranost modela, npr. rasizem. Ta slabost razlagalnih metod bi lahko privedla do hudih posledic, saj bi se lahko zamajalo zaupanje uporabnikov in javnosti na občutljivih področjih posledično zavrl tehnološki napredek.
V objavi je predlagana sprememba obstoječih perturbacijskih razlagalnih metod, da te postanejo odpornejše proti poskusom manipulacij. Predlagana je zamenjava perturbacijskega vzorčenja z naučenimi generatorji podatkov, ki bolje zajamejo lastnosti podatkovnih množic. Za spremenjene metode razlage je pokazano, da so robustnejše od originalnih metod, za nekatere pa je razvidno tudi hitrejše delovanje. Izvorno kodo izboljšanih metod razlage avtorja delita pod odprtokodno licenco.
Članek si lahko v celoti preberete na povezavi tukaj.