iStockphoto

 

Gorrotoa sarean automatikoki detektatzeko teknikak ez dira oraindik perfektuak

Ziberjazarpena eta gorrotozko diskurtsoa handitzen ari dira, eta horrek jazarpenaren aurkako politikak eskatzen ditu. Hala ere, zaila da haiek detektatzea eta ikertzea, Facebook, Twitter eta gainerako sare sozialetan eta blogetan edukiak azkar ugaritzen ari direlako. Gainera, gorrotozko diskurtsoa identifikatzea konplexua izan daiteke, hiztunak kaltea eragiteko asmoa ote duen argitu behar delako. Gorrotozko diskurtsoa automatikoki atzemateko adimen artifizialeko teknikak baliatu dituzte. Ziberjazarpenaren garrantzia gorakada ikusita, baliabide gehiago behar dira detekzio-teknikak fintzeko.

Gorrotozko diskurtsoa da norbaiti buruz gaizki esaka aritzea arrazari edo generoari lotutako ezaugarriengatik. Stormfront foroak, gorrotozko diskurtsoaren datu-multzo berri bat argitaratu du, ikerketari laguntzeko asmoz. Eta lan horretarako adimen artifizialeko teknikak erabili dituzte, GitHub erreminta ezagunari esker eskuragarri daudenak.

“Gorrotozko diskurtsoan etniari eta generoari lotutako gorrotoa dira kategoriarik ohikoenak”

10.578 esaldi aztertu dituzte. Sistemak banaka sailkatzen du esaldi bakoitza: gorrotozko diskurtsoa ote den, ez den, edo berariazko harreman-kategoria bat, non gorrotozko diskurtsoa inplizitua baitago beste esaldi batzuekin konbinatzean. Sailkapen horren gidalerroak kontu handiz prestatu ziren, idazleen arteko koherentzia bermatzeko. Gero, esaldi laburregiak edo luzeegiak kendu zituzten, datu “garbiak” sortzeko.

Gorrotoa bilatzeko bidea

Datu-multzoa desorekatuta dago: gorrotorik gabeko esaldiak ugariagoak dira gorrotoa dutenak baino. Gorroto-indize bat kalkulatu zen, gorrotozko diskurtsoari lotutako hitzak identifikatzeko eta, beraz, gorrotoaren hiztegi bat osatzeko. Gorrotozko diskurtsoaren datu-basearekin gainjarrita, etnia eta generoa dira kategoriarik ohikoenak.

Artikuluak oinarrizko esperimentuak aurkezten ditu, gorrotozko testuen datu-multzo batean eginak. Datu-multzoko esaldiak etiketatuta daude —gorrotodunak edo gorrotorik ez dutenak—, esperimentuan egin ziren oharpenen baliozkotasuna frogatzeko eta etorkizuneko ikerketetarako erreferentzia ezartzeko.

Erroreak ere aztertu egin ziren. Sistemak “gorrotorik gabe” etiketaz sailkatzen zituen zenbait esaldi, lehenago eskuz “gorrotozkoa” etiketaz sailkatutakoak. Horren arrazoia izaten zen, oro har, sistemak testuingurua falta zuela. Eta kontrako akats-mota ere izaten zen; sistemak “gorrotozkoa” sailkatzen zituen zenbait esaldi, lehenago eskuz “gorrotorik gabe” etiketaz sailkatutakoak. Arrazoia izaten zen esaldiak ohiko hiztegi iraingarria erabiltzen zuela, kalterik egiteko asmorik gabe.

Esperimentuek gorroto-adierazpenak sailkatze-metodoen erronkak nabarmendu zituzten, batez ere testuingurua eta ezagutza funtsezkoak direnean emaitza zehatzak lortzeko. Gai garrantzitsua izanik, baliabide gehiago jarri beharko dira sarean gorrotoa detektatzeko teknikak hobeak izan daitezen.