iStockphoto

 

Les techniques de détection automatique de la haine sur Internet ne sont pas encore parfaites

Le cyberharcèlement et les discours de haine sont en pleine augmentation, ce qui nécessite que soient définies des politiques contre le harcèlement. Il est néanmoins difficile de les détecter et d’enquêter à leur sujet puisque sur Facebook, Twitter et autres réseaux sociaux et blogs, les contenus augmentent rapidement. Il peut par ailleurs s’avérer complexe d’identifier le discours de haine puisqu’il est nécessaire de vérifier si son auteur a l’intention de causer du tort. Pour détecter automatiquement un discours de haine, des techniques d’intelligence artificielle ont été utilisées. Face à l’augmentation de l’importance du cyberharcèlement, des moyens supplémentaires sont nécessaires pour affiner les techniques de détection.

Le discours de haine consiste à parler mal de quelqu’un en raison de ses caractéristiques raciales ou de genre. Le forum Stormfront a publié un nouvel ensemble de données concernant le discours de haine dans le but d’aider les recherches. Ils ont à cet effet utilisé des techniques d’intelligence artificielle disponibles grâce à l’outil bien connu GitHub.

« Dans le discours de haine, les catégories les plus fréquentes sont la haine liée à l’ethnie et au genre ».

10.578 phrases ont été analysées. Le système répertorie chacune d’entre elles de manière individuelle : s’il s’agit d’un discours de haine, si ce n’est pas le cas, ou toute autre catégorie spécifique dans laquelle le discours de haine est implicite s’il est combiné avec d’autres phrases. Les directrices de ce classement sont soigneusement conçues pour garantir la cohérence entre les auteurs. Les phrases trop courtes ou trop longues pour créer des données « propres » sont ensuite éliminées.

La manière de détecter la haine

L’ensemble de données est décompensé : les phrases sans haine sont plus abondantes que celles comportant de la haine. On a calculé un indice de haine pour identifier les mots associés au discours de haine et, par conséquent, composer un dictionnaire de la haine. Si on les superpose à la base de données du discours de la haine, les catégories les plus fréquentes sont l’ethnie et le genre.

Cet article présente des expériences basiques réalisées sur un ensemble de données de textes de haine. Les phrases de l’ensemble de données sont étiquetées – avec haine ou sans haine – pour démontrer la validité des notes prises lors de l’expérience et pour établir la référence pour de futures recherches.

Les erreurs ont également été analysées. Le système classait plusieurs phrases avec l’étiquette « sans haine » qui avaient auparavant été classées manuellement avec l’étiquette « avec haine ». La raison était en général l’absence de contexte du système. Il existait également le type d’erreur contraire ; le système classait plusieurs phrases avec l’étiquette « avec haine » alors qu’elles avaient auparavant été classées manuellement avec l’étiquette « sans haine ». La raison était que la phrase utilisait le vocabulaire offensif habituel, sans intention de causer du tort.

Les expériences ont permis de souligner les problèmes des méthodes de classement des expressions de haine, surtout lorsque le contexte et la connaissance sont fondamentales pour obtenir des résultats concrets. Étant donné l’importance du sujet, il sera nécessaire de disposer de moyens supplémentaires pour améliorer les techniques de détection des propos haineux sur Internet.