https://helenbeetham.substack.com/p/on-language-language-models-and-writing

 

Lorsqu’un corpus est petit, sa qualité médiocre n’a pas beaucoup d’importance

Les systèmes d’intelligence artificielle qui comprennent le langage naturel sont formés à partir de corpus, c’est-à-dire d’ensembles de textes. En général, plus ces corpus sont grands et de qualité, plus le système entraîné sera bon. Mais dans le cas de nombreuses langues minoritaires néanmoins, les corpus ne sont généralement pas très vastes et ne sont parfois pas de très bonne qualité. Dans ces cas, quel est l’impact de la qualité ? Cette étude répond à cette question à partir du cas de la langue basque, l’Euskera.

Pour faire des traductions automatiques ou pour d’autres applications nécessitant la compréhension du langage naturel, l’outil d’entraînement des systèmes est très important. Les chercheurs ont découvert que les sources primaires pour les ensembles de données non anglaises, comme CommonCrawl sont parfois d’une qualité peu fiable. Il s’agit de compilations de textes obtenus automatiquement de sites web. Il s’agit de compilations de textes obtenus automatiquement de sites web. Pour mieux comprendre de quelle manière la qualité de ces compilations peut impacter négativement le rendement, l’étude est partie de l’apprentissage de la représentation en euskera. Au lieu d’utiliser des données directement filtrées par CommonCrawl, le groupe de chercheurs a décidé de tester une vision personnalisée. Ils ont identifié manuellement plusieurs sites web connus pour la qualité de leur contenu et en ont extrait les textes. L’ensemble des données appelé EusCrawl comprend 12,5 millions de documents provenant de 33 sites web, tous avec une licence Creative Commons. La taille de ce nouveau corpus est similaire à celle d’autres ensembles de données multilingues connus. Des personnes bascophones ont néanmoins affirmé que la qualité d’EusCrawl était bien supérieure : 66% des documents ont été jugés de bonne qualité, alors que dans le cas des autres corpus, moins de 33% des documents ont obtenu cette qualification.

La qualité n’est pas une limite

Curieusement, même avec une différence de qualité apparente, le travail réalisé dans la compréhension du langage naturel a été pratiquement le même, indépendamment de l’ensemble de données préalables à l’entraînement utilisées. Ce fait suggère que lorsqu’il s’agit de langues avec peu de moyens, comme l’euskera, la qualité des données n’est pas la limitation principale. Au contraire d’autres facteurs comme le volume des données et les domaines que ceux-ci couvrent peuvent être plus déterminants pour le travail.

« Il peut s’avérer plus judicieux de réunir des ensembles de texte plus amples et variés que de rechercher ceux de meilleure qualité ».

En définitive, dans les langues avec de faibles moyens, malgré les problèmes évidents de qualité avec les ensembles de données issues de CommonCrawl il est possible que ceux-ci n’aient pas beaucoup d’impact sur la compréhension du langage naturel. Il semble qu’à l’avenir il sera plus avantageux de réunir des ensembles de données plus vastes et variés au lieu de concentrer les efforts sur l’amélioration de la qualité des données existantes. Par ailleurs la recherche souligne le potentiel des méthodes de transfert entre les langues pour tirer le meilleur parti des données multilingues. Il faut savoir néanmoins que ces notes sont basées sur des travaux pour l’euskera et que les résultats peuvent varier dans d’autres langues ou d’autres travaux. La recherche a défini un nouveau point de référence à partir de données publiques et, par le corpus de grande qualité EusCrawl, les chercheurs veulent encourager une recherche plus ouverte et reproductible dans le domaine de l’euskera.