https://helenbeetham.substack.com/p/on-language-language-models-and-writing

 

Cuando un corpus es pequeño, no influye mucho que no sea de gran calidad

Los sistemas de inteligencia artificial que comprenden el lenguaje natural se forman a partir de corpus, es decir, de conjuntos de textos. En general, cuanto más grandes y de mayor calidad sean estos corpus, mejor será el sistema entrenado. Sin embargo, en muchas lenguas minoritarias los corpus no suelen ser grandes, y a veces no son de muy alta calidad. En estos casos, ¿cuánto influye la calidad? Este estudio responde a esta pregunta a partir del caso del euskera.

Para realizar traducciones automáticas o para otras aplicaciones que requieran entender el lenguaje natural, es muy importante con qué se entrenan los sistemas. Los investigadores han descubierto que las fuentes primarias para conjuntos de datos no ingleses, como CommonCrawl, a veces son de una calidad cuestionable. Son recopilaciones de textos obtenidas automáticamente de sitios web. Para comprender mejor cómo la calidad de esas recopilaciones puede afectar negativamente al rendimiento, el estudio tomó como punto de partida el aprendizaje de la representación en euskera. Para ello, en lugar de utilizar datos filtrados automáticamente en CommonCrawl, el grupo investigador decidió probar una visión personalizada. Identificaron manualmente diversos sitios web conocidos por su contenido de alta calidad y extrajeron los textos. El conjunto de datos, denominado EusCrawl, consta de 12,5 millones de documentos, procedentes de 33 sitios web, todos ellos con licencia Creative Commons. Este nuevo corpus es similar en tamaño a otros conjuntos de datos multilingües conocidos. Sin embargo, EusCrawl fue calificado por las personas vascoparlantes como de mucha mayor calidad: el 66 % de los documentos obtuvieron la calificación de buena calidad, mientras que en el caso de los otros corpus menos del 33 % obtuvieron esta calificación.

La calidad no es un límite

Curiosamente, incluso con una aparente diferencia de calidad, el trabajo realizado en la comprensión del lenguaje natural fue prácticamente el mismo, independientemente del conjunto de datos previos al entrenamiento utilizados. Esto sugiere que cuando se trate de lenguas de escasos recursos, como el euskera, la calidad de los datos no sería la principal limitación. Por el contrario, otros factores, como el volumen de datos y los dominios que estos abarcan pueden ser más determinantes en el trabajo.

“Puede ser más beneficioso reunir conjuntos de texto más amplios y variados, en lugar de buscar los de mejor calidad”

En definitiva, en las lenguas con pocos recursos, a pesar de los evidentes problemas de calidad con los conjuntos de datos derivados de CommonCrawl, es posible que estos no tengan mucha influencia en la comprensión del lenguaje natural. De cara al futuro, parece que será más beneficioso reunir conjuntos de datos más amplios y variados, en lugar de centrar el esfuerzo en mejorar la calidad de los datos existentes. Además, la investigación destaca el potencial de los métodos de transferencia entre lenguas para el aprovechamiento eficiente de datos multilingües. Sin embargo, hay que tener en cuenta que estas notas se basan en tareas para el euskera y que los resultados pueden variar en otras lenguas u otras tareas. La investigación ha establecido un nuevo punto de referencia a partir de datos públicos y, a través del corpus de alta calidad EusCrawl, los investigadores quieren promover una investigación más abierta y reproducible en el ámbito del euskera.