https://helenbeetham.substack.com/p/on-language-language-models-and-writing
Corpus bat txikia denean, kalitate altukoa ez izateak ez du asko eragiten
Lengoaia naturala ulertzen duten adimen artifizialeko sistemak corpusetatik abiatuta trebatzen dira; alegia, testu-multzoetatik abiatuta. Oro har, corpus horiek zenbat eta handiagoak eta kalitate altuagokoak izan, orduan eta hobea izango da trebatutako sistema. Hizkuntza txiki askotan, ordea, corpusak ez dira handiak izaten, eta batzuetan ez dira kalitate oso altukoak, gainera. Kasu horietarako, zenbat eragiten du kalitateak? Ikerketa honek erantzun dio galdera horri, euskararen kasutik abiatuta.
Itzulpen automatikoak egiteko, edo lengoaia naturala ulertu behar duten beste aplikazio batzuetarako, oso garrantzitsua da sistemak zerekin trebatzen diren. Ikertzaileek ikusi dute ingelesezkoak ez diren datu-multzoetarako iturri primarioak, hala nola CommonCrawl, kalitate eztabaidagarrikoak izaten direla batzuetan. Webetatik automatikoki eskuratzen dituzten testuen bildumak dira. Bilduma horien kalitateak errendimenduan eragin dezakeen galera hobeto ulertzeko, azterlanak puntu fokal gisa hartu zuen euskarazko irudikapenaren ikaskuntza. Horretarako, CommonCrawlen automatikoki iragazitako datuak erabili ordez, ikuspegi pertsonalizatua probatzea erabaki zuten ikertzaileek. Eskuz identifikatu eta erauzi zituzten kalitate handiko edukiagatik ezagunak diren zenbait webgune. Datuen multzoak, EusCrawl izenekoak, 12,5 milioi dokumentu ditu; 33 webgunetakoak dira, denak Creative Commons lizentziadunak. Corpus berri hori ezagunak diren beste hizkuntza anitzeko datu-multzoen antzekoa da tamainan. Hala ere, EusCrawl askoz kalitate handiagokotzat jo zuten euskal hiztunek: dokumentuen % 66 kalitate onekotzat jo ziren; beste corpusen dokumentuen kasuan, berriz, % 33k baino gutxiagok jaso zituzten kalifikazio horiek.
Kalitatea ez da muga bat
Bitxia bada ere, itxurazko kalitate-desberdintasunarekin ere, lengoaia naturalaren ulermenean egindako lana ia berdina izan zen, entrenamendu aurreko zein datu-multzo erabili zen kontuan hartu gabe. Horrek iradokitzen duenez, euskara bezalako baliabide gutxiko hizkuntzak direnean, datuen kalitatea ez litzateke izango muga nagusia. Aldiz, erabakigarriagoak izan daitezke lanean beste faktore batzuk, hala nola datuen bolumena eta haien domeinu-estaldura.
“Onuragarriagoa izan liteke testu-multzo zabalagoak eta askotarikoagoak biltzea, kalitate hobea dutenak bilatu ordez”
Azken finean, baliabide gutxiko hizkuntzetan, CommonCrawletik eratorritako datu-multzoekin kalitate-arazo nabarmenak egon arren, litekeena da arazo horiek eragin handirik ez izatea lengoaia naturala ulertzeko zereginetan. Etorkizunerako, badirudi onuragarriagoa izango dela datu-multzo zabalagoak eta askotarikoagoak biltzea, ahalegina dauden datuen kalitatea hobetzera bideratu ordez. Gainera, hizkuntzen arteko transferentzia-metodoen potentziala nabarmentzen du ikerketak, datu eleaniztunak eraginkortasunez aprobetxatzeko. Hala ere, kontuan hartu behar da ohar horiek euskararako atazetan oinarritzen direla, eta litekeena dela emaitzak desberdinak izatea beste hizkuntza batzuetan edo bestelako zereginetan. Ikerketak erreferentzia-puntu berri bat ezarri du datu publikoetatik abiatuta, eta, kalitate handiko EusCrawl corpusaren bidez, ikertzaileek ikerketa irekiago eta errepikagarriago bat sustatu nahi dute euskararen esparruan.