Hizkuntzalaritzan eta, bereziki, hizkuntza-teknologietan, corpus konparagarriak gero eta garrantzia handiagoa hartzen ari dira azken urteotan. Artikulu honetan corpus konparagarriak zer diren, eta hizkuntzalaritzan nahiz hizkuntza-teknologietan zertarako balio dezaketen azaltzen saiatuko gara.

Testu-corpusak idatzizko dokumentuen bildumak dira, eta oinarrizko baliabideak dira hizkuntza naturalaren zenbait ezaugarri aztertu ahal izateko edota hipotesiak kontrastatzeko. Hizkuntza naturalaren prozesamendua egiteko behar den ezagutza inferitzeko ere oso garrantzitsuak dira. Hala ere, corpus-mota asko daude, eta, zereginaren arabera, batzuk aproposagoak dira besteak baino. Corpus konparagarriak, adibidez, antzeko testuez osatutako bildumak dira. Dokumentuak “antzekoak” direla esateko irizpide ezberdinak badaude ere continue reading…