Hizkuntzalaritzan eta, bereziki, hizkuntza-teknologietan, corpus konparagarriak gero eta garrantzia handiagoa hartzen ari dira azken urteotan. Artikulu honetan corpus konparagarriak zer diren, eta hizkuntzalaritzan nahiz hizkuntza-teknologietan zertarako balio dezaketen azaltzen saiatuko gara.
Testu-corpusak idatzizko dokumentuen bildumak dira, eta oinarrizko baliabideak dira hizkuntza naturalaren zenbait ezaugarri aztertu ahal izateko edota hipotesiak kontrastatzeko. Hizkuntza naturalaren prozesamendua egiteko behar den ezagutza inferitzeko ere oso garrantzitsuak dira. Hala ere, corpus-mota asko daude, eta, zereginaren arabera, batzuk aproposagoak dira besteak baino. Corpus konparagarriak, adibidez, antzeko testuez osatutako bildumak dira. Dokumentuak “antzekoak” direla esateko irizpide ezberdinak badaude ere —antzekotasuna ezaugarri askoren arabera zehaztu baitaiteke—, gaia eta erregistro berdina izatea eskatu ohi zaie (adibidez, zientziari buruzko berriak). Corpus konparagarriak elebidunak baldin badira, hizkuntzen arteko fenomenoen azterketak egin ahal izango ditugu. Izan ere, corpus konparagarriek corpus paraleloen (itzulpen-memoriak) zenbait gabezia estaltzen dituzte. Batetik, itzulpenek ez dute islatzen helburu-hizkuntzaren aukera linguistiko guztien errepertorioa, beste hizkuntza bat erreferentziatzat hartuta sortutako testuak baitira, eta, ondorioz, itzulpena kutsatuta baitago jatorrizko hizkuntzaren idiosinkrasia estilistikoez. Bestetik, corpus paraleloak osatzea ez da batere lan xamurra.
Edonola ere, paraleloekin alderatuta, corpus konparagarriek ere zenbait arazo sortzen dituzte: A hizkuntzako elementu zehatzen itzulpenak B hizkuntzan egotea ez dago ziurtatuta, eta, egonda ere, ez dakigu corpusaren zein puntutan aurkituko ditugun. Paraleloetan, berriz, ziurtatuta daukagu edozein termino edo espresiorentzako itzulpena topatuko dugula, eta, gainera, non dagoen ere badakigu, nahiko zehatz. Hori dela eta, itzulpengintzan (itzulpen-memoriak), hiztegigintzan eta hizkuntza-teknologietan (terminologia-erauzketa, itzulpen automatikoa…) askotan erabiltzen dira, eta emaitza onak lortzen dira.
Halaber, corpus konparagarriak biltzea paraleloak biltzea baina errazagoa da, informazio-iturriak ugariak direlako, are gehiago Internet jaio zenetik. Hala ere, biltze-prozesua automatizatzea ez da lan hutsala, gutxieneko konparagarritasun-maila bat bermatu behar delako.
Corpus konparagarriak hizkuntzalarientzako baliabide gisa
Eman dezagun kirolei buruzko artikuluak itzultzen ari garela, eta gaztelaniazko “alzarse con la victoria” egitura itzuli behar dugula euskarara. Noski, jakin nahi dugu ea “garaipenarekin altxatu”, benetan, euskarak berezkoa duen esamoldea den. Demagun, orobat, kirol-albisteei buruzko corpus konparagarri bat dugula. Han “garaipen” eta “victoria” hitzen agerpenak kontsultatuko bagenitu, ikusiko genuke euskaraz ez dagoela egitura horrekin bat datorren agerpenik, eta “garaipena lortu” edo “garaipena eskuratu” egiturak direla ohikoenak.
Har dezagun medikuntzako corpus konparagarri elebidun bat, euskaraz eta ingelesez. Demagun euskaraz “zunda nasogastriko” deritzon prozedura ingelesera itzuli behar dugula. Ematen du “nasogastric probe” dela itzulpen zuzena. Hala ere, corpusaren ingelesezko atalean “nasogastric” hitza aztertuta konturatuko gara oso gutxitan erabiltzen dela “probe” izenarekin. Are gehiago, agerpenak aztertuta ondorioztatuko dugu ingelesez “tube” edo “intubation” izenekin lotzen dela, batez ere. Beraz, itzulpen egokiagoa litzateke “nasogastric intubation”.
Corpus konparagarriak hizkuntza-teknologietan
Terminologia-erauzketan gero eta gehiago erabiltzen dira corpus hauek. Nahiz eta paraleloekin lortzen diren emaitzetatik (% 99ko doitasuna) urrun egon oraindik, konparagarriekin aritzeak baditu alde onak ere. Terminologia berria erauzteko egokiagoak dira; izan ere, corpus konparagarriak eskuratzeak dituen erraztasunak direla medio, bideragarriagoa da testu berriagoak lortzea. Bestalde, lehen aipatu den bezala, hizkuntza bateko testuek ez diete beste hizkuntzakoei eragiten.
Bilatzaile eleaniztunetan, hainbat teknika erabiltzen dira sistemaren portaera hobetzeko. Teknika horien oinarrian corpus konparagarriak izaten dira askotan. Adibidez, termino jakin batekin semantikoki erlazionatuta dauden terminoak bilatzen dira corpusean, eta, informazio osagarri hori baliatuz, bilaketa-emaitza hobeak lortuko ditugu. Demagun “jaguar” bilaketa egin nahi dugula, eta animaliari buruz galdezka ari garela. Bilaketa zabalduko bagenu, “jaguar animalia felido” konbinazioa sortuz, bilaketaren emaitzak gure nahietara bideratuagoak egongo lirateke.
Azkenik, aipatu beharra dago corpus konparagarriek ekarpen handia egiten diotela itzulpen automatikoari, itzulpen automatiko estatistikoan erabiltzen diren ereduak trebatzeko erabiltzen baitira. Sistemak corpus horien gainean ikasten du, eta gero ezagutza hori baliatzen du itzulpena egiteko. Lortutako emaitza egokiek erakusten dute corpus konparagarrien ekarpenaren baliagarritasuna.
Corpus konparagarriak gure ikerketetan
Elhuyarreko I+G+B taldean uste dugu euskara bezalako hizkuntza txikiei begira, eta hizkuntza-teknologien alorrean, apustu estrategikoa dela corpus konparagarrien bidea. Itzulpengintzan ere, ikusi dugun bezala, baliabide ahaltsua da. Horrenbestez, corpus konparagarriak gure jarduerari oso estu lotuta daude, eta Co3 eta AzerHitz proiektuak dira horren adibiderik garbienak. Co3 proiektuaren helburua corpus konparagarriak era automatikoan sortzea da, Internet iturburutzat hartuta; AzerHitz proiektuan, berriz, termino ezezagunen itzulpenak bilatzen dira corpus konparagarrietan.
Elhuyar Fundazioko I+G+B taldea
Tags: corpus konparagarriak, corpusak, Hizkuntza-teknologiak, Hiztegigintza, I+G+B, Itzulpengintza
Corpus paraleloen inguruan irakurrita nengoen, baina konparagarrien inguruan ez. Jarraitzeko moduko ildoa dirudi.