Ber2a » Terminologia

Pibolex: hiztegi elebidunak pibote-tekniken bitartez sortzen

Elhuyar I+G — Wed, 02 Nov 2011 10:32:49 +0000

XXI. mendeko gizarte eleanitz honetan, hiztegi eleanitzak baliabide garrantzitsuak dira hainbat esparrutan: irakaskuntzan, hiztegigintzan, itzulpengintzan, eta, oro har, hizkuntza-teknologiak oinarri dituzten aplikazio informatiko guztietan. Zoritxarrez, hizkuntza-bikote askotarako hiztegirik ez dago. Hizkuntza txikiek hizkuntza nagusi baterako hiztegi elebiduna besterik ez dute izaten, eta maiz ezta hori ere. Hiztegi falta hori oztopo handia da hizkuntza bateko baliabideak garatzeko. Gure proiektuaren helburua da baliabide-urritasun horri aurre egiteko aukerak ahalbidetzea, eta, horretarako, hiztegi elebidunak modu automatikoan sortzeko teknikak ikertzen dihardugu.

Pibotaje bidezko teknikak baliagarriak dira hiztegi elebidunak azkar eta modu automatikoan sortzeko. Teknika honetan, A-B eta B-C hizkuntzetan dauden hiztegiak elkartzen dira A-C hiztegi berri bat sortzeko, B hizkuntza zubi edo pibote gisa erabiliz. B hizkuntza hori hizkuntza handi bat izan ohi da (baliabide askokoa), adibidez, euskara-ingelesa + ingelesa-alemana = euskara-alemana. Tamalez, elkarketa hori egiteko prozesua ez da oztoporik gabea, zubi hizkuntza bat erabiltzeak itzulpen okerrak ere sortzen baititu, itzulpen-baliokideen adierak beti ez direlako berdinak hizkuntzen artean (ikus adibidean ‘hegazkin’ eta ‘plano’ ). “Zarata” hori kuantifikatu dugu, eta oso handia da (%80); beraz, ezinbestekoa da garbiketa burutzea.

1. Irudia: Pibotajearen adibidea.

Literaturan, zarata hori garbitzeko teknika ugari proposatu dira. Lan honetan, hizkuntza txikietarako hoberen moldatzen direnak aztertu ditugu. Horiek aukeratzeko irizpidea baliabideen eskuragarritasuna izan da, hori baita hizkuntza txikien arazo nagusia. Halaber, osagarritasun-maila ere kontuan hartu da. Zentzu horretan, aukeratutako bi metodoak paradigma ezberdinetan oinarritzen direnez, osagarriak dira teorian.

2. Irudia: IC Metodoaren adibidea

Inverse Consultation (IC): Itzulpen okerren kimaketa hiztegien egituran oinarritzen da. Kalkulatzen da zenbat bide dauden elkartutako hiztegietan jatorrizko hitzetik itzulpen-hautagaietara. Zenbat eta handiagoa bide-ko purua, orduan eta handiagoa baliokide zuzenak izateko probabilitatea (Adib.: hegazkin-avión 3 bide; aldiz, hegazkin-cepillo eta hegazkin-plano bide bat).

Distributional Similarity (DS): Jatorrizko hitzaren esanahia ez bezalakoa duten itzulpen-hautagaiak kimatzen dira. DSren atzean dagoen ideia hau da: esanahi bera duten hitzak testuinguru oso antzekoetan agertuko dira. Beraz, hitzen testuinguruak konparatzen ditugu, eta zuzenak diren hitz-bikoteen testuinguruek antzekotasun handiena erakutsiko dute.

Hasieran aipatu den bezala, hiztegiak hainbat eremutan erabil daitezke (adibidez, irakaskuntza, hiztegigintza…). Hori dela eta, agertoki bakoitzak ezaugarri jakinetako hiztegiak eskatuko ditu. Lan honetan, metodoen eraginkortasuna hiru agertoki orokorren arabera neurtu da:

A agertokia: doitasun handiko hiztegi txikiak sortzeko
B agertokia: estaldura handiko hiztegiak sortzeko
D agertokia: lexiko erabiliena jasotzen duen hiztegiak sortzeko

Esperimentuetan ikusi dugu IC metodoak zarata ondo garbitzen duela, baina, aldi berean, oso zorrotza dela. Hori dela eta, bikote zuzen asko baztertzen ditu. DSk, aldiz, ez du hain ondo garbitzen zarata, baina oso bikote zuzen gutxi baztertzen ditu. Horrez gain, DSk hobeto tratatzen ditu erabilera handiko hitzak. Bi metodoak konbinatzen direnean, emaitzak %10 hobetzen dira, batez beste, agertoki guztietan.

3. Irudia: Metodoen eraginkortasuna zenbait agertokitan

Gure esperimentuetan sortutako Euskara-Gaztelania hiztegiaz gain, Euskara-Alemana (22.861 sarrera, 97.739 bikote) eta Euskara-Txinera (10.124 sarrera, 144.824 bikote) hiztegiak ere sortu ditugu modu automatikoan, ingelesa zubi moduan hartuz. Hona hemen hiztegi horietako itzulpenen adibide batzuk:

anbiguo -> 暧昧

kai -> 港

zail -> 别扭

moneta -> 货币

erosi -> 买

krisi -> 危机

abesti -> 歌

ito -> 淹死

janari -> 粮

jostatu -> 戏

1. taula: Euskara-Txinera hiztegiko adibideak.

dantza -> Tanz

atso -> Weib

boligrafo -> Kuli

burusoil -> kahl

bigun -> sanft

esaldi -> Satz

dekretatu -> dekretieren

biderkatu -> malnehmen

heterosexual -> Heterosexuelle

erizain -> Krankenschwester

2. taula: Euskara-Alemana hiztegiko adibideak.

EMNLP kongresuan argitaratutako artikulu zientifikoan topatu daiteke egindako esperimentuen eta lortutako emaitzen inguruko informazio gehiago: “Analizing Methods for Improving Precision of Pivot Based Bilingual Dictionaries”.

Halaber, Pibolex proiektuaren barnean Euskara-Txinera bikotearekin egindako lanak eta sortutako hiztegiak gizarteratzeko asmoz, artikulu bat aurkeztu da 2012. urteko LREC kongresura.

ItzulTerm, itzulpen-memoriei etekina ateratzeko doako web-zerbitzua jarri dugu sarean

Josu Aztiria Urtaran - Elhuyar Hizkuntza eta Teknologia — Mon, 23 Nov 2009 20:14:03 +0000

ItzulTerm web-zerbitzua sareratu berri dugu, itzulpen-memoria batetik euskarazko eta gaztelerazko termino baliokideen bikoteak automatikoki erauzten dituen doako zerbitzua. Itzulpen-memoriekin lan egiten duten erabiltzaileengan dago, batik bat, pentsatua: itzultzaileak, itzulpen-zerbitzuak, terminologoak, hizkuntzalariak, euskara-teknikariak…

Erabiltzaileak bidalitako itzulpen-memoriatik termino baliokideen bikoteak automatikoki erauzten dituen doako zerbitzua da ItzulTerm. Erabiltzaileak erauzketaren emaitzak lantzeko aukera du gainera, eta nahi dituen termino-bikoteak eskuratu ditzake hainbat erabileratarako: hiztegiak sortu, itzulpen-memorien sistema hobetu, itzulpen automatikoan erabili… Gainera, erauzketa automatikoaren emaitza hobetzeko eta emaitza lantzeko edizio-aukerak ere eskaintzen ditu zerbitzuak. ItzulTerm zerbitzuaren oinarrian, Elhuyar Fundazioaren I+G+B unitateak garatutako ELexBI tresna dago. ELexBI tresnak teknika linguistikoak eta estatistikoak konbinatzen ditu termino-bikoteak automatikoki erauzteko prozesuan.

Zerbitzuaren urrats nagusiak

ItzulTerm-en bitartez, erabiltzaileak bere itzulpen-memoriei etekina ateratzeko aukera izango du, hiru urratsetan: ‘Erauzketa automatikoa’, ‘Eskuzko lanketa’ eta ‘Esportazioa’. ItzulTerm-ek termino-bikoteak teknika linguistikoen eta estatistikoen bidez automatikoki erauztean datza ‘Erauzketa automatikoa’. ‘Eskuzko lanketa’n, aldiz, ItzulTerm-ek bere proposamenak lantzeko aukera eskaintzen du: baliozkotzat jotzeko edo baztertzeko, emaitzak editatzeko aukera aurreratuak… Azkenik, ‘Esportazioa’n, erabiltzaileak baliozkotzat jo dituen termino-bikoteak deskarga ditzake, neurrira egindako hiztegi elebidun bat osatzeko.

ItzulTerm proiektuak Eusko Jaurlaritzako Kultura Sailaren diru-laguntza jaso du 2007ko IKT deialdiaren barruan.

ItzulTerm tresna honako webgunean dago eskuragarri: http://itzulterm.elhuyar.org

Elhuyar Zientzia eta Teknologiaren Hiztegi Entziklopedikoa, kalean

hizkuntza — Wed, 28 Oct 2009 15:30:19 +0000

Elhuyar zientzia eta teknologiaren hiztegi entziklopedikoa kalean da. Urte luzez aritu dira lanean Euskal Herriko 200 aditu baino gehiago proiektu honetan, Antton Gurrutxagaren zuzendaritzapean. Elhuyar Fundazioak eta Euskal Herriko Unibertsitateak elkarrekin argitaratu dugu, Euskadiko Kutxaren babesari esker, eta une honetan merkatuan dagoen mota honetako hiztegi bakarra da. Bihar, osteguna, aurkezpen-ekitaldia izango da Chillida-Leku museoan.

Hiztegi entziklopediko mardula da, 1.800 orrialdekoa. ”200 aditu baino gehiago horrelako proiektu batetarako biltzea ohore bat izan da guretzako, eta elkarlan hau bai proiektua berarentzat eta baita egileentzat oso aberasgarria izan da”, adierazi digu Antton Gurrutxagak.

Duela zortzi urte hasi zen Elhuyarko talde bat Elhuyar zientzia eta teknologiaren hiztegi entziklopedikoa lantzen, helburu zehatz batekin: “Zientzia eta teknologiari buruzko oinarrizko erreferentzia-informazio fidagarri, landu eta eguneratua eskaintzea, modu zehatz, argi eta ulergarrian, eta erabiltzaile-multzo zabala gogoan izanik”. Duela lau urte, proiektuak jada bazuen forma bat, eta zientzia eta teknologiaren 50 jakintza-arlotako adituak hasi ziren batzen proiektura, hasierako helburu harekin bat eginez.

Egileon ustean, helburu hori lortu da: hiztegiak biltzen dituen jakintza-arlo guztietako 23.000 kontzeptuetan zehar islatzen da hori. Gaien gaurkotasunari garrantzi berezia eman zaio, eta zientziari eta teknologiari buruzko informazio orokorra behar duen ororentzat da obra interesgarria: DBHko, Batxilergoko eta Lanbide Heziketako ikasle eta irakasleak, kazetariak, gurasoak…

Proiektu honetan lanean aritu diren adituak arlo desberdinetako kontzeptuak hautatzen, haien definizioak osatzen eta artikulu entziklopedikoak sortzen ibili dira, besteak beste. Arlo horiek guztiak sei multzo handitan biltzen ditu hiztegi entziklopedikoak: zientzia zehatzak, materiaren eta energiaren zientziak, lurraren zientziak, biziaren eta osasunaren zientziak, teknologia eta, azkenik, orokorrak. Kontzeptuak lantzeko hainbat kontsulta-iturri erabili dira, euskarazkoak zein beste hizkuntzetakoak (nagusiki, ingelesezkoak, gaztelaniazkoak eta frantsesezkoak).

Hiztegiaren ezaugarriak:

23.000 kontzeptu, beren definizioekin eta dagozkien erdal terminoekin (ingelesezkoa, gaztelaniazkoa eta frantsesezkoa).
Erdara-euskara termino-zerrendak: ingelesa-euskara, gaztelania-euskara eta frantsesa-euskara
1.500 irudi
607 artikulu entziklopediko
Zientzia zehatzak, materiaren eta energiaren zientziak, lurraren zientziak, biziaren eta osasunaren zientziak, teknologia eta orokorrak.
CD-ROM euskarria liburuarekin batera

Elhuyar Zientzia eta Teknologiaren Hiztegi Entziklopedikoa erosteko Elhuyarren dendatik egin dezakezue %5eko deskontuarekin. Erosi aurretik entziklopediaren lagina ikusi nahi baduzue hemen duzue aukera.

Corpus konparagarriak: zer dira eta zertarako erabil daitezke?

hizkuntza — Tue, 26 May 2009 09:36:39 +0000

Hizkuntzalaritzan eta, bereziki, hizkuntza-teknologietan, corpus konparagarriak gero eta garrantzia handiagoa hartzen ari dira azken urteotan. Artikulu honetan corpus konparagarriak zer diren, eta hizkuntzalaritzan nahiz hizkuntza-teknologietan zertarako balio dezaketen azaltzen saiatuko gara.

Testu-corpusak idatzizko dokumentuen bildumak dira, eta oinarrizko baliabideak dira hizkuntza naturalaren zenbait ezaugarri aztertu ahal izateko edota hipotesiak kontrastatzeko. Hizkuntza naturalaren prozesamendua egiteko behar den ezagutza inferitzeko ere oso garrantzitsuak dira. Hala ere, corpus-mota asko daude, eta, zereginaren arabera, batzuk aproposagoak dira besteak baino. Corpus konparagarriak, adibidez, antzeko testuez osatutako bildumak dira. Dokumentuak “antzekoak” direla esateko irizpide ezberdinak badaude ere —antzekotasuna ezaugarri askoren arabera zehaztu baitaiteke—, gaia eta erregistro berdina izatea eskatu ohi zaie (adibidez, zientziari buruzko berriak). Corpus konparagarriak elebidunak baldin badira, hizkuntzen arteko fenomenoen azterketak egin ahal izango ditugu. Izan ere, corpus konparagarriek corpus paraleloen (itzulpen-memoriak) zenbait gabezia estaltzen dituzte. Batetik, itzulpenek ez dute islatzen helburu-hizkuntzaren aukera linguistiko guztien errepertorioa, beste hizkuntza bat erreferentziatzat hartuta sortutako testuak baitira, eta, ondorioz, itzulpena kutsatuta baitago jatorrizko hizkuntzaren idiosinkrasia estilistikoez. Bestetik, corpus paraleloak osatzea ez da batere lan xamurra.

Edonola ere, paraleloekin alderatuta, corpus konparagarriek ere zenbait arazo sortzen dituzte: A hizkuntzako elementu zehatzen itzulpenak B hizkuntzan egotea ez dago ziurtatuta, eta, egonda ere, ez dakigu corpusaren zein puntutan aurkituko ditugun. Paraleloetan, berriz, ziurtatuta daukagu edozein termino edo espresiorentzako itzulpena topatuko dugula, eta, gainera, non dagoen ere badakigu, nahiko zehatz. Hori dela eta, itzulpengintzan (itzulpen-memoriak), hiztegigintzan eta hizkuntza-teknologietan (terminologia-erauzketa, itzulpen automatikoa…) askotan erabiltzen dira, eta emaitza onak lortzen dira.

Halaber, corpus konparagarriak biltzea paraleloak biltzea baina errazagoa da, informazio-iturriak ugariak direlako, are gehiago Internet jaio zenetik. Hala ere, biltze-prozesua automatizatzea ez da lan hutsala, gutxieneko konparagarritasun-maila bat bermatu behar delako.

Corpus konparagarriak hizkuntzalarientzako baliabide gisa

Eman dezagun kirolei buruzko artikuluak itzultzen ari garela, eta gaztelaniazko “alzarse con la victoria” egitura itzuli behar dugula euskarara. Noski, jakin nahi dugu ea “garaipenarekin altxatu”, benetan, euskarak berezkoa duen esamoldea den. Demagun, orobat, kirol-albisteei buruzko corpus konparagarri bat dugula. Han “garaipen” eta “victoria” hitzen agerpenak kontsultatuko bagenitu, ikusiko genuke euskaraz ez dagoela egitura horrekin bat datorren agerpenik, eta “garaipena lortu” edo “garaipena eskuratu” egiturak direla ohikoenak.

Har dezagun medikuntzako corpus konparagarri elebidun bat, euskaraz eta ingelesez. Demagun euskaraz “zunda nasogastriko” deritzon prozedura ingelesera itzuli behar dugula. Ematen du “nasogastric probe” dela itzulpen zuzena. Hala ere, corpusaren ingelesezko atalean “nasogastric” hitza aztertuta konturatuko gara oso gutxitan erabiltzen dela “probe” izenarekin. Are gehiago, agerpenak aztertuta ondorioztatuko dugu ingelesez “tube” edo “intubation” izenekin lotzen dela, batez ere. Beraz, itzulpen egokiagoa litzateke “nasogastric intubation”.

Corpus konparagarriak hizkuntza-teknologietan

Terminologia-erauzketan gero eta gehiago erabiltzen dira corpus hauek. Nahiz eta paraleloekin lortzen diren emaitzetatik (% 99ko doitasuna) urrun egon oraindik, konparagarriekin aritzeak baditu alde onak ere. Terminologia berria erauzteko egokiagoak dira; izan ere, corpus konparagarriak eskuratzeak dituen erraztasunak direla medio, bideragarriagoa da testu berriagoak lortzea. Bestalde, lehen aipatu den bezala, hizkuntza bateko testuek ez diete beste hizkuntzakoei eragiten.

Bilatzaile eleaniztunetan, hainbat teknika erabiltzen dira sistemaren portaera hobetzeko. Teknika horien oinarrian corpus konparagarriak izaten dira askotan. Adibidez, termino jakin batekin semantikoki erlazionatuta dauden terminoak bilatzen dira corpusean, eta, informazio osagarri hori baliatuz, bilaketa-emaitza hobeak lortuko ditugu. Demagun “jaguar” bilaketa egin nahi dugula, eta animaliari buruz galdezka ari garela. Bilaketa zabalduko bagenu, “jaguar animalia felido” konbinazioa sortuz, bilaketaren emaitzak gure nahietara bideratuagoak egongo lirateke.

Azkenik, aipatu beharra dago corpus konparagarriek ekarpen handia egiten diotela itzulpen automatikoari, itzulpen automatiko estatistikoan erabiltzen diren ereduak trebatzeko erabiltzen baitira. Sistemak corpus horien gainean ikasten du, eta gero ezagutza hori baliatzen du itzulpena egiteko. Lortutako emaitza egokiek erakusten dute corpus konparagarrien ekarpenaren baliagarritasuna.

Corpus konparagarriak gure ikerketetan

Elhuyarreko I+G+B taldean uste dugu euskara bezalako hizkuntza txikiei begira, eta hizkuntza-teknologien alorrean, apustu estrategikoa dela corpus konparagarrien bidea. Itzulpengintzan ere, ikusi dugun bezala, baliabide ahaltsua da. Horrenbestez, corpus konparagarriak gure jarduerari oso estu lotuta daude, eta Co3 eta AzerHitz proiektuak dira horren adibiderik garbienak. Co3 proiektuaren helburua corpus konparagarriak era automatikoan sortzea da, Internet iturburutzat hartuta; AzerHitz proiektuan, berriz, termino ezezagunen itzulpenak bilatzen dira corpus konparagarrietan.

Elhuyar Fundazioko I+G+B taldea