Pibolex: hiztegi elebidunak pibote-tekniken bitartez sortzen

XXI. mendeko gizarte eleanitz honetan, hiztegi eleanitzak baliabide garrantzitsuak dira hainbat esparrutan: irakaskuntzan, hiztegigintzan, itzulpengintzan, eta, oro har, hizkuntza-teknologiak oinarri dituzten aplikazio informatiko guztietan. Zoritxarrez, hizkuntza-bikote askotarako hiztegirik ez dago. Hizkuntza txikiek hizkuntza nagusi baterako hiztegi elebiduna besterik ez dute izaten, eta maiz ezta hori ere. Hiztegi falta hori oztopo handia da hizkuntza bateko baliabideak garatzeko. Gure proiektuaren helburua da baliabide-urritasun horri aurre egiteko aukerak ahalbidetzea, eta, horretarako, hiztegi elebidunak modu automatikoan sortzeko teknikak ikertzen dihardugu.

Pibotaje bidezko teknikak baliagarriak dira hiztegi elebidunak azkar eta modu automatikoan sortzeko. Teknika honetan, A-B eta B-C hizkuntzetan dauden hiztegiak elkartzen dira A-C hiztegi berri bat sortzeko, B hizkuntza zubi edo pibote gisa erabiliz. B hizkuntza hori hizkuntza handi bat izan ohi da (baliabide askokoa), adibidez, euskara-ingelesa + ingelesa-alemana = euskara-alemana. Tamalez, elkarketa hori egiteko prozesua ez da oztoporik gabea, zubi hizkuntza bat erabiltzeak itzulpen okerrak ere sortzen baititu, itzulpen-baliokideen adierak beti ez direlako berdinak hizkuntzen artean (ikus adibidean ‘hegazkin’ eta ‘plano’ ). “Zarata” hori kuantifikatu dugu, eta oso handia da (%80); beraz, ezinbestekoa da garbiketa burutzea.

1. Irudia: Pibotaje adibidea

1. Irudia: Pibotajearen adibidea.


Literaturan, zarata hori garbitzeko teknika ugari proposatu dira. Lan honetan, hizkuntza txikietarako hoberen moldatzen direnak aztertu ditugu. Horiek aukeratzeko irizpidea baliabideen eskuragarritasuna izan da, hori baita hizkuntza txikien arazo nagusia. Halaber, osagarritasun-maila ere kontuan hartu da. Zentzu horretan, aukeratutako bi metodoak paradigma ezberdinetan oinarritzen direnez, osagarriak dira teorian.

ICAdib

2. Irudia: IC Metodoaren adibidea

Inverse Consultation (IC): Itzulpen okerren kimaketa hiztegien egituran oinarritzen da. Kalkulatzen da zenbat bide dauden elkartutako hiztegietan jatorrizko hitzetik itzulpen-hautagaietara. Zenbat eta handiagoa bide-ko purua, orduan eta handiagoa baliokide zuzenak izateko probabilitatea (Adib.: hegazkin-avión 3 bide; aldiz, hegazkin-cepillo eta hegazkin-plano bide bat).

Distributional Similarity (DS): Jatorrizko hitzaren esanahia ez bezalakoa duten itzulpen-hautagaiak kimatzen dira. DSren atzean dagoen ideia hau da: esanahi bera duten hitzak testuinguru oso antzekoetan agertuko dira. Beraz, hitzen testuinguruak konparatzen ditugu, eta zuzenak diren hitz-bikoteen testuinguruek antzekotasun handiena erakutsiko dute.

Hasieran aipatu den bezala, hiztegiak hainbat eremutan erabil daitezke (adibidez, irakaskuntza, hiztegigintza…). Hori dela eta, agertoki bakoitzak ezaugarri jakinetako hiztegiak eskatuko ditu. Lan honetan, metodoen eraginkortasuna hiru agertoki orokorren arabera neurtu da:

  • A agertokia: doitasun handiko hiztegi txikiak sortzeko

  • B agertokia: estaldura handiko hiztegiak sortzeko

  • D agertokia: lexiko erabiliena jasotzen duen hiztegiak sortzeko

Esperimentuetan ikusi dugu IC metodoak zarata ondo garbitzen duela, baina, aldi berean, oso zorrotza dela. Hori dela eta, bikote zuzen asko baztertzen ditu. DSk, aldiz, ez du hain ondo garbitzen zarata, baina oso bikote zuzen gutxi baztertzen ditu. Horrez gain, DSk hobeto tratatzen ditu erabilera handiko hitzak. Bi metodoak konbinatzen direnean, emaitzak %10 hobetzen dira, batez beste, agertoki guztietan.

3. Irudia: Agertoki ezberdinak

3. Irudia: Metodoen eraginkortasuna zenbait agertokitan

Gure esperimentuetan sortutako Euskara-Gaztelania hiztegiaz gain, Euskara-Alemana (22.861 sarrera, 97.739 bikote) eta Euskara-Txinera (10.124 sarrera, 144.824 bikote) hiztegiak ere sortu ditugu modu automatikoan, ingelesa zubi moduan hartuz. Hona hemen hiztegi horietako itzulpenen adibide batzuk:

anbiguo -> 暧昧
kai ->
zail -> 别扭
moneta -> 货币
erosi ->
krisi -> 危机
abesti ->
ito -> 淹死
janari ->
jostatu ->

1. taula: Euskara-Txinera hiztegiko adibideak.

dantza -> Tanz
atso -> Weib
boligrafo -> Kuli
burusoil -> kahl
bigun -> sanft
esaldi -> Satz
dekretatu -> dekretieren
biderkatu -> malnehmen
heterosexual -> Heterosexuelle
erizain -> Krankenschwester

2. taula: Euskara-Alemana hiztegiko adibideak.

EMNLP kongresuan argitaratutako artikulu zientifikoan topatu daiteke egindako esperimentuen eta lortutako emaitzen inguruko informazio gehiago: “Analizing Methods for Improving Precision of Pivot Based Bilingual Dictionaries”.

Halaber, Pibolex proiektuaren barnean Euskara-Txinera bikotearekin egindako lanak eta sortutako hiztegiak gizarteratzeko asmoz, artikulu bat aurkeztu da 2012. urteko LREC kongresura.

Comments are closed.