Itzulpena oso prozesu konplexua da. Hizkuntza ez da pentsatzen dugun bezain erregularra, eta askotan testuinguruak adierazitako ñabardura txikiak baliatu behar ditugu hizkuntzaren kasu anbiguoak behar bezala interpretatzeko. Hori dela eta, oso zaila da itzulpen-prozesu hori mekanizatzea eta automatikoki burutzea. Konplexutasun hori are nabarmenagoa da domeinu batzuetan (literatura, poesia,…), non hizkuntzaren malgutasunari etekin handiena ateratzen zaion. Hortaz, itzulpen automatikoak (hemendik aurrera MT) domeinu itxietan jarri behar du arreta, epe motzean behintzat, baldin eta ingurune profesional baterako emaitza onargarriak lortu nahi baditugu. Domeinu itxietan irregulartasunak urriagoak dira, eta, beraz, automatizatze-prozesua errazagoa da. Artikulu honetan gure buruari egiten diogun galdera hauxe da: Lagungarriak dira egungo MT sistemak horrelako domeinu itxietan itzultzaile profesionalentzako?

Gizakia eta makinaren arteko elkarlana

Gaur egun, itzultzaileek beren lana azkartzeko erabiltzen dituzten tresnak Itzulpen-Memoriak (hemendik aurrera IM) dira (adib: Trados, Wordfast…). Jakina da itzultzaileek, tresna horiek baliatuz, nabarmen arintzen dutela itzulpen-lana. Itzulpen memorien mekanismoa oso oinarrizkoa da. Itzultzaile batek segmentu edo perpaus bat itzuli nahi duenean sistemak begiratzen du ea segmentu horren antzekorik aurretik itzulia izan den dagoeneko. Antzekorik badago erabiltzaileari proposatzen dio itzulpen-hautagai moduan. Mekanismo sinple horren mugak begi-bistakoak dira: batetik, itzulpen memoriaren irismena itzultzailearen aurretiko lanaren menpekoa da. Bestetik, IMan dauden unitateen oso antzekoak diren segmentuentzako bakarrik egingo dira proposamenak. Egoera horretan, ezagutza linguistikoan eta inferentzia estatistikoan oinarritutako itzultzaile automatiko batek ez luke laguntza gehigarria eskaini behar? Nekezagoa da MT sistema baten emaitza zuzentzea itzulpena hutsetik sortzea baino? Zalantza horiek argitzeko asmoz zenbait azterketa egin dira, itzulpen automatikoa erabiltzeak egiazki onura dakarrela azaleratu dutenak:

  • Microsoft-en, software domeinuan trebatutako SMT1 bat Office Online 2007a ingelesetik hiru hizkuntzara (Gaztelania, frantsesa eta alemana) lokalizatzeko erabili zen. SMT sistema baliatuz itzultzaileen produktibitatea batez beste %5-10 igo zen (Schmidtke, 2008).

  • Adobe-k burututako esperimentuetan (Flournoy eta Duran, 2009), 200.000 hitzeko lagin bat lokalizatu zen ingelesetik errusierara erregeletan oinarritutako MT sistema bat (PROMT) erabiliz. Gaztelaniara eta frantsesera lokalizatzeko SMT bat (Language Weaver) erabili zen. Emaitzen arabera giza-itzultzaileek eguneko %22-%51 unitate gehiago itzultzen zituzten itzulpen automatikoa erabiliz.

  • Autodesk-en Moses SMT sistema baten erabilpena ebaluatu zen ingelesetik frantsesera, italierara eta gaztelaniara lokalizatzeko lanetan (Plitt eta Masselot, 2010). Hizkuntza bakoitzean hiru giza-itzultzailek hartu zuten parte. Itzultzaileek batez beste %74 azkarrago egiten zuten lan MT sistema erabiliz.

  • Tilde SIA-n IT domeinuan ingelesetik letonierara itzultzeko lanetan ebaluatu zuten (Skadiņš et al., 2011) SDL Trados tresnan integratutako SMT sistema bat. Emaitzen arabera, IMen proposamenez gain MT sistemarenak ere erabiliz gero produktibitatea %32,9a igotzen zen. Batez beste, IM bidez 503 hitz orduko itzultzetik SMT bidez 572 itzultzera pasatu ziren. SMT sistemak corpus paraleloak erabiliz entrenatzen dira. Zoritxarrez, baliabide hauek urriak dira hizkuntza askotarako, euskara barne. Corpus konparagarriak aldiz ugariagoak dira. Esperimentua errepikatu zuten SMT sistema entrenatzeko corpus konparagarriak ustiatuz (Pinnis et al, 2013). Bigarren esperimentu horretan, %16,6ko hobekuntza lortu zuten giza-itzultzaileen produktibitatean.

Enpresa

Helburu hizkuntzak

Domeinua

%hobekuntza produktibitatean

Microsoft

Gaztelania, frantsesa eta alemana

Office Online 2007

%5-10

Adobe

Gaztelania eta frantsesa

Adobe’s Flash

%22-51

Autodesk

Frantsesa, italiera eta gaztelania

Autodesk-eko produktuak

%74

Tilde SIA

Letoniera

IKTak

%32,9 (%16,6)

Taula 1. Ingelesezko edukiak hainbat hizkuntzatara lokalizatzeko saioak

Euskaraz oraindik ez da horrelako produktibitatearen neurketarik egin itzultzaile profesionalekin. Wikipediako edukiak gazteleratik euskarara itzultzeko saio batzuk egin ziren, itzulpen automatikoaz lagunduta, itzultzaile ez profesionalekin (Alegria et al., 2013). Itzultzaile gehienek aitortu zuten itzultzaile automatikoak laguntzen ziela itzulpena azkarrago egiteko. Halere, lehen esan bezala, itzulpenaren kalitate eta produktibitatearen neurketa zehatzik ez zen egin.

Amaitzeko, egin diren azterketei begiratuta, ondorioztatu dezakegu itzulpen automatikoa lagungarria dela itzultzaile profesionalentzat. Kasu batzuetan MT sistemen kalitatea ez da behar bezain ona (literatura edo poesiaren moduko domeinu irekietan), baina hainbat domeinutan (adib.: software lokalizazioa, testu administratiboak, …) itzulpen-prozesua azkartzen nabarmen laguntzen du.

Xabier Saralegi eta Iñaki San Vicente.

Erreferentziak

Iñaki Alegria, Unai Cabezon, Unai Fernandez de Betoño, Gorka Labaka, Aingeru Mayor, Kepa Sarasola and Arkaitz Zubiaga. 2013. Reciprocal Enrichment between Basque Wikipedia and Machine Translators. To be published in “The People’s Web Meets NLP: Collaboratively Constructed Language Resources”, book edited by Iryna Gurevych and Jungi Kim.

Flournoy, R. and Duran ,C. 2009. Machine translation and do cument localization at Adobe: From pilot to production. MT Summit XII: proceedings of the twelfth Machine Translation Summit, Ottawa, Canada.

Pinnis, M., Skadiņa, I., Vasiļjevs, A. 2013. Domain Adaptation in Statistical Machine Translation Using Comparable Corpora: Case Study for English Latvian IT Localisation. In: Gelbukh, A. (arg.) Computational Linguistics and Intelligent Text Processing. or. 224–235. Springer Berlin Heidelberg, Berlin, Heidelberg.

Plitt, M., Masselot, Fr. 2010. A Productivity Test of Statistical Machine Translation Post-Editing in a Typical Localisation Context. The Prague Bulletin of Mathematical Linguistics

Schmidtke, D. 2008. Microsoft office localization: use of language and translation technology.

Skadiņš,R., Puriņš,M., Skadiņa,I., Vasiļjevs A. 2011. Evaluation of SMT in localization to under-resourced inflected language. Proceedings of the 15th International Conference of the European Association for Machine Translation EAMT 2011, 35-40, May 30-31, 2011,Leuven, Belgium

  1. SMT (Statistical Machine Translation): Estatistikan oinarritutako itzultzaile automatikoa