Uztailaren 27tik 29ra Elhuyar I+Gko Xabier Saralegi, Iker Manterola eta Iñaki San Vicente Edinburgon izan ginen, EMNLP 2011 kongresuan. EMNLP da hizkuntzaren prozesamenduan (NLP) munduko biltzar garrantzitsu eta entzutetsuenetako bat. Horren erakusgarri datu bat: bidaltzen diren artikuluen % 24 baino gutxiago onartzen dira (aurten 628tik 149).
Onartutako horietako bat gurea izan da aurten. “Analizing Methods for Improving Precision of Pivot Based Bilingual Dictionaries” lanean hiztegi elebidunak pibote hizkuntzen bitartez sortzeko bideak aztertu ditugu, Pibolex proiektuaren barnean. Pibote-tekniken bidez, Da-Db eta Db-Dc hiztegietatik abiatuta, Da-Dc hiztegi bat sor daiteke automatikoki. Adibidez, euskara-alemana hiztegi bat lor dezakegu euskara-ingelesa eta ingelesa-alemana hiztegietatik. Zoritxarrez, prozesua ez da dirudien bezain erraza, hitzen polisemiak sortutako itzulpen okerrak kimatu behar direlako. Gure lana poster moduan aurkezteko aukera izan genuen, uztailaren 28an, 3 orduko saio batean.
Hainbat ikerlari hurbildu ziren gure lanaren berri jasotzera, eta beren ikuspuntua ematera. Horien artean, Google-eko John DeNero ((b) irudian), adibidez. |
---|
h
Kongresua oso interesgarria izan da. Batetik, hizkuntza-teknologietan egungo ikerketa-ildoen joera zein den ikusi ahal izan dugu, eta, bestetik, ikerlariek proposatutako azkeneko tekniken berri jakin dugu. Gai hauek landu dira batik bat:
- Itzulpen automatikoa: aspaldiko erronka izanik ere, oraindik bide luzea du ikerkuntzan, eta oso gai erakargarria da, bai zientifikoki, bai ekonomikoki. Estatistikan oinarritutako sistemak gailentzen ari dira, baina ikusitako lanek erakusten dute egungo joera dela sistema estatistikoek informazio linguistikoa ere erabiltzea, beren emaitzak hobetzeko. Adibidez, informazio sintaktikoa erabiltzea garrantzitsua da gramatikalki zuzenak diren esaldiak sortzeko.
- Sintaxia: esaldien informazio sintaktikoa oso lagungarria da NLP aplikazio batzuetan. Hori dela eta, analisi sintaktikoak egiten dituzten sistemak hobetzeko lan ugari aurkeztu dira EMNLP kongresuan, eta baita informazio hori baliatzen duten bestelako aplikazioak ere.
- Iritzi eta sentimenduen azterketa: testuetatik pertsonen iritzi eta sentimenduak erauzteko ahalmena izatea oso erakargarria da hainbat alorretan, gizartearen/taldeen iritzia ezagutzeko. Web 2.0ak eta jendeak Interneten edozeri buruzko iritzia emateko ohitura izateak bultzada izugarria eman dio ikerketa-ildo horri. Hizkuntza-teknologien arloan uneko gairik modakoena izango da ziur asko, eta hori erakusten du EMNLPen duen garrantziak ere.
Semantikaren inguruko lanek ere toki esanguratsua izan dute EMNLPen, esaterako entitateen arteko erlazioak bilatzeko lanek edo parafrasiak ebazteko ikerketek. Bestelako gaiak ere jorratu dira biltzarrean, besteak beste, informazio-erauzketa (entitateen detekzioa nabarmendu liteke hemen), dokumentuen laburpena, diskurtsoaren analisia, etab.
Lan berritzaile eta bereziak ikusteko aukera ere izan dugu. Twitter baliabideak oso leku garrantzitsua hartu du proposamen berritzaileen artean. Aipagarria da, adibidez, Twitter mezuei automatikoki erantzuteko elkarrizketarako sistema; itzulpen automatikoko sistema bat erabiltzen da, makinak ikasi dezan jasotako mezuen araberako erantzunak ematen. Aurkezpen erakargarrien adibide gisa aipa litezke, orobat, zurrumurruen egiazkotasuna aztertzeko sistema edota gripe-agerraldiak detektatzeko baliabidea, biak ere Twitterren oinarrituak. Azken ikerketa baten aipamena ere egingo dugu, artikulu zientifikoen eragin zientifikoa edo aipatuak izateko aukera kuantifikatzeko proposamen bat egiten duena, hain zuzen. Artikulu baten gaia, egilea eta metodoak kontuan hartuz, hurrengo urteetan jasoko lituzkeen aipamenak aurreikusten saiatzen da.
Edinburgo oso hiri polita iruditu zaigu, baina beste batean joan beharko dugu ikustera, ze kale nagusia eta bista panoramikoa ikusteko aukera baino ez dugu izan. Hori bai euskaldunak izanik, ezin itzuli Edinburgoko kolosoa eskalatu gabe.
Iñaki San Vicente, Xabier Saralegi eta Iker Manterola.