Maiatzaren 21etik 27ra, LREC 2012 biltzarraren 8. edizioa izan zen Istanbulen. Biltzar hori bi urtez behin egiten da, eta azken aldian garatutako tresna eta baliabideak ezagutzeko aukera ematen du. Gainera, hizkuntza-teknologien inguruan dauden Europako proiektuen berri izateko bilkura ezin hobea da.
Elhuyar Fundazioko I+G unitateko ikertzaileak ere han izan gara, gure ikerketaren berri emanez. Aurtengoan hiru proiekturen inguruko lanak aurkeztu ditugu: PaCo2, Pibolex eta Konbitz. Lehen eguneko lehen aurkezpena (sarrera-hitzaldiaren ostean) gurea izan zen, corpus paraleloak Internetetik automatikoki biltzen dituen PaCo2[1] tresnari buruzkoa. Urduritasunak alde batera utzita, jendeak interes handia erakutsi zuen gure lanarekiko. Ostegunean ere (maiatzak 24) goizeko saioetako bat irekitzea tokatu zitzaigun, eta Pibolex[3] proiektuaren barnean euskara-txinera hiztegiak sortzen egin dugun ikerketa aurkeztu genuen. Elhuyarren azken aurkezpena ostegunean bertan izan zen, bazkalosteko lehen saioan. Bertan, hitz anitzeko terminoen konposizionaltasunaren inguruan egindako ikerketa plazaratu genuen: Konbitz [3].
Biltzarrean ikusitakoei dagokienez, nabarmentzekoa da proiektu europarrek izan duten presentzia; lan asko aurkeztu ziren, proiektu ezberdinen aterkipean garatutakoak. Aipagarriak dira gure jarduerarekin bete-betean bat datozen bi proiektu: Accurat eta TTC. Lehenengoak hizkuntza gutxituentzat corpus konparagarriak sortzea eta terminologia erauztea du helburu; bigarrenak, berriz, corpus konparagarrietatik terminologia erauztean jartzen du arreta. Corpus konparagarrien sorreraren inguruan,Aker et al.-ek Co3 tresnaren antzeko sistema bat aurkeztu zuten: dokumentuen tituluak aztertzen dituzte eta titulu antzekoak dituzten dokumentuak bakarrik onartzen dira corpusean.
Beti bezala, itzulpen automatikoak presentzia handia izan zuen, baina orokorrean itzulpen automatikoko sistemek behar dituzten baliabideei buruzko lanak aurkeztu ziren. Hori bai, itzulpen automatikoko sistemak helburu dituzten hainbat proiektu europar izan ziren ikusgai, konferentzia nagusian nahiz tailerretan. Adibidez: Let’s MT, PRESEMT, edo Elekak parte hartzen duen Bologna izenekoa.
Iritzien erauzketak eta sentimenduen analisiak ere leku garrantzitsua izan zuten LRECen. Horren inguruan, poster nahiz ahozko aurkezpen-saio batzuk izan ziren 3 egunetan zehar. Hainbat polaritate lexiko aurkeztu ziren hizkuntza eta domeinu ezberdinetarako. Aipagarriena agian ostiral goizeko saioa izan zen (maiatzak 25). Bertan Rada Mihalceak gaztelaniazko sentimendu lexiko bat osatzeko prozesua erakutsi zuen, Opinion Findereko lexikoa SentiWordneten begiratu eta gero kontzeptu hori WordNeten (WN) bidez helburu-hizkuntzara itzulita. Saio berean, emaitza interesgarriak erakutsi zituen Isa Maksek, corpusetatik subjektibitate lexikoak sortzeko teknikei dagokienez.
LREC baliabideen inguruko biltzarra izanik, ontologiek ere izan zuten bere lekua. Ontologiak aberasteko lanak aurkeztu ziren, WN edo bestelako ezagutza-base lexikaletan oinarrituak, testuetatik lortutako ezagutza berria erabiltzean baino gehiago. Interesgarriak izan ziren Benoît Sagot aurkeztutako lanak, WN aberasteko eta automatikoki sortutako ontologietako akatsak garbitzeko. Ildo horretan IXA taldeko Aitor Gonzalezek WordNet Domainseko kategoriak baliatuz MCRn domeinu informazioa txertatzeko metodoa aurkeztu zuen, ezadostasunak eta akatsak identifikatuz.
Larunbatean, biltzar nagusia amaituta, bi tailerretan parte hartu genuen. Lehena corpus konparagarrien inguruko 5th BUCC tailerra izan zen (“The Fifth Workshop on Building and Using Comparable Corpora”). Terminologia-erauzketaren inguruan lan asko aurkeztu ziren, bai aurkezpenetan eta baita poster-saioan ere. Arreta berezia eskaini zitzaion hitz anitzeko terminoak itzultzeari, horren erakusgarri Ljubešić, Kaji, Yapomo edo Ştefănescuren lanak. Bigarrena BioTxtM 2012 izan zen (“The Third Workshop on Building and Evaluating Resources for Biomedical Text Mining”). Biomedikuntzaren arloko datu-meatzaritzak garrantzi handia hartu du azken urteotan. Hizlari gonbidatutzat Jun’ichi Tsujii izan genuen (Microsoft Research Asia), arlo honetako GENIA corpusaren anotazio linguistiko eta semantikoa aurkeztu zuena. Aurkeztutako gainerako lan gehienen ikergaiak izan ziren “gertakarien” erauzketa eta etiketatzea (event extraction and annotation), eta arlo honetako corpus-baliabideak sortzeko eta etiketatzeko metodologiak.
Honaino gure kronika. Beste hainbat gauza interesgarri ere ikusi genituen, laburpen honetatik kanpo geratu direnak. Informazio gehiago eskuratu nahi izanez gero, helbide honetan dituzue kongresuko artikulu guztiak:
http://www.lrec-conf.org/proceedings/lrec2012/index.html
Iñaki San Vicente eta Antton Gurrutxaga.
Erreferentziak
[1] I. San Vicente, I. Manterola. 2012.“PaCo2: A Fully Automated tool for gathering Parallel Corpora from the Web”. In Proceedings of the 8th international conference on Language Resources and Evaluation, LREC’12. 23-25 May, Istanbul, Turkia.
[2] X. Saralegi, I. Manterola, I. San Vicente. 2012.“Building a Basque-Chinese Dictionary by using English as a Pivot”. In Proceedings of the 8th international conference on Language Resources and Evaluation, LREC’12. 23-25 May, Istanbul, Turkia.
[3] A. Gurrutxaga and I. Alegria. 2012. “Measuring the compositionality of NV expressions in Basque by means of distributional similarity techniques”. In Proceedings of the Eight International Conference on Language Resources and Evaluation LREC’12. 23-25 May, Istanbul, Turkia.
Tags: Hizkuntza-teknologiak, I+G, LREC