Aste honetan Portorožen (Slovenian) ospatuko den LREC 2016 Biltzarrean (http://lrec2016.lrec-conf.org/en/) lau lan aurkeztu behar ditu Elhuyar I+G taldeak. Honakoak dira aurkeztuko ditugun lanak:

[1] I. San Vicente, X. Saralegi. Polarity lexicon building: to what extent is the manual effort worth?. In Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

Testuetan adierazten diren sentimendu eta iritziak automatikoki aztertzeko oinarrizko baliabideak dira polaritate-lexikoak. Artikulu honetan lexiko horiek modu automatikoan sortzeko hiru bide aztertu dira, lexiko eraginkorrak hutsetik modu azkar batean eta adituen ahalegin handirik gabe sor daitezkeela erakutsiz.

[2] Iñaki San Vicente, Iñaki Alegria, Nora Aranberri, Cristina España-Bonet, Pablo Gamallo, Hugo Gonçalo Oliveira, Eva Martínez Garcia, Antonio Toral, Arkaitz Zubiaga. TweetMT: A parallel microblog corpus. In Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

TweetMT hainbat erakundek elkarlanean sortutako baliabidea da, iberiar penintsulako hizkuntzak barne hartzen dituen txioen corpusa, euskara, galiziera, katalana, eta portuguesa espainierarekin lotzen dituzten datu multzoak eskaintzen ditu, (eu-es,ga-es,ca-es,pt-es). Corpusa publikoki eskuragarri dago.

[3] X. Saralegi, E. Agirre, I. Alegria. Evaluating translation quality and CLIR performance of Query Sessions. In Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

Bilaketa eleaniztuna hobetzeko teknika berri bat aztertu da artikulu honetan. Bilaketaren itzulpena urrats kritikoa da bilaketa eleaniztunaren prozesuan. Urrats horretan ebatzi beharreko problema nagusia itzulpen anbiguotasuna da. Itzulpen anbiguoa tratatzeko teknika estatistiko berri bat proposatzen da artikuluan, saio bereko kontsulta guztiak testuinguru bezala erabiltzen dituena.

[4] López de Lacalle M., Laparra E., Aldabe I., Rigau G. 2016 A Multilingual Predicate Matrix. In Proceedings of the Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

VerbNet, FramenNet, PropBank eta WordNet bezalako baliabideek predikatu mailako informazio interesgarria eskaintzen dituzte bakoitzak bere aldetik. Lan honetan baliabide hauek guztiak ingurune berdinean bateratu ditugu eta gainera, ingelesezko predikatu nominalak jasotzeko NomBank baliabidearekin elkartu dugu. Honez gain, Gaztelania, Katalana eta Euskerara ere hedatu dugu. Predicate Matrix 1.3 da lan honen emaitza, analisi semantiko interoperablea hizkuntza desberdinetan egiteko aukera ematen duen lexikoi eleaniztuna.