Aurten, aste santuarekin bat etorriz (Martxoak 24-30), CICLing (International Conference on Intelligent Text Processing and Computational Linguistics) kongresuaren 14. edizioa ospatu da,  Pitagoras, Aristarko edo Epikuroren jaioterri den Samos irla greziarrean. Xabier Saralegi eta Iñaki San Vicente bertan izan gara Elhuyar Fundazioko I+G unitatearen ikerketen emaitzak aurkezten. CICLing hizkuntza naturalaren prozesamenduaren alorrean kongresu garrantzitsua da, eta bertan publikatzea ez da lan erraza, eta horren erakusle da hurrengo estatistika: aurten bidalitako artikuluen %24,6 besterik ez da onartu.

Kongresuari astelehenean (25) eman zitzaion hasiera ofiziala Sofia Ananiadouren hitzaldi gonbidatuarekin [1]. Gertaeren antzematean (event detection) oinarritutako informazioaren berreskurapen eta erauzketari buruz hitz egin zuen. Gertaerak (event) testuan bertan dagoen ezagutzaren zatien errepresentazioak dira. Biomedikuntzan, adibidez, hainbat prozesu biologiko izan daitezke gertaerak, regulation, expression, transcription. Gertaeretan oinarritutako bilaketa sistemetan, egituratutako gertaera hauen gainean egiten dira bilaketak, ez testu hutsaren gainean. Modu horretan erabiltzaileak kontsulta zehatzagoak prozesatzea dauka (Adib., “Which proteins are positively regulated by IL-2”?).

Iñaki San Vicente bere aurkezpena burutzen.

Iñaki San Vicente bere aurkezpena burutzen.

Arratsaldean egin zuen komunikazioa Iñaki San Vicentek. Testuetan iritziak antzemateko ezinbestekoak diren subjektibitate lexikoen inguruko lana [2] aurkeztu zuen. Lan horretan lexikoak sortzeko hainbat teknika aztertu ditugu, euskara bezalako baliabide urriko hizkuntzetarako egokiak diren teknika arinak. Bazkal ostean aurkezpen motz bat egin zuen, eta ondoren, bi orduz aritu zen gure lanaren berri jakitera hurbildu zirenei azalpenak eskaintzen (Ikus 1. irudia). Interes handia piztu zuen gure lanak.

Xabier Saralegik astearte goizean aurkeztu zuen Pablo Gamallo ikertzaile Galiziarrarekin egindako lana [3]. Bertan interneteko bilatzaileak hitzen adieren banaketa aztertzeko egokiak diren ikertu dute. Interneteko bilatzaileak askotan erabiltzen dira hitzen adibideak topatzeko edo hitzen erabilera ikusteko. Lan honetan, bilatzaileek eskainitako adibideetan hitzen adierak ondo islatuta dauden aztertu da. Hainbat galdera jaso zituen aurkezpenaren amaieran.

Xabier Saralegi azalpenak emanez.

Xabier Saralegi azalpenak emanez.

Kongresuan nabarmendutako alorrei dagokienez, diskurtsoaren analisia ere indar handia hartzen ari den alorra da, sentimenduen analisirako sistemak hobetzeko adibidez [4]. Sentimenduen analisia eta iritzien erauzketa modan jarraitzen duten alorrak dira, horren erakusle, osteguneko hizlari gonbidatua (Mike Thelwall) alor horietako aditua dela. Ildo horretan,  aipatzekoa da Asiarrak polaritatea baino gehiago emozioak lantzera jotzen ari direla [5][6][7]: emozio lexikoak, 7-8 kategorien gaineko sailkapena (haserrea, zoriontasuna, tristura,…). Foroetako harien orientazio subjektiboa detektatzeko metodo bat zen [8] lanaren muina. Iritzien erauzketan oinarritzen diren sistemetarako tokia ere egon zen. Oostdijk Nellekel-ek, adibidez, mehatxuzko txioak antzemateko n-grametan oinarritutako tresna bat aurkeztu zigun [9]. Mota ezberdinetako corpus eta baliabide lexikoen inguruko lanak ere aurkeztu dira. Adibidez, baliabide urriko hizkuntzetarako Treebank eleaniztun bat [10], eta arabierazko pluralen hiztegi bat [11].

Korreferentziaren anotazioak ere leku garrantzitsua izan zuen CICLing-en, eta hainbat artikulu aurkeztu ziren gaiaren inguruan [12][13]. Ontologien inguruan, oso interesgarria izan zen Roberto Naviglik eman zuen hitzaldia, Babelnet (Wikipedia eta Wordnet-en uztartzea) eta ONTOLEARN (domeinuko ontologiak automatikoki sortzeko sistema) baliabideak azaldu zituen. Argi utzi nahi izan zien entzuleei hizkuntza naturala prozesatzeko ezagutza-baliabideak ezinbestekoak direla.

Itzulpen automatikoa oraindik indarrean dagoen ikergai sendoa da. Aipatzeko modukoa da “best student paper” saridun artikulua [14]. Lan horretan Letoniera-Ingelesa itzulpen automatikoan corpus konparagarrien erabilerak laguntzen duela frogatu dute. MTko beste artikulu batzuk itzulpenaren automatizazioak giza itzultzaileengan eragiten duen produktibitatearen igoerari buruzkoak ziren [15].

Bukatzeko ezin aipatu gabe utzi IXAko gure adiskideen lana. Izan ere, IXA taldeko kideak ere izan ziren CICLing-en. Itziar Gonzalezek euskarazko aposizioen detekzioaren inguruan egindako ikerketa [16] aurkeztu zuen kongresuaren azken txanpan.

Iñaki San Vicente eta Xabier Saralegi.

 

 

ERREFERENTZIAK

[1] Sophia Ananiadou. «Enhancing Search: Events and their Discourse Context». Keynote talk at the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 2013), Samos (Greece), 2013. Video.

[2] X. Saralegi, I. S. Vicente, eta I. Ugarteburu, «Cross-Lingual Projections vs. Corpora Extracted Subjectivity Lexicons for Less-Resourced Languages», in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 96–108.

[3] X. Saralegi eta P. Gamallo, «Analyzing the Sense Distribution of Concordances Obtained byWeb as Corpus Approach», in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 355–367.

[4] B. Chardon, F. Benamara, Y. Mathieu, V. Popescu, eta N. Asher, «Measuring the Effect of Discourse Structure on Sentiment Analysis», in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 25–37.

[5] J. Xu, R. Xu, Y. Zheng, Q. Lu, K.-F. Wong, eta X. Wang, «Chinese Emotion Lexicon Developing via Multi-lingual Lexical Resources Integration», in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 174–182.

[6] Y. Wu, K. Kita, K. Matsumoto, eta X. Kang, «A Joint Prediction Model for Multiple Emotions Analysis in Sentences», in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 149–160.

[7] Bao-Khanh Ho Vo and Nigel Collier. «Twitter Emotion Analysis in Earthquake Situations», Poster at the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 2013), 2013.

[8] P. Biyani, C. Caragea, eta P. Mitra, «Predicting Subjectivity Orientation of Online Forum Threads», in in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 109–120.

[9] N. Oostdijk eta H. van Halteren, «N-Gram-Based Recognition of Threatening Tweets», in in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 183–196.

[10] O. Kapanadze eta A. Mishchenko, «A Multilingual GRUG Treebank for Underresourced Languages», in in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 50–59.

[11] S. R. El-Beltagy eta A. Rafea, «A Corpus Based Approach for the Automatic Creation of Arabic Broken Plural Dictionaries», in in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 89–97.

[12]G. Glavaš eta J. Šnajder, «Exploring Coreference Uncertainty of Generically Extracted Event Mentions», in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 408–422.

[13] M. Ogrodniczuk, M. Zawisławska, K. Głowińska, eta A. Savary, «Coreference Annotation Schema for an Inflectional Language», in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 394–407.

[14] M. Pinnis, I. Skadiņa, eta A. Vasiļjevs, «Domain Adaptation in Statistical Machine Translation Using Comparable Corpora: Case Study for English Latvian IT Localisation», in in Computational Linguistics and Intelligent Text Processing, libk. 7817, A. Gelbukh, Arg. Berlin, Heidelberg: Springer Berlin Heidelberg, 2013, or. 224–235.

[15] Prashant Mathur and Nick Ruiz Recommending Machine Translation Output to     Translators by Estimating Translation Effort: A case study.

[16] I. Gonzalez-Dios, M. J. Aranzabe, A. D. de Ilarraza, eta A. Soraluze, «Detecting Apposition for Text Simplification in Basque», in Computational Linguistics and Intelligent Text Processing, A. Gelbukh, Arg. Springer Berlin Heidelberg, 2013, or. 513–524.