Irailaren 3. astean (16-19) SEPLNren sepln2014 (Sociedad Española del Procesamiento del Lenguage Natural) XXX. biltzarra ospatu zen Gironan. Azken hiru urteetako zitari hutsik egin gabe Elhuyar I+G ere han izan da. Aurten arrazoi bikoitza genuen bertara hurbiltzeko. Izan ere, biltzarrarekin batera antolatu diren TASS  eta  TweetLID  lehiaketetan parte-hartze nabarmena izan dugu.

TASS-ek 3. edizioa zuen, gaztelaniazko txioen polaritatea sailkatzeko ebaluazio txapelketa planteatzen zuen (positibotasuna, negatibotasuna edo neutraltasuna). Bertan txioen polaritate orokorra identifikatzeko atazan parte hartu du Iñaki San Vicentek eta Xabier Saralegik prestatutako sistemak [1], eta 2. postua lortu du.

TweetLID txioen hizkuntza identifikatzeko mintegia da. Txioen prozesamendu linguistikoa egiteko ezinbestekoa da zein hizkuntzatan dauden idatzita. Tamalez egungo tresnek hizkuntza gutxi batzuetarako baino ez dute funtzionatzen (Twitterrek berak 52 hizkuntza baino ez ditu antzematen).  Mintegian ebaluazio ariketa bat planteatu da, helburua izanik iberiar penintsulako hizkuntzetan idatzitako txioez osatutako corpus batetik abiatuta, txioen hizkuntza zein zen identifikatzea. Mundu osoko 7 taldek parte hartu dute, eta kasu honetan gure taldea antolatzaile lanetan aritu da.

Mintegien ondorengo egunean (irailak 17) biltzar nagusia hasi zen. Azken urteetan gertatu bezala, komunikazio gutxi egin dira (14 artikulu besterik ez dira onartu). Hala ere hitzaldi interesgarriak ikusi ahal izan ditugu. Horien adibide, TALPeko Eva Martinezen aurkezpena dokumentu mailako itzulpen automatikoaren inguruan [2]: itzulpenen koherentzia testu osoa zehar mantentzeko teknikak lantzen ditu, hala nola hitzen zehatzen itzulpen egokiak eta genero eta zenbakien koherentziak mantentzea. Luis Espinosa-Anke[3] katalanez definizioak erauzteko sistema bat aurkeztu zuen wikipediako artikuluetatik abiatuta.

Gaiei dagokienez, biomedikuntzak presentzia handia izan zuen, bai lan zientifikoetan, (tartean IXA taldeko Koldo Gojenolaren lana, txosten medikuak sailkatzearen ingurukoa [4] ) , bai proiektu aurkezpenetan eta baita demo industrialetan ere.

Sentimenduen analisiak, eta batez ere ospearen kudeaketak ere tarte handia izan zuten. Aipatu mintegiaz gain, hainbat proiektu eta demo erakutsi ziren horren inguruan, eta azken egunean ere saio bat eskaini zitzaien gaiaren inguruko lanei. Aipagarri Sevillako Unibertsitateko Fermin Cruz-en lana Polaritate lexikoei buruz [5] edo Vicomtech-eko Aitor Garcia Pablos-ena aspektuen erauzketari buruz [6].

Amaitzeko, ezagutzaren errepresentazioak garrantzi handia izan du aurtengo SEPLN edizioan, hitzaldi gonbidatuek kalitate handikoak izan dira biak. Biltzarra irekitzeko Google Zurich-eko Enrique Alfonseca eduki genuen hizlari, Google-ek bere ezagutza-grafoa (Knowlegde graph) nola elikatzen zuen azaldu zigun: albisteetatik gertakari eta entitateen inguruko ezagutza erauzketaren inguruan aritu zen. Bigarren egunean Roberto Navigli izan genuen hizlari, BabelNet, Wordneten eta Wikipedian dagoen ezagutza bateratzen duen ezagutza base erraldoia aurkeztuz. Erakutsi zituen gauzen artean, bereziki interesgarria da, datuen balioztatzea eta anotazioa egiteko bideo-joko errealak sortu dituztela. Jokalariek, jolastu bitartean interaktiboki egiten dituzte balioztatze horiek, eta datuek erakusten dute gehienetan erantzun zuzenak ematen dituztela. Ikusgai daude hemen: http://knowledgeforge.org/

Iñaki San Vicente.

Erreferentziak

[1] San Vicente, I & Saralegi, X. 2014. Looking for Features for Supervised Tweet Polarity Classification. In Proceedings of the TASS workshop at SEPLN 2014. September 16th. Girona.

[2] Martínez Garcia, E., España-Bonet, C., & Màrquez Villodre, L. (2014). Document-Level Machine Translation as a Re-translation Process. Procesamiento Del Lenguaje Natural, 53, 103-110.

[3] Espinosa-Anke, L., & Saggion, H. (2014). Descripción y Evaluación de un Sistema de Extracción de Definiciones para el Catalán. Procesamiento Del Lenguaje Natural, 53, 69-76

[4] Pérez, A., Casillas, A., Gojenola, K., Oronoz, M., Aguirre, N., & Amillano, E. (2014). The aid of machine learning to overcome the classification of real health discharge reports written in Spanish. Procesamiento Del Lenguaje Natural, 53, 77-84

[5] Cruz, F., Troyano, J., Pontes, B., & Ortega, F. (2014). ML-SentiCon: Un lexicón multilingüe de polaridades semánticas a nivel de lemas. Procesamiento Del Lenguaje Natural, 53, 113-120.

[6] García Pablos, A., Cuadros, M., Rigau, G., & Gaines, S. (2014). Unsupervised acquisition of domain aspect terms for Aspect Based Opinion Mining. Procesamiento Del Lenguaje Natural, 53, 121-128.