Batzuek dagoeneko jakingo duzuen bezala, aurreko astean ospatu zen SEPLNren (Sociedad Española para el Procesamiento del Lenguaje Natural) 24. kongresua Leganesen. Kongresu hori hizkuntza teknologien inguruan ospatzen den garrantzitsuena da estatu mailan. Aurten 66 artikulu jaso zituzten, eta horietatik 34 onartu ziren. Hiru egunetan zehar, 34 artikulu horiei dagozkien aurkezpenez gain, 9 demo eta 5 proiekturen laburpenak izan ziren ikusgai.
Programari dagokionez, hainbat gaitako lanak egon ziren ikusgai. Semantikak eta analisi morfosintaktikoak presentzia handia izan zuten. Azkeneko alor horretan kokatu daitezke Ixa taldeak aurkeztutako artikuluak: izen-izen sekuentzien azterketari buruzko artikulu bat; zuzentzaile gramatikala hobetzeko teknikei buruzko bat; eta, azkena, dependentziak markatuta dituen corpus batetik osagaiak markatuta dituen batera pasatzeko prozesuari buruzkoa.
Informazioaren Berreskurapenaren (IR) alorrean lan gutxi aurkeztu ziren, baina, testuen sailkapenari dagokionez, ikerketa interesgarriak ikusteko aukera izan genuen. Horien artean nabarmentzekoa da, adibidez, filmetako kritikez osatutako corpus batetik abiatuta testuak iritziaren arabera sailkatzen dituen sistema. Beste lan aipagarri bat da, gai zehatz baten barnean (kasu horretan, antzerkiaren gaia hartu zen abiapuntu bezala) web orri ezberdinak sailkatzeko metodoa, orrien egilearen asmoen arabera.
Itzulpen automatikoak ere presentzia handia izan zuen, eta, aurkeztutako lanen artean, metodo estatistikoak gailendu ziren, azken urteotako joerari jarraituz. Adibide gisa, ahotsetik zeinuen bidezko hizkuntzara itzulpena egiteko ikerketa, metodo estatistikoetan oinarritua, izan genuen ikusgai.
Corpusen sorrerari buruzko oso lan gutxi aurkeztu ziren. Hala ere, corpusak oinarrizko baliabide bezala agertu ziren lan askotan, eta behin eta berriro entzun genuen zenbaterainokoak diren horiek eratzeak dituen zailtasunaren kostuak. Horrek erakusten du zer-nolako premia dagoen corpusak automatikoki sortzeko tresna egokiak eratzeko.
Q/Aren (Galdera/Erantzun sistemak) alorrean artikulu gutxi aurkeztu ziren, baina, demoen artean, Q/A sistemek mundu errealean dituzten aplikazioak ikusteko aukera izan genuen; demo horietan erakutsi zen zein baliagarri izan daitezkeen sistema horiek. Horren adibide dugu Q-go enpresak garatutako sistema, KLM hegazkin-enpresa holandarraren webgunean erabilgarri dagoena. Sistema horrek erabiltzaileek hegazkinei buruz dituzten galderak argitzeko balio du. Bitxikeri gisa, egileari sistemaren egokitasunez galdetu genion. Haren hitzetan, Herbeheretan eta Alemanian sistemak oso ongi funtzionatzen du eta maiz erabiltzen da. Espainiar estatuan, aldiz, erabiltzaileek galdera desegokiak (luzeegiak, egitura konplexukoak…) egiten dituzte askotan, eta sistemak zailtasun handiagoak ditu erantzunak emateko. Horrek erakusten du, beharbada, herrialdeen artean dagoen haustura digitala.
Ezin aipatu gabe utzi lexikografia konputazionalak ere presentzia garrantzitsua izan zuela. Adibide moduan aipatuko dugu hizkuntzen arteko diferentziak ikertzen dituen lana.
Programarekin amaitzeko, ikusitako proiektuen laburpenen artean SOPAT aipatuko dugu. Aplikazio horrek orientazio-zerbitzu pertsonalizatua eskaintzen dio erabiltzaileari. Adibidez, eraikin baten barruan leku batetik bestera gidatu, jarduera ezberdinei buruzko informazioa eman, agenda bat kudeatu egin dezake sistemak, erabiltzailearekiko ahozko zein testu bidezko elkarrekintzaren bitartez. Sistema horrek corpusak erabiltzen ditu, besteak beste, elkarrizketak mantentzeko, eta noski, prozesatze linguistikoa ere ezinbestekoa du.
Elhuyarren ekarpenari dagokionez, AzerHitz proiektuaren baitan aurrera daramagun ikerketaren azken emaitzak aurkeztu genituen. Lana terminologia-erauzketaren alorrean kokatzen da. Corpus konparagarrietatik lexiko elebiduna erauzteko teknikak lantzen dira ikerketa horretan, metodo probabilistikoak bektoreetan eta horien arteko distantzietan oinarritutako metodoekin alderatuz. Eta ondorioa da metodo probabilistikoek hobekuntza bat dakartela egin dugun aurreko lanarekin (aurten LREC kongresuan aurkeztutakoa) alderatuta. Aurkezpena oso ongi atera zen, eta entzule-kopurua ere oso handia izan zen (are gehiago kontuan hartuta kongresuaren azken eguna zela eta aurreko egunean afari-ekitaldi ofiziala izan zela). Entzuleengan ikerketak sortutako interesaren erakusgarri dira amaieran egindako galderak.
Kongresuaren beste puntu interesgarrietako bat mahai-inguruak izan ziren. Lehenengoak “Semantikaren aplikazioak industrian” titulua zuen. Egia esan aurkezpen-segida bat izan zen, eta ez benetako mahai-ingurua. Hainbat enpresatako ordezkariak izan ziren han, eta aplikazio batzuk aurkeztu zituzten.
Bigarren mahai-ingurua, ostiralekoa, hizkuntza-teknologiak eta software librea gaiaren ingurukoa izan zen. Software libreko lizentziei buruzko aurkezpen baten ondoren, hizkuntza-teknologietan aritzen diren zenbait adituren iritziak entzuteko aukera izan genuen. Batzuk unibertsitatean ikertzen dabiltza, beste batzuk enpresa pribatuan, eta, azkenik, bi mutur horien artean mugitzen direnak ere badaude. Lizentzia libre batzuek tresna baten etorkizuneko erabilerei (teknologia-transferentzia) begira sortzen dituzten arazoak azaldu zituzten. Zenbait baliabide erabat ireki eta dohainik uztearen aldekoak diren arren, aditu batzuek defendatzen dute egokiago ikusten dutela beste baliabide batzuk jabetzapean egitea. Beste zenbaitek, berriz, ikusten dute negozioa egin daitekeela baliabide horiek bezero bakoitzaren eskaeretara egokituz, baliabidea bera librea izanik. Nolanahi ere, argi utzi behar da librea eta doakoa ez direla gauza bera.
Honaino kongresuaren kronika. Amaitzeko, aipatuko dugu datorren urtean SEPLNren 25. edizioa Donostian ospatuko dela, EHUko Ixa taldeak antolatuta. Elhuyar ere han izango da, noski!
Iñaki San Vicente eta Xabier Saralegi.
Tags: Hizkuntza-teknologiak, I+G+B, SEPLN