eLEZKARI, bilaketa eleaniztunak euskaratik abiatuta

Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].

1. irudia. Webeko edukien banaketa hizkuntzen arabera

Egoera horren aurrean honako galdera egiten dugu: erabiltzaile batek ez luke informazio aberatsagoa lortuko, baldin eta bilaketa baten emaitzak berak dakizkien hizkuntza guztietan jasoko balitu? Informazioaren berreskurapena ez luke erosoago burutuko kontsultak bere ama-hizkuntzan egingo balitu? Alde batetik, zenbait ikerketetan frogatu dute erabiltzaileak erosoago sentitzen direla informazioa eskuratzeko prozesuak bere ama-hizkuntzan burutuz [3]. Bestetik, ezin dugu ahaztu elebitasuna ez dela fenomeno isolatu bat (ikusi 2. irudia)2. Europan adibidez, populazioaren erdia elebiduna da [4]. CLIR (Cross-language Information Retrieval) teknologiari esker, erabiltzaile askok, bere ama-hizkuntzatik abiatuta, menderatzen dituzten hizkuntzetan idatzita dauden edukiak eskuratu ahal izango dituzte.

Eleaniztasunaren oztopoaz gain, informazio kopuru handiak kudeatzeko arazoarekin ere egiten dugu topo. Informazio kopuru handi horiek modu antolatu batean ez badira atzitzen saturazioaren problema gertatu daiteke. Informazio gehiegi egoteak behar dugun ezagutza eskuratzea oztopa dezake, erabiltzaileak bilaketetan oinarritutako erabaki okerrak hartzera bideratuz. Informazioa modu antolatuan eskuragai jartzeko helburuarekin, Elhuyarreko I+G taldeak eLEZKARI, hizkuntza arteko bilatzaile eleaniztuna, garatu du.

2. irudia. Hiztun kopuruak (L1=jatorrizko hizkuntza eta L2=bigarren hizkuntza)

Tresna hau, Elhuyar Fundazioaren I+G taldeak hizkuntza arteko dokumentuen berreskurapen automatikoaren (ingelesez, CLIR) ikerketa-ildoan burutzen duen jardueraren [5,6,7,8] emaitza da.

eLEZKARI, hizkuntza arteko bilatzaile eleaniztuna

Hemen aurkezten den CLIR bilatzailea domeinuarekiko independentea den arren, kasu honetan, zientzia eta teknologiaren domeinurako egokitu da, zientzia.net eta Elhuyar Zientzia eta Teknologia aldizkariaren webguneetan inplementatuz. Bilatzaile horrek, hizkuntza batetik abiatuta (euskara), hizkuntza batean baino gehiagotan dauden zientzia eta teknologiako albisteak bilatzen ditu (euskara eta ingelesezko albisteak).

Erabiltzaile euskaldunei dago zuzenduta tresna hau. Zientzietako irakasgai baterako gai baten inguruan informazio bilatu nahi duten ikasle zein irakasleek; artikulu bat idazteko informatu nahi duten kazetariek; edo, besterik gabe, zientzia eta teknologia gaiak interesatzen zaizkien erabiltzaile arruntek, kontsulta orokorrak (adibidez, “Hiesaren aurkako txertoa”) nahiz zehatzagoak (adibidez, “herentzia genetikoaren eragina minbiziaren garapenean”) burutu ditzakete, informazio esanguratsua hainbat hizkuntzatan lortuz (ikusi 3.irudia). Kontsulta horiek hizkuntza naturalean adierazi ditzake erabiltzaileak (ikusi 3.irudia), izan ere, bilaketa prozesuan kontsultak lematizatzen dira.

Interneten dauden bilatzaileen aldean hainbat abantaila eskaintzen ditu tresna honek. Google bilatzaile ospetsuak esaterako, kontsultako hitzen formak eta hauen aldaera gutxi batzuk bilatzen ditu, eta hori, euskararen kasuan, morfologia aberatsa duen hizkuntza izanik, oso kaltegarria izan daiteke emaitza egokiak bilatzeko.

Bestetik, Elebila euskarazko bilatzaileak, EusBila teknologian oinarrituta, erdibideko estrategia erabiltzen du morfologiaren problemari aurre egiteko: kontsulta lematizatu eta morfologia-sorkuntza aplikatzen ditu kontsultako lemen flexio guztiak lortzeko. Hala ere, berreskurapena burutzeko bilatzaile komertzialak erabiltzen ditu, eta horietan bildumak lematizatuta ez daudenez, dokumentu esanguratsuen ranking okerragoak sortzen dira.

Desabantaila horiek izanda ere, Elebila bilatzaileak eta Googlek hemen aurkezten dugun bilatzaileak baino estaldura handiagoa dute. Elebilak eta Googlek internet osoaren gainean burutzen dituzte bilaketak, eLEZKARIk ordea, zientzia eta teknologiako edukietan soilik.

3.irudia. Bilaketaren emaitzen adibidea

eLEZKARI bilatzaileak bi osagai nagusi ditu: sarrerako kontsultaren itzulpenerako modulua eta informazioaren berreskurapenerako modulua. Jarraian, modulu horiek azalduko dira.

Kontsultaren Itzulpena

Kontsultaren itzulpena egiteko, hainbat modu proposatzen dira literaturan. Garatu dugun tresnak hiztegietan oinarritutako teknikak erabiltzen ditu, horiek ondo egokitzen baitira euskara bezalako baliabide urriko hizkuntzetara [5,6]. Kontsultaren itzulpen-prozesuan, hiztegien bidezko itzulpen prozesuan sortzen diren arazo nagusiak tratatzen dira [7]:

a) Hiztegitik kanpoko hitzak: hiztegietan agertzen ez diren hitzak itzultzeko, helburu hizkuntzan dagoen bilduman antzekotasun ortografiko handiena duten hitzak aukeratzen dira itzulpen-hautagaitzat. (Adibidez, “korrupzio” -> ”corruption”).

b) Itzulpenen anbiguotasuna: jatorrizko hitzaren adierari ez dagozkioen itzulpenak tratatzeko, “kontsulta egituratuak” deiturikoak [9] erabiltzen ditugu. Kontsulta egituratuetan, kontsultako hitz baten itzulpen-hautagai guztiak multzokatuta tratatzen dira dokumentuen (albisteak) rankinga zehatzago kalkulatzeko. Adibidez, “baleak ehizatzea debekatua dagoen erreserbak” kontsultaren itzulpen bezala “#syn(whale) #syn(shoot hunt) #syn( forbid prevent prohibit ban ) #syn( booking reserve)” kontsulta egituratua sortuko genuke.

Informazioaren berreskurapena

Kontsultaren itzulpen-prozesua amaitutakoan, informazioaren berreskurapen prozesuari ekiten zaio. Albisteak bi tokitan bilatzen dira, zientzia.net barruko edukietan eta zientzia eta teknologia alorreko erreferentziazko webguneetan (BasqueResearch, Futurity, Science, Nature eta PhysicsWorld). Webgune horietan albiste berriak argitaratu ahala, eguneratze-moduluak gure dokumentu-bildumetan gehitzen ditu RSS-en (Really Simple Syndication) bitartez. Horrela, erabiltzaileek estaldura handiko lagina izango dute kontsultagai.

Berreskurapen-algoritmoa erabilita jatorrizko kontsulta euskarazko albisteekin osatutako bildumaren aurka prozesatuko dugu, eta, kontsultaren itzulpen-prozesuan lortu dugun itzulpena ingelesezko albisteekin osatutako bildumaren aurka. Berreskurapen-algoritmoak dokumentu (albiste) esanguratsuen rankinga osatuko du. Ranking hauetan dokumentuak kontsultak adierazten duen gaiarekiko duten antzekotasun mailaren arabera daude ordenatuta. Ranking hauek kalkulatzeko Indri algoritmoa erabili dugu.

Ebaluazioa

Guk garatutako bilatzailearen eraginkortasuna neurtzeko asmoz, Google bilatzailearekin alderatu dugu. Horretarako, Google mugatu dugu bilaketak zientzia.net-eko edukien gainean soilik burutu ditzan, Google Custom Search zerbitzua erabiliz. Ebaluazio honetan bilatzailearen garapen-prozesutik at egon diren bi pertsonek hartu dute parte giza-ebaluatzaile moduan.

Ebaluatzaileek, ausaz aukeratutako berrogei kontsultentzat bi sistemek itzulitako rankingetako dokumentuak banan-banan aztertu dituzte, eta egokitasun-maila adierazten duten hiru kategorien arabera sailkatu dituzte3:

  • Oso esanguratsua: dokumentuak kontsultan adierazten den informazio beharrari erantzuten dio. Dokumentuan kontsultako gaia sakon aztertzen da.
  • Esanguratsua: dokumentuak kontsultan adierazten den informazio beharrari zati batean erantzuten dio.
  • Ez-esanguratsua: dokumentuak ez du kontsultan adierazten den gaiari buruzko informaziorik ematen.

Ebaluazio prozesuan ahalik eta desbiderapen txikienak egon daitezen, ebaluazio itsua diseinatu dugu. Horretarako ebaluatzaileei ezkutatu egin zaie dokumentu bakoitza zein bilatzailek itzuli duen eta dagokion rankingeko zein posiziotan kokatuta dagoen.

Kontsulta bakoitzarentzat bilatzaile bakoitzak itzulitako lehen hamar dokumentuak ebaluatu dira. 5. irudian, Bilatzaile bakoitzak zenbat galderatan lortu duen ranking egokiena adierazten da. Nabarmentzekoa da eLEZKARIk Google Custom Search-ek baino ranking hobeak eskaintzen dituela kontsulta gehienetarako (%78). Hiru kontsultentzat ranking berdinak itzuli dituzte bi bilatzaileek.

5. Irudia. Eraginkortasun onena berrogei kontsultetan; Google Custom Search vs. eLEZKARI elebakarra

Google Custom Search-en eta gure bilatzailearen arteko ebaluazioa egiteaz gain, bilaketa elebakarrarekin lortutako emaitzak eta hizkuntza arteko bilaketarekin lortutako emaitzak ere konparatu ditugu. Espero bezala, bilaketa elebakarrarekin emaitza hobeak lortu dira, baina, aipatu behar da, zortzi kontsultarentzat hizkuntza arteko bilaketarekin rankingetan dokumentu esanguratsu gehiago itzuli direla (Ikusi 6. irudia).

6. irudia. Eraginkortasun onena berrogei kontsultetan; eLEZKARI elebakarra vs. hizkuntza arteko eLEZKARI

Orokorrean, bilaketa elebakarrarekin emaitza hobeak lortzen diren arren, hizkuntza arteko bilaketa erabiliz kanpoko webguneetatik ere emaitza esanguratsuak itzultzen dira, gai bati buruzko informazio osagarria lortuz. Hortaz, bilaketa elebakarrarekin batera erabiltzen bada informazio aberatsagoa eskaintzen zaio erabiltzaile eleaniztunari. Horrez gain, bilaketa bakarrean hizkuntza desberdinetako informazioa jasoz, batetik, denbora aurrezten du erabiltzaileak, eta, bestetik, erosotasuna ere irabazten du.

Maddalen Lopez de Lacalle eta Xabier Saralegi.

Bilbliografia

[1] N. Gandal. 2006. Native Language and Internet Use. International Journal of the Sociology of Language, 182, 25 – 40.

[2] Carolyn Y. Wei, Beth E. Kolko. 2005. Resistance to globalization: Language and Internet diffusion patterns in Uzbekistan. New Review of Hypermedia and Multimedia. Vol. 11, Iss. 2, 2005

[3] Vundavalli Srinivas Rao, and Vasudeva Varma. 2010. User Behavior in a Multilingual Information Access Task,, Indian Institute of Information Technology Allahabad, India. Report no: IIIT/TR/2010/30.

[4] Tabouret-Keller, A. (2004). Bilingualism in Europe. In T. K. Bhatia & W. C. Ritchie (Eds.), The handbook of bilingualism (pp. 662-688). Malden, MA: Blackwell Publishing.

[5] Saralegi, X. and Lopez de Lacalle, M. 2009. “Comparing different approaches to treat Translation Ambiguity in CLIR: Structured Queries vs. Target Co-occurrence-Based Selection”. Proceedings of TIR 2009. Linz.

[6] Saralegi, X. and Lopez de Lacalle, M. 2010. Estimating Translation Probabilities from the Web for Structured Queries on CLIR. ECIR 2010. Milton Keynes.

[7] Saralegi, X. and Lopez de Lacalle, M. 2010. Dictionary and Monolingual Corpus-based Query Translation for Basque-English CLIR. LREC 2010. Malta.

[8] Saralegi, X. 2012. Hiztegietan oinarritutako hizkuntza arteko dokumentuen berreskurapena. HAP masterra. UPV/EHU.

[9] Ari Pirkola. 1998. The effects of query structure and dictionary setups in dictionary-based cross-language information retrieval. In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR ’98). ACM, New York, NY, USA, 55-63.

  1. http://w3techs.com/technologies/overview/content_language/all
  2. http://www.vistawide.com/languages/top_30_languages.htm
  3. Desadostasunak guk ebatzi ditugu.

Tags: , , , , , ,

Comments are closed.