Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].
1. irudia. Webeko edukien banaketa hizkuntzen arabera
ECIRen aurtengo edizioa apirilaren hasieran egin da Bartzelonako Pompeu Fabra Unibertsitatean. ECIR Informazioen Berreskurapenaren (IR) inguruko ikerketen emaitzak aurkezteko Europako biltzarrik garrantzitsuena da. Hortaz, urtean egindako lan esanguratsuen berri izateko foro ezin hobea dugu. Azkeneko urteetan bezala, aurten ere Elhuyar I+G taldea bertan izan da. Oraingoan ez dugu ezer aurkeztu: ideia berriak hartu eta harremanak egitea izan dugu helburu. (gehiago…)
Hizkuntzalaritzan eta, bereziki, hizkuntza-teknologietan, corpus konparagarriak gero eta garrantzia handiagoa hartzen ari dira azken urteotan. Artikulu honetan corpus konparagarriak zer diren, eta hizkuntzalaritzan nahiz hizkuntza-teknologietan zertarako balio dezaketen azaltzen saiatuko gara.
Testu-corpusak idatzizko dokumentuen bildumak dira, eta oinarrizko baliabideak dira hizkuntza naturalaren zenbait ezaugarri aztertu ahal izateko edota hipotesiak kontrastatzeko. Hizkuntza naturalaren prozesamendua egiteko behar den ezagutza inferitzeko ere oso garrantzitsuak dira. Hala ere, corpus-mota asko daude, eta, zereginaren arabera, batzuk aproposagoak dira besteak baino. Corpus konparagarriak, adibidez, antzeko testuez osatutako bildumak dira. Dokumentuak “antzekoak” direla esateko irizpide ezberdinak badaude ere (gehiago…)
Informatikari Euskaldunen VII. Bilkura ospatuko da gaur . Aurten ere, bilkuraren gai nagusitzat Internet hartu dute antolatzaileek eta ohi bezala, bilkuran gaiari lotutako hitzaldiak eta mahai ingurua izango dira.
Batzuek dagoeneko jakingo duzuen bezala, aurreko astean ospatu zen SEPLNren (Sociedad Española para el Procesamiento del Lenguaje Natural) 24. kongresua Leganesen. Kongresu hori hizkuntza teknologien inguruan ospatzen den garrantzitsuena da estatu mailan. Aurten 66 artikulu jaso zituzten, eta horietatik 34 onartu ziren. Hiru egunetan zehar, 34 artikulu horiei dagozkien aurkezpenez gain, 9 demo eta 5 proiekturen laburpenak izan ziren ikusgai.
ZT Corpusa, Zientzia eta Teknologiaren Corpusa, handitu egin da, eta kontsulta-aukera berriak eskaintzen ditu. Zientzia eta teknologiaren alorreko euskara ikertzeko garatutako hizkuntza-baliabide ahaltsua da ZT Corpusa. Elhuyar Fundazioak eta EHUkoIXA Taldeak elkarlanean garatutako proiektu honen lehen emaitzak 2006aren hondarrean aurkeztu zirenjendaurrean, on-line kontsultatzeko interfazea kaleratu zenean. Baina beti hedatu eta hobetzeko asmoari jarraituz, kontsulta-aukera hedatuez eta testu gehiagoz hornitu da berriki.
Elhuyar Fundazioko I+G+Bko lantaldea hizkuntza-teknologien LREC 2008 biltzarrean izan da, Marrakechen. Hizkuntza-teknologietako azken joerak ezagutu, eta Elhuyarren I+G+Bren azken ikerketa-proiektuak nazioartean ezagutarazi ditugu.
Berriki eta oso denbora tarte txikian, bi web zerbitzu interesgarri agertu dira euskal Internetaren panoraman: CorpEus eta Elebila. Interneteko hainbattokitan irakurritakoagatik, badirudi zerbitzuok aurkeztean ez dela ongi ulertu zertan datzan teknologia hori. Artikulu honetan argiago azaltzen saiatuko gara CorpEus eta Elebilaren azpian dagoena.
Martxan da dagoeneko Anhitz proiektua. Euskarazko hizkuntza-teknologietan ikerketa eta garapena sustatzeko asmoz jaio den ikerketa-proiektu estrategikoa da, eta bost partzuer elkartu dira xede horretarako, Elhuyar Fundazioa tarteko.
Jakintza eta Informazioaren Gizartean, gero eta garrantzi handiagoa du eleaniztasunak. Eta hizkuntza-teknologiek zeresan handia dute horretarako erabili behar diren tresnen garapenean. (gehiago…)