Posts Tagged ‘I+G+B’

eLEZKARI, bilaketa eleaniztunak euskaratik abiatuta

Astelehena, urria 22nd, 2012

Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].

1. irudia. Webeko edukien banaketa hizkuntzen arabera

(gehiago…)

  1. http://w3techs.com/technologies/overview/content_language/all

ECIR 2012 biltzarraren kronika

Asteartea, ekaina 26th, 2012

ECIRen aurtengo edizioa apirilaren hasieran egin da Bartzelonako Pompeu Fabra Unibertsitatean. ECIR Informazioen Berreskurapenaren (IR) inguruko ikerketen emaitzak aurkezteko Europako biltzarrik garrantzitsuena da. Hortaz, urtean egindako lan esanguratsuen berri izateko foro ezin hobea dugu. Azkeneko urteetan bezala, aurten ere Elhuyar I+G taldea bertan izan da. Oraingoan ez dugu ezer aurkeztu: ideia berriak hartu eta harremanak egitea izan dugu helburu.
(gehiago…)

AnHitz proiektua, Polonian saritua

Osteguna, urria 22nd, 2009
Joan den astean Poloniako Mrągowo herrian izandako CLA’09 (Computational Linguistics – Applications) nazioarteko workshop-ean AnHitz-ek, euskaraz egiten duen zientzia eta teknologiako aditu birtualak, aplikazio onenaren saria irabazi zuen.
 
 anhitz

(gehiago…)

Corpus konparagarriak: zer dira eta zertarako erabil daitezke?

Asteartea, maiatza 26th, 2009

Hizkuntzalaritzan eta, bereziki, hizkuntza-teknologietan, corpus konparagarriak gero eta garrantzia handiagoa hartzen ari dira azken urteotan. Artikulu honetan corpus konparagarriak zer diren, eta hizkuntzalaritzan nahiz hizkuntza-teknologietan zertarako balio dezaketen azaltzen saiatuko gara.

Testu-corpusak idatzizko dokumentuen bildumak dira, eta oinarrizko baliabideak dira hizkuntza naturalaren zenbait ezaugarri aztertu ahal izateko edota hipotesiak kontrastatzeko. Hizkuntza naturalaren prozesamendua egiteko behar den ezagutza inferitzeko ere oso garrantzitsuak dira. Hala ere, corpus-mota asko daude, eta, zereginaren arabera, batzuk aproposagoak dira besteak baino. Corpus konparagarriak, adibidez, antzeko testuez osatutako bildumak dira. Dokumentuak “antzekoak” direla esateko irizpide ezberdinak badaude ere (gehiago…)

IEB2009: Teknologia berriak, gaur eta bihar

Osteguna, maiatza 7th, 2009

Informatikari Euskaldunen VII. Bilkura ospatuko da gaur . Aurten ere, bilkuraren gai nagusitzat Internet hartu dute antolatzaileek eta ohi bezala, bilkuran gaiari lotutako hitzaldiak eta mahai ingurua izango dira.

Elhuyar Hizkuntza Zerbitzuetako I+Gko eta Elekako kideok izango dira Bilkuran eta hainbat hitzaldi emango ditugu:

UEUko Informatika Saila eta Miramon Enpresa Digitala elkarlanean aritu dira Bilkura honen antolakuntzan. Jardunaldiaren informazio gehiago UEUren webgunean eta IEB2009ko blogean duzue.

Igor Leturia AnHitz proiektuaren aurkezpenean:

Elhuyar Fundazioa SEPLN 2008 biltzarrean

Osteguna, iraila 18th, 2008

Batzuek dagoeneko jakingo duzuen bezala, aurreko astean ospatu zen SEPLNren (Sociedad Española para el Procesamiento del Lenguaje Natural) 24. kongresua Leganesen. Kongresu hori hizkuntza teknologien inguruan ospatzen den garrantzitsuena da estatu mailan. Aurten 66 artikulu jaso zituzten, eta horietatik 34 onartu ziren. Hiru egunetan zehar, 34 artikulu horiei dagozkien aurkezpenez gain, 9 demo eta 5 proiekturen laburpenak izan ziren ikusgai.

(gehiago…)

Berrikuntzak Zientzia eta Teknologiaren Corpusean

Ostirala, uztaila 11th, 2008

ZT Corpusa, Zientzia eta Teknologiaren Corpusa, handitu egin da, eta kontsulta-aukera berriak eskaintzen ditu. Zientzia eta teknologiaren alorreko euskara ikertzeko garatutako hizkuntza-baliabide ahaltsua da ZT Corpusa. Elhuyar Fundazioak eta EHUko IXA Taldeak elkarlanean garatutako proiektu honen lehen emaitzak 2006aren hondarrean aurkeztu ziren jendaurrean, on-line kontsultatzeko interfazea kaleratu zenean. Baina beti hedatu eta hobetzeko asmoari jarraituz, kontsulta-aukera hedatuez eta testu gehiagoz hornitu da berriki.

(gehiago…)

Elhuyar Fundazioa LREC 2008 biltzarrean

Igandea, ekaina 1st, 2008

Elhuyar Fundazioko I+G+Bko lantaldea hizkuntza-teknologien LREC 2008 biltzarrean izan da, Marrakechen. Hizkuntza-teknologietako azken joerak ezagutu, eta Elhuyarren I+G+Bren azken ikerketa-proiektuak nazioartean ezagutarazi ditugu.

(gehiago…)

Corpeus eta Elebilaren azpian zer dagoen

Astelehena, urtarrila 28th, 2008

Berriki eta oso denbora tarte txikian, bi web zerbitzu interesgarri agertu dira euskal Internetaren panoraman: CorpEus eta Elebila. Interneteko hainbat tokitan irakurritakoagatik, badirudi zerbitzuok aurkeztean ez dela ongi ulertu zertan datzan teknologia hori. Artikulu honetan argiago azaltzen saiatuko gara CorpEus eta Elebilaren azpian dagoena.

(gehiago…)

Anhitz, euskarazko hizkuntza-teknologietan ikertzeko proiektua martxan

Osteguna, urtarrila 17th, 2008

Martxan da dagoeneko Anhitz proiektua. Euskarazko hizkuntza-teknologietan ikerketa eta garapena sustatzeko asmoz jaio den ikerketa-proiektu estrategikoa da, eta bost partzuer elkartu dira xede horretarako, Elhuyar Fundazioa tarteko.

Jakintza eta Informazioaren Gizartean, gero eta garrantzi handiagoa du eleaniztasunak. Eta hizkuntza-teknologiek zeresan handia dute horretarako erabili behar diren tresnen garapenean. (gehiago…)