Web-corpusen Ataria: euskarazko webeko testuen biltegi erraldoia

otsaila 14th, 2013

Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook Web-corpusen Ataria jarri dugu online. Bertan hiru baliabide jarri ditugu jendearen eskura: euskarazko corpus bat (125 milioi hitz ingurukoa) eta euskara-gaztelania corpus paralelo bat (18 milioi hitz ingurukoa), biak webetik automatikoki erauziak, eta lehenengotik automatikoki erauzitako hitz-konbinazioen kontsulta. Corpusak euskaraz dauden handienak dira bakoitza bere motakoen artean. Corpus biok eta konbinazioen-kontsultak baliabide garrantzitsua eta aurrerapauso handia dira euskararentzat, erabilgarriak baitira ez soilik hizkuntzalaritzarako, baizik eta baita hizkuntza-teknologien garapenerako ere.

Hizkuntza batentzat oso garrantzitsua da testu-corpusak (azterketa linguistikoak egiteko balio duten testu-bildumak) edukitzea. Duela denbora batetik hona, hizkuntzalaritza-lanetan ikerketak edo hizkuntza-estandarizazioan erabakiak datuetan oinarrituta egiten dira, eta datu horiek testuetako erabilerak ikusiz ateratzen dira. Beste lan-mota batzuetan ere oso baliagarriak dira, adibidez testu-sorkuntzan edo itzulpengintzan: hiztegietan agertu ez edo adibide nahikorik ez duten hitzak nola erabili edo nola itzuli izan diren argitu diezagukete.

Read the rest of this entry »

Turitec 2012 biltzarraren kronika

azaroa 5th, 2012

Urriaren 25 eta 26an, Elhuyar I+Gko Iker Manterola Malagan izan zen, TURITEC 2012 kongresuan. Biltzar horren helburu nagusia turismoaren alorrean aplikatutako informazioaren eta komunikazioaren teknologien (IKT) ezagutza eta esperientziak elkarbanatzea da. Horretarako, aditu eta ikerlari ezberdinek turismoaren alorrean burututako ekarpen zientifiko-teknikoak aurkezten dituzte.

Aurten aurkeztutako lanetako bat gurea izan da (Manterola et al., 2012), “Extracción automática de fichas de recursos turísticos de la web” izenburupean egindako lana, hain zuzen ere. Read the rest of this entry »

eLEZKARI, bilaketa eleaniztunak euskaratik abiatuta

urria 22nd, 2012

Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].

1. irudia. Webeko edukien banaketa hizkuntzen arabera

Read the rest of this entry »

  1. http://w3techs.com/technologies/overview/content_language/all

SEPLN 2012 biltzarraren kronika

urria 10th, 2012

Irailaren lehen astean (5-7) SEPLNren (Sociedad Española del Procesamiento del Lenguage Natural) urteroko biltzarra ospatu zen Castelló de la Planan. Azken bi urtetan bertaratzerik izan ez badugu ere, aurten arrazoi polita genuen SEPLNren biltzarrera hurbiltzeko. Izan ere, biltzarrarekin batera antolatu den TASS txapelketako sistema irabazlea gurea izan da. Txapelketan proposatutako erronka ez zen makala: gaztelaniazko tuiten polaritatea sailkatzea (positibotasuna, negatibotasuna edo neutraltasuna).

Read the rest of this entry »

LREC 2012 kongresuaren kronika

abuztua 2nd, 2012

Maiatzaren 21etik 27ra, LREC 2012 biltzarraren 8. edizioa izan zen Istanbulen. Biltzar hori bi urtez behin egiten da, eta azken aldian garatutako tresna eta baliabideak ezagutzeko aukera ematen du. Gainera, hizkuntza-teknologien inguruan dauden Europako proiektuen berri izateko bilkura ezin hobea da.

Read the rest of this entry »

ECIR 2012 biltzarraren kronika

ekaina 26th, 2012

ECIRen aurtengo edizioa apirilaren hasieran egin da Bartzelonako Pompeu Fabra Unibertsitatean. ECIR Informazioen Berreskurapenaren (IR) inguruko ikerketen emaitzak aurkezteko Europako biltzarrik garrantzitsuena da. Hortaz, urtean egindako lan esanguratsuen berri izateko foro ezin hobea dugu. Azkeneko urteetan bezala, aurten ere Elhuyar I+G taldea bertan izan da. Oraingoan ez dugu ezer aurkeztu: ideia berriak hartu eta harremanak egitea izan dugu helburu.
Read the rest of this entry »

Pibolex: hiztegi elebidunak pibote-tekniken bitartez sortzen

azaroa 2nd, 2011

XXI. mendeko gizarte eleanitz honetan, hiztegi eleanitzak baliabide garrantzitsuak dira hainbat esparrutan: irakaskuntzan, hiztegigintzan, itzulpengintzan, eta, oro har, hizkuntza-teknologiak oinarri dituzten aplikazio informatiko guztietan. Zoritxarrez, hizkuntza-bikote askotarako hiztegirik ez dago. Hizkuntza txikiek hizkuntza nagusi baterako hiztegi elebiduna besterik ez dute izaten, eta maiz ezta hori ere. Hiztegi falta hori oztopo handia da hizkuntza bateko baliabideak garatzeko. Gure proiektuaren helburua da baliabide-urritasun horri aurre egiteko aukerak ahalbidetzea, eta, horretarako, hiztegi elebidunak modu automatikoan sortzeko teknikak ikertzen dihardugu. Read the rest of this entry »

Elhuyar I+Gko kideak EMNLP biltzarrean izan dira

iraila 23rd, 2011
Argazkia: Ugo Riboni cc-nc-sa

Edinburgo

Uztailaren 27tik 29ra Elhuyar I+Gko Xabier Saralegi, Iker Manterola eta Iñaki San Vicente Edinburgon izan ginen, EMNLP 2011 kongresuan. EMNLP da hizkuntzaren prozesamenduan (NLP) munduko biltzar garrantzitsu eta entzutetsuenetako bat. Horren erakusgarri datu bat: bidaltzen diren artikuluen % 24 baino gutxiago onartzen dira (aurten 628tik 149).
Read the rest of this entry »

CorpEus-ek orain Google ere badarabil

otsaila 19th, 2010

2007an kaleratu genuen CorpEus, weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua. CorpEus-ek Microsoft-en Windows Live Search bilatzailea (orain Bing deitzen dena) erabili izan du beti motor gisa, Google-ren APIaren baldintzek ezinezkoa egiten baitzuten berau erabiltzea. Baina Google-k berriki baldintzak aldatu ditu, eta orain CorpEus-ek aukera ematen du kontsultak Bing nahiz Google erabiliz egiteko.


Read the rest of this entry »

Elhuyar Zientzia eta Teknologiaren Hiztegi Entziklopedikoa Sutanblai saioan

abendua 11th, 2009