Archive for the ‘Sailkatugabeak’ Category

Web-corpusen Ataria: euskarazko webeko testuen biltegi erraldoia

Osteguna, otsaila 14th, 2013

Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook Web-corpusen Ataria jarri dugu online. Bertan hiru baliabide jarri ditugu jendearen eskura: euskarazko corpus bat (125 milioi hitz ingurukoa) eta euskara-gaztelania corpus paralelo bat (18 milioi hitz ingurukoa), biak webetik automatikoki erauziak, eta lehenengotik automatikoki erauzitako hitz-konbinazioen kontsulta. Corpusak euskaraz dauden handienak dira bakoitza bere motakoen artean. Corpus biok eta konbinazioen-kontsultak baliabide garrantzitsua eta aurrerapauso handia dira euskararentzat, erabilgarriak baitira ez soilik hizkuntzalaritzarako, baizik eta baita hizkuntza-teknologien garapenerako ere.

Hizkuntza batentzat oso garrantzitsua da testu-corpusak (azterketa linguistikoak egiteko balio duten testu-bildumak) edukitzea. Duela denbora batetik hona, hizkuntzalaritza-lanetan ikerketak edo hizkuntza-estandarizazioan erabakiak datuetan oinarrituta egiten dira, eta datu horiek testuetako erabilerak ikusiz ateratzen dira. Beste lan-mota batzuetan ere oso baliagarriak dira, adibidez testu-sorkuntzan edo itzulpengintzan: hiztegietan agertu ez edo adibide nahikorik ez duten hitzak nola erabili edo nola itzuli izan diren argitu diezagukete.

(gehiago…)

SEPLN 2012 biltzarraren kronika

Asteazkena, urria 10th, 2012

Irailaren lehen astean (5-7) SEPLNren (Sociedad Espa├▒ola del Procesamiento del Lenguage Natural) urteroko biltzarra ospatu zen Castell├│ de la Planan. Azken bi urtetan bertaratzerik izan ez badugu ere, aurten arrazoi polita genuen SEPLNren biltzarrera hurbiltzeko. Izan ere, biltzarrarekin batera antolatu den TASS txapelketako sistema irabazlea gurea izan da. Txapelketan proposatutako erronka ez zen makala: gaztelaniazko tuiten polaritatea sailkatzea (positibotasuna, negatibotasuna edo neutraltasuna).

(gehiago…)

LREC 2012 kongresuaren kronika

Osteguna, abuztua 2nd, 2012

Maiatzaren 21etik 27ra, LREC 2012 biltzarraren 8. edizioa izan zen Istanbulen. Biltzar hori bi urtez behin egiten da, eta azken aldian garatutako tresna eta baliabideak ezagutzeko aukera ematen du. Gainera, hizkuntza-teknologien inguruan dauden Europako proiektuen berri izateko bilkura ezin hobea da.

(gehiago…)