Elhuyar I+G bloga

Hizkuntza-teknologietan ikertuz

Browsing Posts tagged corpusgintza

Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook Web-corpusen Ataria jarri dugu online. Bertan hiru baliabide jarri ditugu jendearen eskura: euskarazko corpus bat (125 milioi hitz ingurukoa) eta euskara-gaztelania corpus paralelo bat (18 milioi hitz ingurukoa), biak webetik automatikoki erauziak, eta lehenengotik automatikoki erauzitako hitz-konbinazioen kontsulta. Corpusak euskaraz dauden handienak dira bakoitza bere motakoen artean. Corpus biok eta konbinazioen-kontsultak baliabide garrantzitsua eta aurrerapauso handia dira euskararentzat, erabilgarriak baitira ez soilik hizkuntzalaritzarako, baizik eta baita hizkuntza-teknologien garapenerako ere.

Hizkuntza batentzat oso garrantzitsua da testu-corpusak (azterketa linguistikoak egiteko balio duten testu-bildumak) edukitzea. Duela denbora batetik hona, hizkuntzalaritza-lanetan ikerketak edo hizkuntza-estandarizazioan erabakiak datuetan oinarrituta egiten dira, eta datu horiek testuetako erabilerak ikusiz ateratzen dira. Beste lan-mota batzuetan ere oso baliagarriak dira, adibidez testu-sorkuntzan edo itzulpengintzan: hiztegietan agertu ez edo adibide nahikorik ez duten hitzak nola erabili edo nola itzuli izan diren argitu diezagukete.

continue reading…

ZT Corpusa, Zientzia eta Teknologiaren Corpusa, handitu egin da, eta kontsulta-aukera berriak eskaintzen ditu. Zientzia eta teknologiaren alorreko euskara ikertzeko garatutako hizkuntza-baliabide ahaltsua da ZT Corpusa. Elhuyar Fundazioak eta EHUko IXA Taldeak elkarlanean garatutako proiektu honen lehen emaitzak 2006aren hondarrean aurkeztu ziren jendaurrean, on-line kontsultatzeko interfazea kaleratu zenean. Baina beti hedatu eta hobetzeko asmoari jarraituz, kontsulta-aukera hedatuez eta testu gehiagoz hornitu da berriki.

continue reading…

Berriki eta oso denbora tarte txikian, bi web zerbitzu interesgarri agertu dira euskal Internetaren panoraman: CorpEus eta Elebila. Interneteko hainbat tokitan irakurritakoagatik, badirudi zerbitzuok aurkeztean ez dela ongi ulertu zertan datzan teknologia hori. Artikulu honetan argiago azaltzen saiatuko gara CorpEus eta Elebilaren azpian dagoena.

continue reading…

Powered by WordPress Web Design by SRS Solutions © 2018 Elhuyar I+G bloga Design by SRS Solutions