corpusak - Elhuyar I+G

Elhuyar I+G

Hizkuntza-teknologietan ikertuz

Browsing Posts tagged corpusak

Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook Web-corpusen Ataria jarri dugu online. Bertan hiru baliabide jarri ditugu jendearen eskura: euskarazko corpus bat (125 milioi hitz ingurukoa) eta euskara-gaztelania corpus paralelo bat (18 milioi hitz ingurukoa), biak webetik automatikoki erauziak, eta lehenengotik automatikoki erauzitako hitz-konbinazioen kontsulta. Corpusak euskaraz dauden handienak dira bakoitza bere motakoen artean. Corpus biok eta konbinazioen-kontsultak baliabide garrantzitsua eta aurrerapauso handia dira euskararentzat, erabilgarriak baitira ez soilik hizkuntzalaritzarako, baizik eta baita hizkuntza-teknologien garapenerako ere.

Hizkuntza batentzat oso garrantzitsua da testu-corpusak (azterketa linguistikoak egiteko balio duten testu-bildumak) edukitzea. Duela denbora batetik hona, hizkuntzalaritza-lanetan ikerketak edo hizkuntza-estandarizazioan erabakiak datuetan oinarrituta egiten dira, eta datu horiek testuetako erabilerak ikusiz ateratzen dira. Beste lan-mota batzuetan ere oso baliagarriak dira, adibidez testu-sorkuntzan edo itzulpengintzan: hiztegietan agertu ez edo adibide nahikorik ez duten hitzak nola erabili edo nola itzuli izan diren argitu diezagukete.

continue reading…

Hizkuntzalaritzan eta, bereziki, hizkuntza-teknologietan, corpus konparagarriak gero eta garrantzia handiagoa hartzen ari dira azken urteotan. Artikulu honetan corpus konparagarriak zer diren, eta hizkuntzalaritzan nahiz hizkuntza-teknologietan zertarako balio dezaketen azaltzen saiatuko gara.

Testu-corpusak idatzizko dokumentuen bildumak dira, eta oinarrizko baliabideak dira hizkuntza naturalaren zenbait ezaugarri aztertu ahal izateko edota hipotesiak kontrastatzeko. Hizkuntza naturalaren prozesamendua egiteko behar den ezagutza inferitzeko ere oso garrantzitsuak dira. Hala ere, corpus-mota asko daude, eta, zereginaren arabera, batzuk aproposagoak dira besteak baino. Corpus konparagarriak, adibidez, antzeko testuez osatutako bildumak dira. Dokumentuak “antzekoak” direla esateko irizpide ezberdinak badaude ere continue reading…

Powered by WordPress Web Design by SRS Solutions © 2018 Elhuyar I+G Design by SRS Solutions