Elhuyar I+G

Hizkuntza-teknologietan ikertuz

Browsing Posts published by Elhuyar I+G

Gaur Solr-i buruz arituko gara. Solr geroz eta gehiago elucene-solr-logorabiltzen den web aplikazio bat da, Lucene bilatzaile motore librearen gainean inplementatutakoa. Solr-ek Lucene indizeak erabiltzeko erraztasunak eta funtzionalitate gehigarriak eskaintzen ditu. Dokumentuak indexatu eta bilatzeko aukera ematez gain, hainbat gehigarri ditu, hala nola, highlightak, dokumentu erlazionatuak, zuzentzailea eta abar. Indexazio eta bilaketa hori url bitartez egin daiteke, edota hainbat lengoaietarako dauden liburutegiak erabiliz (java, python, ruby, php, c#/.net, c++, scala, perl, javascript /json /node.js, R …).

Elhuyarren Lucene eta Solr erabiltzen dugu hainbat aplikazioetan, adibidez webcorpusak.elhuyar.org atarian corpusak indexatzeko, edo Dokusare eta Elezkari moduko aplikazioetan dokumentu bildumak indexatu eta kontsultatzeko. Bada, gaur, horrelako aplikazioetan Solr-en segurtasuna nola ahalbidetu azalduko dugu, kudeaketarako sarbidea edozeinen esku egon ez dadin. Kudeaketarako sarbidea mugatzea garrantzitsua da, bestela edozeinek baitu aukera indizeetan aldaketak egiteko (eta indizea bera osorik ezabatzeko ere!).

continue reading…

Irailaren 3. astean (16-19) SEPLNren sepln2014 (Sociedad Española del Procesamiento del Lenguage Natural) XXX. biltzarra ospatu zen Gironan. Azken hiru urteetako zitari hutsik egin gabe Elhuyar I+G ere han izan da. Aurten arrazoi bikoitza genuen bertara hurbiltzeko. Izan ere, biltzarrarekin batera antolatu diren TASS  eta  TweetLID  lehiaketetan parte-hartze nabarmena izan dugu.

continue reading…

Definizioz, hizkuntza batetik bestera itzultzen duen sistema informatikoa da itzulpen automatikoa; itzulpen prozesuan zehar gizakiak parte hartu behar izanik gabe ematen du itzulpena.

komunikazioa

Askotan, itzulpen automatikoko sistemak eta hiztegiak nahasten ditugu. Bi baliabide hauen ezberdintasun nagusia honakoa da: hiztegietan bilaketak egiten ditugunean, bertako emaitzak profesionalek eskuz landuak dira. Itzulpen automatikoan aldiz, nahiz eta oinarri bezala erabiltzen diren datuak profesionalek landutakoak izan, erantzuna beti makinak berak sortzen du; automatikoki sortzen da. Hala ere, erabiltzaile arrunten ikuspuntutik desberdintasun nagusiena hauxe da: itzulpen automatikoko sistemek esaldi osoak nahiz hitzak itzul ditzakete.

Itzulpen automatikoko sistema ezagunenen artean dago Google Translator. Sistema honen bidez, 70 hizkuntzen arteko itzulpenak egin daitezke automatikoki, eta 2010a geroztik Euskara ere hizkuntza hauen artean aurki dezakegu.

Itzulpen xelebreak, zergatik gertatzen dira?

Interneten nabigatzen dugun bitartean, nahiko arrunta da bilatzen ari garen informazioa beste hizkuntza batean topatzea, eta bertan jartzen duena ulertzeko itzulpen automatikoko sistema bat erabiltzea. Horregatik, itzulpen automatikoa erabiltzearen arriskuak zein diren jakitea komeni da. Horrelako sistema batek ez du beti itzulpen zehatza emango, eta erabiltzailearen esku dago automatikoki lortutako itzulpen horrekin zer egin erabakitzea. Sarri gertatu izan da, automatikoki lortutako emaitza horiek publizitate nahiz bestelako karteletan ikustea.

continue reading…

Bere bi urteroko zitari hutsik egin gabe, aurten ere UEUk antolatu ohi duen Informatikari euskaldunen bilkura (IEB 2013) ospatu da Maiatzaren 8an Donostian. Ekitaldi honek, informatikaren munduan agertzen diren ekarpen eta fenomeno berriak komunitate euskaldunen ikuspuntutik aztertzea izan du helburu 1996. urtean lehen aldiz ospatu zenetik. Ordutik hona bi urtean behin informatikaren munduan gaurkotasun handiena izan duten gaiak landu dira bertan, beti ere euskararen presentzia azpimarratuz. Aurtengoan gai nagusitzat telefonia aukeratu da, azken aldian telefonoek Internetekin eta informatikarekin hartu duten olatua harrapatu nahian. Elhuyarreko hainbat lankide ere bertan izan ginen; alde batetik, gure ezagutzak bilkurara gerturatu zirenekin elkarbanatzeko, baina, batez ere, informatikaren alorrean puri-purian dagoen telefoniaren gaiaz gehiago jakiteko.

continue reading…

Aurten, aste santuarekin bat etorriz (Martxoak 24-30), CICLing (International Conference on Intelligent Text Processing and Computational Linguistics) kongresuaren 14. edizioa ospatu da,  Pitagoras, Aristarko edo Epikuroren jaioterri den Samos irla greziarrean. Xabier Saralegi eta Iñaki San Vicente bertan izan gara Elhuyar Fundazioko I+G unitatearen ikerketen emaitzak aurkezten. CICLing hizkuntza naturalaren prozesamenduaren alorrean kongresu garrantzitsua da, eta bertan publikatzea ez da lan erraza, eta horren erakusle da hurrengo estatistika: aurten bidalitako artikuluen %24,6 besterik ez da onartu. continue reading…

 Itzulpena oso prozesu konplexua da. Hizkuntza ez da pentsatzen dugun bezain erregularra, eta askotan testuinguruak adierazitako ñabardura txikiak baliatu behar ditugu hizkuntzaren kasu anbiguoak behar bezala interpretatzeko. Hori dela eta, oso zaila da itzulpen-prozesu hori mekanizatzea eta automatikoki burutzea. Konplexutasun hori are nabarmenagoa da domeinu batzuetan (literatura, poesia,…), non hizkuntzaren malgutasunari etekin handiena ateratzen zaion. Hortaz, itzulpen automatikoak (hemendik aurrera MT) domeinu itxietan jarri behar du arreta, epe motzean behintzat, baldin eta ingurune profesional baterako emaitza onargarriak lortu nahi baditugu. Domeinu itxietan irregulartasunak urriagoak dira, eta, beraz, automatizatze-prozesua errazagoa da. Artikulu honetan gure buruari egiten diogun galdera hauxe da: Lagungarriak dira egungo MT sistemak horrelako domeinu itxietan itzultzaile profesionalentzako?

Gizakia eta makinaren arteko elkarlana continue reading…

Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook Web-corpusen Ataria jarri dugu online. Bertan hiru baliabide jarri ditugu jendearen eskura: euskarazko corpus bat (125 milioi hitz ingurukoa) eta euskara-gaztelania corpus paralelo bat (18 milioi hitz ingurukoa), biak webetik automatikoki erauziak, eta lehenengotik automatikoki erauzitako hitz-konbinazioen kontsulta. Corpusak euskaraz dauden handienak dira bakoitza bere motakoen artean. Corpus biok eta konbinazioen-kontsultak baliabide garrantzitsua eta aurrerapauso handia dira euskararentzat, erabilgarriak baitira ez soilik hizkuntzalaritzarako, baizik eta baita hizkuntza-teknologien garapenerako ere.

Hizkuntza batentzat oso garrantzitsua da testu-corpusak (azterketa linguistikoak egiteko balio duten testu-bildumak) edukitzea. Duela denbora batetik hona, hizkuntzalaritza-lanetan ikerketak edo hizkuntza-estandarizazioan erabakiak datuetan oinarrituta egiten dira, eta datu horiek testuetako erabilerak ikusiz ateratzen dira. Beste lan-mota batzuetan ere oso baliagarriak dira, adibidez testu-sorkuntzan edo itzulpengintzan: hiztegietan agertu ez edo adibide nahikorik ez duten hitzak nola erabili edo nola itzuli izan diren argitu diezagukete.

continue reading…

Urriaren 25 eta 26an, Elhuyar I+Gko Iker Manterola Malagan izan zen, TURITEC 2012 kongresuan. Biltzar horren helburu nagusia turismoaren alorrean aplikatutako informazioaren eta komunikazioaren teknologien (IKT) ezagutza eta esperientziak elkarbanatzea da. Horretarako, aditu eta ikerlari ezberdinek turismoaren alorrean burututako ekarpen zientifiko-teknikoak aurkezten dituzte.

Aurten aurkeztutako lanetako bat gurea izan da (Manterola et al., 2012), “Extracción automática de fichas de recursos turísticos de la web” izenburupean egindako lana, hain zuzen ere. continue reading…

Irailaren lehen astean (5-7) SEPLNren (Sociedad Española del Procesamiento del Lenguage Natural) urteroko biltzarra ospatu zen Castelló de la Planan. Azken bi urtetan bertaratzerik izan ez badugu ere, aurten arrazoi polita genuen SEPLNren biltzarrera hurbiltzeko. Izan ere, biltzarrarekin batera antolatu den TASS txapelketako sistema irabazlea gurea izan da. Txapelketan proposatutako erronka ez zen makala: gaztelaniazko tuiten polaritatea sailkatzea (positibotasuna, negatibotasuna edo neutraltasuna).

continue reading…

Maiatzaren 21etik 27ra, LREC 2012 biltzarraren 8. edizioa izan zen Istanbulen. Biltzar hori bi urtez behin egiten da, eta azken aldian garatutako tresna eta baliabideak ezagutzeko aukera ematen du. Gainera, hizkuntza-teknologien inguruan dauden Europako proiektuen berri izateko bilkura ezin hobea da.

Mezkita urdina, Istanbul.

Mezkita urdina

continue reading…

Powered by WordPress Web Design by SRS Solutions © 2018 Elhuyar I+G Design by SRS Solutions