Elhuyar I+G bloga

Hizkuntza-teknologietan ikertuz

Aste honetan Portorožen (Slovenian) ospatuko den LREC 2016 Biltzarrean (http://lrec2016.lrec-conf.org/en/) lau lan aurkeztu behar ditu Elhuyar I+G taldeak. Honakoak dira aurkeztuko ditugun lanak:

[1] I. San Vicente, X. Saralegi. Polarity lexicon building: to what extent is the manual effort worth?. In Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

Testuetan adierazten diren sentimendu eta iritziak automatikoki aztertzeko oinarrizko baliabideak dira polaritate-lexikoak. Artikulu honetan lexiko horiek modu automatikoan sortzeko hiru bide aztertu dira, lexiko eraginkorrak hutsetik modu azkar batean eta adituen ahalegin handirik gabe sor daitezkeela erakutsiz.

[2] Iñaki San Vicente, Iñaki Alegria, Nora Aranberri, Cristina España-Bonet, Pablo Gamallo, Hugo Gonçalo Oliveira, Eva Martínez Garcia, Antonio Toral, Arkaitz Zubiaga. TweetMT: A parallel microblog corpus. In Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

TweetMT hainbat erakundek elkarlanean sortutako baliabidea da, iberiar penintsulako hizkuntzak barne hartzen dituen txioen corpusa, euskara, galiziera, katalana, eta portuguesa espainierarekin lotzen dituzten datu multzoak eskaintzen ditu, (eu-es,ga-es,ca-es,pt-es). Corpusa publikoki eskuragarri dago.

[3] X. Saralegi, E. Agirre, I. Alegria. Evaluating translation quality and CLIR performance of Query Sessions. In Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

Bilaketa eleaniztuna hobetzeko teknika berri bat aztertu da artikulu honetan. Bilaketaren itzulpena urrats kritikoa da bilaketa eleaniztunaren prozesuan. Urrats horretan ebatzi beharreko problema nagusia itzulpen anbiguotasuna da. Itzulpen anbiguoa tratatzeko teknika estatistiko berri bat proposatzen da artikuluan, saio bereko kontsulta guztiak testuinguru bezala erabiltzen dituena.

[4] López de Lacalle M., Laparra E., Aldabe I., Rigau G. 2016 A Multilingual Predicate Matrix. In Proceedings of the Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

VerbNet, FramenNet, PropBank eta WordNet bezalako baliabideek predikatu mailako informazio interesgarria eskaintzen dituzte bakoitzak bere aldetik. Lan honetan baliabide hauek guztiak ingurune berdinean bateratu ditugu eta gainera, ingelesezko predikatu nominalak jasotzeko NomBank baliabidearekin elkartu dugu. Honez gain, Gaztelania, Katalana eta Euskerara ere hedatu dugu. Predicate Matrix 1.3 da lan honen emaitza, analisi semantiko interoperablea hizkuntza desberdinetan egiteko aukera ematen duen lexikoi eleaniztuna.

(Artikulu hau “Eraldaketa Elhuyar da” blogean argitaratu da aurretik)

Krisi-garaian, zerbitzuak merkatzeko ahalegina egin beharrean aurkitzen gara. Gainera, globalizazioaren eraginez munduko beste puntan dauden enpresak ere gure zerbitzuak eskaintzen hasi badira, are gehiago.

Egoera hau oso nabarmena da itzulpengintzaren alorrean. Azken urteetan, itzulpenen prezioak nabarmen jaitsi dira, eta direnak eta ez direnak egiten ari dira itzulpen-enpresak gastuak murrizteko. Kudeaketan pasatzen den denbora murriztea da hori lortzeko modu bat. Efizienteagoak bagara kudeaketan, denbora gehiago izango dugu produkziorako; alegia, itzulpenak egiteko.

Orain arte, itzulpen-enpresa askok antolatu du bere kudeaketa-lana kalkulu-orri batekin eta posta elektronikoarekin. Horrek, ordea, baditu desabantailak. Batetik, posta-helbide bat sortu ohi da mezuak pertsona batek baino gehiagok jaso ahal izateko. Baina konplikatua izaten da mezu bakoitza zeinek ikusi edota erantzun duen jakitea, lana egiten norbait hasi den jakitea, eta abar.

Bestetik, kalkulu-orri batean idazten dira egiten ari garen lanen xehetasunak. Datuak eskuz kalkulatzen dira, eta norbaitek apuntatu behar ditu kalkulu-orrian. Baina non gordetzen da kalkulu-orria? Norbaiten ordenagailuan? Pertsona bakar baten esku? Gaur egun, sarean ere gorde liteke, baina horrek ez liguke aurreztuko datuak eskuz sartzeko behar dugun denbora.

Bada irtenbiderik, ordea; ItzulpenFlow aplikazioak horrelako arazoak ekidin eta askoz laguntza gehiago ematen du: https://demo.itzulpenflow.com/

ItzulpenFlow_logoa

continue reading…

Gaur Solr-i buruz arituko gara. Solr geroz eta gehiago elucene-solr-logorabiltzen den web aplikazio bat da, Lucene bilatzaile motore librearen gainean inplementatutakoa. Solr-ek Lucene indizeak erabiltzeko erraztasunak eta funtzionalitate gehigarriak eskaintzen ditu. Dokumentuak indexatu eta bilatzeko aukera ematez gain, hainbat gehigarri ditu, hala nola, highlightak, dokumentu erlazionatuak, zuzentzailea eta abar. Indexazio eta bilaketa hori url bitartez egin daiteke, edota hainbat lengoaietarako dauden liburutegiak erabiliz (java, python, ruby, php, c#/.net, c++, scala, perl, javascript /json /node.js, R …).

Elhuyarren Lucene eta Solr erabiltzen dugu hainbat aplikazioetan, adibidez webcorpusak.elhuyar.org atarian corpusak indexatzeko, edo Dokusare eta Elezkari moduko aplikazioetan dokumentu bildumak indexatu eta kontsultatzeko. Bada, gaur, horrelako aplikazioetan Solr-en segurtasuna nola ahalbidetu azalduko dugu, kudeaketarako sarbidea edozeinen esku egon ez dadin. Kudeaketarako sarbidea mugatzea garrantzitsua da, bestela edozeinek baitu aukera indizeetan aldaketak egiteko (eta indizea bera osorik ezabatzeko ere!).

continue reading…

Irailaren 3. astean (16-19) SEPLNren sepln2014 (Sociedad Española del Procesamiento del Lenguage Natural) XXX. biltzarra ospatu zen Gironan. Azken hiru urteetako zitari hutsik egin gabe Elhuyar I+G ere han izan da. Aurten arrazoi bikoitza genuen bertara hurbiltzeko. Izan ere, biltzarrarekin batera antolatu diren TASS  eta  TweetLID  lehiaketetan parte-hartze nabarmena izan dugu.

continue reading…

Koperniko zientzialariari buruzko infotaula

Irudia: Koperniko zientzialariari buruzko infotaula

Elhuyar Fundazioko Hizkuntza eta Teknologiako I+G sailean Galdetu Wikipedia izeneko webgunea kaleratu dugu (http://galdetuwikipedia.elhuyar.org/galdetu_wikipedia). Bertan euskarazko informazio egituratua kontsultatzeko galdera-erantzun sistema bat aurkezten da.

Galdera-erantzun sistema honek eskuragarri duen informazio egituratua RDF ezagutza-base bat da. Erabiltzaileek aukera dute hizkuntza naturalean idatzitako galderak burutzeko eta sistema erantzun zehatza ematen saiatzen da. Adibidez, “Non jaio zen Ruper Ordorika?” galdera egin eta sistemak “Oñati” erantzungo du.

Zehazki Wikipediako artikuluen infotauletako informaziotik erauzitako RDF sarea kontsultatzen du galdera-erantzun sistema honek. Honetarako, lehendabizi erabiltzaileek hizkuntza naturalean idatzi dituzten galderak SPARQL lengoaiara itzultzen ditu sistemak, ondoren, aipatutako RDF sarearen gainean erantzuna bilatu ahal izateko.

continue reading…

Definizioz, hizkuntza batetik bestera itzultzen duen sistema informatikoa da itzulpen automatikoa; itzulpen prozesuan zehar gizakiak parte hartu behar izanik gabe ematen du itzulpena.

komunikazioa

Askotan, itzulpen automatikoko sistemak eta hiztegiak nahasten ditugu. Bi baliabide hauen ezberdintasun nagusia honakoa da: hiztegietan bilaketak egiten ditugunean, bertako emaitzak profesionalek eskuz landuak dira. Itzulpen automatikoan aldiz, nahiz eta oinarri bezala erabiltzen diren datuak profesionalek landutakoak izan, erantzuna beti makinak berak sortzen du; automatikoki sortzen da. Hala ere, erabiltzaile arrunten ikuspuntutik desberdintasun nagusiena hauxe da: itzulpen automatikoko sistemek esaldi osoak nahiz hitzak itzul ditzakete.

Itzulpen automatikoko sistema ezagunenen artean dago Google Translator. Sistema honen bidez, 70 hizkuntzen arteko itzulpenak egin daitezke automatikoki, eta 2010a geroztik Euskara ere hizkuntza hauen artean aurki dezakegu.

Itzulpen xelebreak, zergatik gertatzen dira?

Interneten nabigatzen dugun bitartean, nahiko arrunta da bilatzen ari garen informazioa beste hizkuntza batean topatzea, eta bertan jartzen duena ulertzeko itzulpen automatikoko sistema bat erabiltzea. Horregatik, itzulpen automatikoa erabiltzearen arriskuak zein diren jakitea komeni da. Horrelako sistema batek ez du beti itzulpen zehatza emango, eta erabiltzailearen esku dago automatikoki lortutako itzulpen horrekin zer egin erabakitzea. Sarri gertatu izan da, automatikoki lortutako emaitza horiek publizitate nahiz bestelako karteletan ikustea.

continue reading…

Bere bi urteroko zitari hutsik egin gabe, aurten ere UEUk antolatu ohi duen Informatikari euskaldunen bilkura (IEB 2013) ospatu da Maiatzaren 8an Donostian. Ekitaldi honek, informatikaren munduan agertzen diren ekarpen eta fenomeno berriak komunitate euskaldunen ikuspuntutik aztertzea izan du helburu 1996. urtean lehen aldiz ospatu zenetik. Ordutik hona bi urtean behin informatikaren munduan gaurkotasun handiena izan duten gaiak landu dira bertan, beti ere euskararen presentzia azpimarratuz. Aurtengoan gai nagusitzat telefonia aukeratu da, azken aldian telefonoek Internetekin eta informatikarekin hartu duten olatua harrapatu nahian. Elhuyarreko hainbat lankide ere bertan izan ginen; alde batetik, gure ezagutzak bilkurara gerturatu zirenekin elkarbanatzeko, baina, batez ere, informatikaren alorrean puri-purian dagoen telefoniaren gaiaz gehiago jakiteko.

continue reading…

Aurten, aste santuarekin bat etorriz (Martxoak 24-30), CICLing (International Conference on Intelligent Text Processing and Computational Linguistics) kongresuaren 14. edizioa ospatu da,  Pitagoras, Aristarko edo Epikuroren jaioterri den Samos irla greziarrean. Xabier Saralegi eta Iñaki San Vicente bertan izan gara Elhuyar Fundazioko I+G unitatearen ikerketen emaitzak aurkezten. CICLing hizkuntza naturalaren prozesamenduaren alorrean kongresu garrantzitsua da, eta bertan publikatzea ez da lan erraza, eta horren erakusle da hurrengo estatistika: aurten bidalitako artikuluen %24,6 besterik ez da onartu. continue reading…

 Itzulpena oso prozesu konplexua da. Hizkuntza ez da pentsatzen dugun bezain erregularra, eta askotan testuinguruak adierazitako ñabardura txikiak baliatu behar ditugu hizkuntzaren kasu anbiguoak behar bezala interpretatzeko. Hori dela eta, oso zaila da itzulpen-prozesu hori mekanizatzea eta automatikoki burutzea. Konplexutasun hori are nabarmenagoa da domeinu batzuetan (literatura, poesia,…), non hizkuntzaren malgutasunari etekin handiena ateratzen zaion. Hortaz, itzulpen automatikoak (hemendik aurrera MT) domeinu itxietan jarri behar du arreta, epe motzean behintzat, baldin eta ingurune profesional baterako emaitza onargarriak lortu nahi baditugu. Domeinu itxietan irregulartasunak urriagoak dira, eta, beraz, automatizatze-prozesua errazagoa da. Artikulu honetan gure buruari egiten diogun galdera hauxe da: Lagungarriak dira egungo MT sistemak horrelako domeinu itxietan itzultzaile profesionalentzako?

Gizakia eta makinaren arteko elkarlana continue reading…

Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook Web-corpusen Ataria jarri dugu online. Bertan hiru baliabide jarri ditugu jendearen eskura: euskarazko corpus bat (125 milioi hitz ingurukoa) eta euskara-gaztelania corpus paralelo bat (18 milioi hitz ingurukoa), biak webetik automatikoki erauziak, eta lehenengotik automatikoki erauzitako hitz-konbinazioen kontsulta. Corpusak euskaraz dauden handienak dira bakoitza bere motakoen artean. Corpus biok eta konbinazioen-kontsultak baliabide garrantzitsua eta aurrerapauso handia dira euskararentzat, erabilgarriak baitira ez soilik hizkuntzalaritzarako, baizik eta baita hizkuntza-teknologien garapenerako ere.

Hizkuntza batentzat oso garrantzitsua da testu-corpusak (azterketa linguistikoak egiteko balio duten testu-bildumak) edukitzea. Duela denbora batetik hona, hizkuntzalaritza-lanetan ikerketak edo hizkuntza-estandarizazioan erabakiak datuetan oinarrituta egiten dira, eta datu horiek testuetako erabilerak ikusiz ateratzen dira. Beste lan-mota batzuetan ere oso baliagarriak dira, adibidez testu-sorkuntzan edo itzulpengintzan: hiztegietan agertu ez edo adibide nahikorik ez duten hitzak nola erabili edo nola itzuli izan diren argitu diezagukete.

continue reading…

Powered by WordPress Web Design by SRS Solutions © 2017 Elhuyar I+G bloga Design by SRS Solutions