Sailkatugabeak - Elhuyar I+G

Elhuyar I+G

Hizkuntza-teknologietan ikertuz

Browsing Posts in Sailkatugabeak

Aste honetan Portorožen (Slovenian) ospatuko den LREC 2016 Biltzarrean (http://lrec2016.lrec-conf.org/en/) lau lan aurkeztu behar ditu Elhuyar I+G taldeak. Honakoak dira aurkeztuko ditugun lanak:

[1] I. San Vicente, X. Saralegi. Polarity lexicon building: to what extent is the manual effort worth?. In Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

Testuetan adierazten diren sentimendu eta iritziak automatikoki aztertzeko oinarrizko baliabideak dira polaritate-lexikoak. Artikulu honetan lexiko horiek modu automatikoan sortzeko hiru bide aztertu dira, lexiko eraginkorrak hutsetik modu azkar batean eta adituen ahalegin handirik gabe sor daitezkeela erakutsiz.

[2] Iñaki San Vicente, Iñaki Alegria, Nora Aranberri, Cristina España-Bonet, Pablo Gamallo, Hugo Gonçalo Oliveira, Eva Martínez Garcia, Antonio Toral, Arkaitz Zubiaga. TweetMT: A parallel microblog corpus. In Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

TweetMT hainbat erakundek elkarlanean sortutako baliabidea da, iberiar penintsulako hizkuntzak barne hartzen dituen txioen corpusa, euskara, galiziera, katalana, eta portuguesa espainierarekin lotzen dituzten datu multzoak eskaintzen ditu, (eu-es,ga-es,ca-es,pt-es). Corpusa publikoki eskuragarri dago.

[3] X. Saralegi, E. Agirre, I. Alegria. Evaluating translation quality and CLIR performance of Query Sessions. In Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

Bilaketa eleaniztuna hobetzeko teknika berri bat aztertu da artikulu honetan. Bilaketaren itzulpena urrats kritikoa da bilaketa eleaniztunaren prozesuan. Urrats horretan ebatzi beharreko problema nagusia itzulpen anbiguotasuna da. Itzulpen anbiguoa tratatzeko teknika estatistiko berri bat proposatzen da artikuluan, saio bereko kontsulta guztiak testuinguru bezala erabiltzen dituena.

[4] López de Lacalle M., Laparra E., Aldabe I., Rigau G. 2016 A Multilingual Predicate Matrix. In Proceedings of the Proceedings of the 10th Language Resources and Evaluation Conference (LREC’16). 2016.

VerbNet, FramenNet, PropBank eta WordNet bezalako baliabideek predikatu mailako informazio interesgarria eskaintzen dituzte bakoitzak bere aldetik. Lan honetan baliabide hauek guztiak ingurune berdinean bateratu ditugu eta gainera, ingelesezko predikatu nominalak jasotzeko NomBank baliabidearekin elkartu dugu. Honez gain, Gaztelania, Katalana eta Euskerara ere hedatu dugu. Predicate Matrix 1.3 da lan honen emaitza, analisi semantiko interoperablea hizkuntza desberdinetan egiteko aukera ematen duen lexikoi eleaniztuna.

(Artikulu hau “Eraldaketa Elhuyar da” blogean argitaratu da aurretik)

Krisi-garaian, zerbitzuak merkatzeko ahalegina egin beharrean aurkitzen gara. Gainera, globalizazioaren eraginez munduko beste puntan dauden enpresak ere gure zerbitzuak eskaintzen hasi badira, are gehiago.

Egoera hau oso nabarmena da itzulpengintzaren alorrean. Azken urteetan, itzulpenen prezioak nabarmen jaitsi dira, eta direnak eta ez direnak egiten ari dira itzulpen-enpresak gastuak murrizteko. Kudeaketan pasatzen den denbora murriztea da hori lortzeko modu bat. Efizienteagoak bagara kudeaketan, denbora gehiago izango dugu produkziorako; alegia, itzulpenak egiteko.

Orain arte, itzulpen-enpresa askok antolatu du bere kudeaketa-lana kalkulu-orri batekin eta posta elektronikoarekin. Horrek, ordea, baditu desabantailak. Batetik, posta-helbide bat sortu ohi da mezuak pertsona batek baino gehiagok jaso ahal izateko. Baina konplikatua izaten da mezu bakoitza zeinek ikusi edota erantzun duen jakitea, lana egiten norbait hasi den jakitea, eta abar.

Bestetik, kalkulu-orri batean idazten dira egiten ari garen lanen xehetasunak. Datuak eskuz kalkulatzen dira, eta norbaitek apuntatu behar ditu kalkulu-orrian. Baina non gordetzen da kalkulu-orria? Norbaiten ordenagailuan? Pertsona bakar baten esku? Gaur egun, sarean ere gorde liteke, baina horrek ez liguke aurreztuko datuak eskuz sartzeko behar dugun denbora.

Bada irtenbiderik, ordea; ItzulpenFlow aplikazioak horrelako arazoak ekidin eta askoz laguntza gehiago ematen du: https://demo.itzulpenflow.com/

ItzulpenFlow_logoa

continue reading…

Gaur Solr-i buruz arituko gara. Solr geroz eta gehiago elucene-solr-logorabiltzen den web aplikazio bat da, Lucene bilatzaile motore librearen gainean inplementatutakoa. Solr-ek Lucene indizeak erabiltzeko erraztasunak eta funtzionalitate gehigarriak eskaintzen ditu. Dokumentuak indexatu eta bilatzeko aukera ematez gain, hainbat gehigarri ditu, hala nola, highlightak, dokumentu erlazionatuak, zuzentzailea eta abar. Indexazio eta bilaketa hori url bitartez egin daiteke, edota hainbat lengoaietarako dauden liburutegiak erabiliz (java, python, ruby, php, c#/.net, c++, scala, perl, javascript /json /node.js, R …).

Elhuyarren Lucene eta Solr erabiltzen dugu hainbat aplikazioetan, adibidez webcorpusak.elhuyar.org atarian corpusak indexatzeko, edo Dokusare eta Elezkari moduko aplikazioetan dokumentu bildumak indexatu eta kontsultatzeko. Bada, gaur, horrelako aplikazioetan Solr-en segurtasuna nola ahalbidetu azalduko dugu, kudeaketarako sarbidea edozeinen esku egon ez dadin. Kudeaketarako sarbidea mugatzea garrantzitsua da, bestela edozeinek baitu aukera indizeetan aldaketak egiteko (eta indizea bera osorik ezabatzeko ere!).

continue reading…

Definizioz, hizkuntza batetik bestera itzultzen duen sistema informatikoa da itzulpen automatikoa; itzulpen prozesuan zehar gizakiak parte hartu behar izanik gabe ematen du itzulpena.

komunikazioa

Askotan, itzulpen automatikoko sistemak eta hiztegiak nahasten ditugu. Bi baliabide hauen ezberdintasun nagusia honakoa da: hiztegietan bilaketak egiten ditugunean, bertako emaitzak profesionalek eskuz landuak dira. Itzulpen automatikoan aldiz, nahiz eta oinarri bezala erabiltzen diren datuak profesionalek landutakoak izan, erantzuna beti makinak berak sortzen du; automatikoki sortzen da. Hala ere, erabiltzaile arrunten ikuspuntutik desberdintasun nagusiena hauxe da: itzulpen automatikoko sistemek esaldi osoak nahiz hitzak itzul ditzakete.

Itzulpen automatikoko sistema ezagunenen artean dago Google Translator. Sistema honen bidez, 70 hizkuntzen arteko itzulpenak egin daitezke automatikoki, eta 2010a geroztik Euskara ere hizkuntza hauen artean aurki dezakegu.

Itzulpen xelebreak, zergatik gertatzen dira?

Interneten nabigatzen dugun bitartean, nahiko arrunta da bilatzen ari garen informazioa beste hizkuntza batean topatzea, eta bertan jartzen duena ulertzeko itzulpen automatikoko sistema bat erabiltzea. Horregatik, itzulpen automatikoa erabiltzearen arriskuak zein diren jakitea komeni da. Horrelako sistema batek ez du beti itzulpen zehatza emango, eta erabiltzailearen esku dago automatikoki lortutako itzulpen horrekin zer egin erabakitzea. Sarri gertatu izan da, automatikoki lortutako emaitza horiek publizitate nahiz bestelako karteletan ikustea.

continue reading…

Powered by WordPress Web Design by SRS Solutions © 2018 Elhuyar I+G Design by SRS Solutions