Elhuyar I+G bloga

Hizkuntza-teknologietan ikertuz

Urriaren 25 eta 26an, Elhuyar I+Gko Iker Manterola Malagan izan zen, TURITEC 2012 kongresuan. Biltzar horren helburu nagusia turismoaren alorrean aplikatutako informazioaren eta komunikazioaren teknologien (IKT) ezagutza eta esperientziak elkarbanatzea da. Horretarako, aditu eta ikerlari ezberdinek turismoaren alorrean burututako ekarpen zientifiko-teknikoak aurkezten dituzte.

Aurten aurkeztutako lanetako bat gurea izan da (Manterola et al., 2012), “Extracción automática de fichas de recursos turísticos de la web” izenburupean egindako lana, hain zuzen ere. continue reading…

Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].

1. irudia. Webeko edukien banaketa hizkuntzen arabera

continue reading…

  1. http://w3techs.com/technologies/overview/content_language/all

Irailaren lehen astean (5-7) SEPLNren (Sociedad Española del Procesamiento del Lenguage Natural) urteroko biltzarra ospatu zen Castelló de la Planan. Azken bi urtetan bertaratzerik izan ez badugu ere, aurten arrazoi polita genuen SEPLNren biltzarrera hurbiltzeko. Izan ere, biltzarrarekin batera antolatu den TASS txapelketako sistema irabazlea gurea izan da. Txapelketan proposatutako erronka ez zen makala: gaztelaniazko tuiten polaritatea sailkatzea (positibotasuna, negatibotasuna edo neutraltasuna).

continue reading…

Maiatzaren 21etik 27ra, LREC 2012 biltzarraren 8. edizioa izan zen Istanbulen. Biltzar hori bi urtez behin egiten da, eta azken aldian garatutako tresna eta baliabideak ezagutzeko aukera ematen du. Gainera, hizkuntza-teknologien inguruan dauden Europako proiektuen berri izateko bilkura ezin hobea da.

Mezkita urdina, Istanbul.

Mezkita urdina

continue reading…

ECIRen aurtengo edizioa apirilaren hasieran egin da Bartzelonako Pompeu Fabra Unibertsitatean. ECIR Informazioen Berreskurapenaren (IR) inguruko ikerketen emaitzak aurkezteko Europako biltzarrik garrantzitsuena da. Hortaz, urtean egindako lan esanguratsuen berri izateko foro ezin hobea dugu. Azkeneko urteetan bezala, aurten ere Elhuyar I+G taldea bertan izan da. Oraingoan ez dugu ezer aurkeztu: ideia berriak hartu eta harremanak egitea izan dugu helburu.
continue reading…

XXI. mendeko gizarte eleanitz honetan, hiztegi eleanitzak baliabide garrantzitsuak dira hainbat esparrutan: irakaskuntzan, hiztegigintzan, itzulpengintzan, eta, oro har, hizkuntza-teknologiak oinarri dituzten aplikazio informatiko guztietan. Zoritxarrez, hizkuntza-bikote askotarako hiztegirik ez dago. Hizkuntza txikiek hizkuntza nagusi baterako hiztegi elebiduna besterik ez dute izaten, eta maiz ezta hori ere. Hiztegi falta hori oztopo handia da hizkuntza bateko baliabideak garatzeko. Gure proiektuaren helburua da baliabide-urritasun horri aurre egiteko aukerak ahalbidetzea, eta, horretarako, hiztegi elebidunak modu automatikoan sortzeko teknikak ikertzen dihardugu. continue reading…

Argazkia: Ugo Riboni cc-nc-sa

Edinburgo

Uztailaren 27tik 29ra Elhuyar I+Gko Xabier Saralegi, Iker Manterola eta Iñaki San Vicente Edinburgon izan ginen, EMNLP 2011 kongresuan. EMNLP da hizkuntzaren prozesamenduan (NLP) munduko biltzar garrantzitsu eta entzutetsuenetako bat. Horren erakusgarri datu bat: bidaltzen diren artikuluen % 24 baino gutxiago onartzen dira (aurten 628tik 149).
continue reading…

2007an kaleratu genuen CorpEus, weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua. CorpEus-ek Microsoft-en Windows Live Search bilatzailea (orain Bing deitzen dena) erabili izan du beti motor gisa, Google-ren APIaren baldintzek ezinezkoa egiten baitzuten berau erabiltzea. Baina Google-k berriki baldintzak aldatu ditu, eta orain CorpEus-ek aukera ematen du kontsultak Bing nahiz Google erabiliz egiteko.


continue reading…

ItzulTerm web-zerbitzua sareratu berri dugu, itzulpen-memoria batetik euskarazko eta gaztelerazko termino baliokideen bikoteak automatikoki erauzten dituen doako zerbitzua. Itzulpen-memoriekin lan egiten duten erabiltzaileengan dago, batik bat, pentsatua: itzultzaileak, itzulpen-zerbitzuak, terminologoak, hizkuntzalariak, euskara-teknikariak…

765_medium_itzulterm-pantaila

continue reading…

Urriaren 17tik 18ra bitartean, itzulpen automatikoari buruzko jardunaldiak egin ziren Bartzelonan, Traducción automática: pasado, presente y futuro izenburupean. Jardunaldiak Proz.com itzulpen-webguneak antolatu zituen itzultzaileei begira —itzultzaile autonomoei begira, batik bat—, eta hizlari batzuek informazio teknikoa ere eman zuten arren, jardunaldiak ez zeuden teknikarientzat eta informatikarientzat pentsatuta.

continue reading…

Powered by WordPress Web Design by SRS Solutions © 2018 Elhuyar I+G bloga Design by SRS Solutions