Elhuyar I+G

Hizkuntza-teknologietan ikertuz

Browsing Posts in Hizkuntza-teknologiak

Irailaren 3. astean (16-19) SEPLNren sepln2014 (Sociedad Española del Procesamiento del Lenguage Natural) XXX. biltzarra ospatu zen Gironan. Azken hiru urteetako zitari hutsik egin gabe Elhuyar I+G ere han izan da. Aurten arrazoi bikoitza genuen bertara hurbiltzeko. Izan ere, biltzarrarekin batera antolatu diren TASS  eta  TweetLID  lehiaketetan parte-hartze nabarmena izan dugu.

continue reading…

Koperniko zientzialariari buruzko infotaula

Irudia: Koperniko zientzialariari buruzko infotaula

Elhuyar Fundazioko Hizkuntza eta Teknologiako I+G sailean Galdetu Wikipedia izeneko webgunea kaleratu dugu (http://galdetuwikipedia.elhuyar.org/galdetu_wikipedia). Bertan euskarazko informazio egituratua kontsultatzeko galdera-erantzun sistema bat aurkezten da.

Galdera-erantzun sistema honek eskuragarri duen informazio egituratua RDF ezagutza-base bat da. Erabiltzaileek aukera dute hizkuntza naturalean idatzitako galderak burutzeko eta sistema erantzun zehatza ematen saiatzen da. Adibidez, “Non jaio zen Ruper Ordorika?” galdera egin eta sistemak “Oñati” erantzungo du.

Zehazki Wikipediako artikuluen infotauletako informaziotik erauzitako RDF sarea kontsultatzen du galdera-erantzun sistema honek. Honetarako, lehendabizi erabiltzaileek hizkuntza naturalean idatzi dituzten galderak SPARQL lengoaiara itzultzen ditu sistemak, ondoren, aipatutako RDF sarearen gainean erantzuna bilatu ahal izateko.

continue reading…

Bere bi urteroko zitari hutsik egin gabe, aurten ere UEUk antolatu ohi duen Informatikari euskaldunen bilkura (IEB 2013) ospatu da Maiatzaren 8an Donostian. Ekitaldi honek, informatikaren munduan agertzen diren ekarpen eta fenomeno berriak komunitate euskaldunen ikuspuntutik aztertzea izan du helburu 1996. urtean lehen aldiz ospatu zenetik. Ordutik hona bi urtean behin informatikaren munduan gaurkotasun handiena izan duten gaiak landu dira bertan, beti ere euskararen presentzia azpimarratuz. Aurtengoan gai nagusitzat telefonia aukeratu da, azken aldian telefonoek Internetekin eta informatikarekin hartu duten olatua harrapatu nahian. Elhuyarreko hainbat lankide ere bertan izan ginen; alde batetik, gure ezagutzak bilkurara gerturatu zirenekin elkarbanatzeko, baina, batez ere, informatikaren alorrean puri-purian dagoen telefoniaren gaiaz gehiago jakiteko.

continue reading…

Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].

1. irudia. Webeko edukien banaketa hizkuntzen arabera

continue reading…

  1. http://w3techs.com/technologies/overview/content_language/all

XXI. mendeko gizarte eleanitz honetan, hiztegi eleanitzak baliabide garrantzitsuak dira hainbat esparrutan: irakaskuntzan, hiztegigintzan, itzulpengintzan, eta, oro har, hizkuntza-teknologiak oinarri dituzten aplikazio informatiko guztietan. Zoritxarrez, hizkuntza-bikote askotarako hiztegirik ez dago. Hizkuntza txikiek hizkuntza nagusi baterako hiztegi elebiduna besterik ez dute izaten, eta maiz ezta hori ere. Hiztegi falta hori oztopo handia da hizkuntza bateko baliabideak garatzeko. Gure proiektuaren helburua da baliabide-urritasun horri aurre egiteko aukerak ahalbidetzea, eta, horretarako, hiztegi elebidunak modu automatikoan sortzeko teknikak ikertzen dihardugu. continue reading…

Argazkia: Ugo Riboni cc-nc-sa

Edinburgo

Uztailaren 27tik 29ra Elhuyar I+Gko Xabier Saralegi, Iker Manterola eta Iñaki San Vicente Edinburgon izan ginen, EMNLP 2011 kongresuan. EMNLP da hizkuntzaren prozesamenduan (NLP) munduko biltzar garrantzitsu eta entzutetsuenetako bat. Horren erakusgarri datu bat: bidaltzen diren artikuluen % 24 baino gutxiago onartzen dira (aurten 628tik 149).
continue reading…

2007an kaleratu genuen CorpEus, weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua. CorpEus-ek Microsoft-en Windows Live Search bilatzailea (orain Bing deitzen dena) erabili izan du beti motor gisa, Google-ren APIaren baldintzek ezinezkoa egiten baitzuten berau erabiltzea. Baina Google-k berriki baldintzak aldatu ditu, eta orain CorpEus-ek aukera ematen du kontsultak Bing nahiz Google erabiliz egiteko.


continue reading…

ItzulTerm web-zerbitzua sareratu berri dugu, itzulpen-memoria batetik euskarazko eta gaztelerazko termino baliokideen bikoteak automatikoki erauzten dituen doako zerbitzua. Itzulpen-memoriekin lan egiten duten erabiltzaileengan dago, batik bat, pentsatua: itzultzaileak, itzulpen-zerbitzuak, terminologoak, hizkuntzalariak, euskara-teknikariak…

765_medium_itzulterm-pantaila

continue reading…

Joan den astean Poloniako Mrągowo herrian izandako CLA’09 (Computational Linguistics – Applications) nazioarteko workshop-ean AnHitz-ek, euskaraz egiten duen zientzia eta teknologiako aditu birtualak, aplikazio onenaren saria irabazi zuen.
 
 anhitz

continue reading…

Igor Leturiak aurreko bi artikuluetan azaldu digunez (1, 2), web semantikoak, hau da, esanahizko marken bidez etiketatutako eta erlazionatutako elementuz osatutako Internet berri batek aukera berri mordoa irekiko ditu, baina hura inplementatzea neketsua eta konplikatua da, eta ez da berehalakoan iritsiko.

mikroformatuak

Bitartean, ideia horren gainean gauzak egiten joan daitezkeela sinetsita, mikroformatuak sortu dituzte, egungo HTMLn oinarritutako sarean kontzeptu jakin batzuk semantikoki etiketatzeko bidea. “Mikroformatuak, web semantikoaren aperitifa” da web semantikoaren inguruan Igor Leturiak idatzitako hirugarren artikulua Elhuyar Zientzia eta Teknologia aldizkarian.

Powered by WordPress Web Design by SRS Solutions © 2018 Elhuyar I+G Design by SRS Solutions