Archive for the ‘Hizkuntza-teknologiak’ Category

Turitec 2012 biltzarraren kronika

Astelehena, azaroa 5th, 2012

Urriaren 25 eta 26an, Elhuyar I+Gko Iker Manterola Malagan izan zen, TURITEC 2012 kongresuan. Biltzar horren helburu nagusia turismoaren alorrean aplikatutako informazioaren eta komunikazioaren teknologien (IKT) ezagutza eta esperientziak elkarbanatzea da. Horretarako, aditu eta ikerlari ezberdinek turismoaren alorrean burututako ekarpen zientifiko-teknikoak aurkezten dituzte.

Aurten aurkeztutako lanetako bat gurea izan da (Manterola et al., 2012), “Extracción automática de fichas de recursos turísticos de la web” izenburupean egindako lana, hain zuzen ere. (gehiago…)

eLEZKARI, bilaketa eleaniztunak euskaratik abiatuta

Astelehena, urria 22nd, 2012

Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].

1. irudia. Webeko edukien banaketa hizkuntzen arabera

(gehiago…)

  1. http://w3techs.com/technologies/overview/content_language/all

ECIR 2012 biltzarraren kronika

Asteartea, ekaina 26th, 2012

ECIRen aurtengo edizioa apirilaren hasieran egin da Bartzelonako Pompeu Fabra Unibertsitatean. ECIR Informazioen Berreskurapenaren (IR) inguruko ikerketen emaitzak aurkezteko Europako biltzarrik garrantzitsuena da. Hortaz, urtean egindako lan esanguratsuen berri izateko foro ezin hobea dugu. Azkeneko urteetan bezala, aurten ere Elhuyar I+G taldea bertan izan da. Oraingoan ez dugu ezer aurkeztu: ideia berriak hartu eta harremanak egitea izan dugu helburu.
(gehiago…)

Pibolex: hiztegi elebidunak pibote-tekniken bitartez sortzen

Asteazkena, azaroa 2nd, 2011

XXI. mendeko gizarte eleanitz honetan, hiztegi eleanitzak baliabide garrantzitsuak dira hainbat esparrutan: irakaskuntzan, hiztegigintzan, itzulpengintzan, eta, oro har, hizkuntza-teknologiak oinarri dituzten aplikazio informatiko guztietan. Zoritxarrez, hizkuntza-bikote askotarako hiztegirik ez dago. Hizkuntza txikiek hizkuntza nagusi baterako hiztegi elebiduna besterik ez dute izaten, eta maiz ezta hori ere. Hiztegi falta hori oztopo handia da hizkuntza bateko baliabideak garatzeko. Gure proiektuaren helburua da baliabide-urritasun horri aurre egiteko aukerak ahalbidetzea, eta, horretarako, hiztegi elebidunak modu automatikoan sortzeko teknikak ikertzen dihardugu. (gehiago…)

Elhuyar I+Gko kideak EMNLP biltzarrean izan dira

Ostirala, iraila 23rd, 2011
Argazkia: Ugo Riboni cc-nc-sa

Edinburgo

Uztailaren 27tik 29ra Elhuyar I+Gko Xabier Saralegi, Iker Manterola eta Iñaki San Vicente Edinburgon izan ginen, EMNLP 2011 kongresuan. EMNLP da hizkuntzaren prozesamenduan (NLP) munduko biltzar garrantzitsu eta entzutetsuenetako bat. Horren erakusgarri datu bat: bidaltzen diren artikuluen % 24 baino gutxiago onartzen dira (aurten 628tik 149).
(gehiago…)

CorpEus-ek orain Google ere badarabil

Ostirala, otsaila 19th, 2010

2007an kaleratu genuen CorpEus, weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua. CorpEus-ek Microsoft-en Windows Live Search bilatzailea (orain Bing deitzen dena) erabili izan du beti motor gisa, Google-ren APIaren baldintzek ezinezkoa egiten baitzuten berau erabiltzea. Baina Google-k berriki baldintzak aldatu ditu, eta orain CorpEus-ek aukera ematen du kontsultak Bing nahiz Google erabiliz egiteko.


(gehiago…)

ItzulTerm, itzulpen-memoriei etekina ateratzeko doako web-zerbitzua jarri dugu sarean

Astelehena, azaroa 23rd, 2009

ItzulTerm web-zerbitzua sareratu berri dugu, itzulpen-memoria batetik euskarazko eta gaztelerazko termino baliokideen bikoteak automatikoki erauzten dituen doako zerbitzua. Itzulpen-memoriekin lan egiten duten erabiltzaileengan dago, batik bat, pentsatua: itzultzaileak, itzulpen-zerbitzuak, terminologoak, hizkuntzalariak, euskara-teknikariak…

765_medium_itzulterm-pantaila

(gehiago…)

AnHitz proiektua, Polonian saritua

Osteguna, urria 22nd, 2009
Joan den astean Poloniako Mrągowo herrian izandako CLA’09 (Computational Linguistics – Applications) nazioarteko workshop-ean AnHitz-ek, euskaraz egiten duen zientzia eta teknologiako aditu birtualak, aplikazio onenaren saria irabazi zuen.
 
 anhitz

(gehiago…)

SEPLN Kongresua, datorren astean Donostian

Ostirala, iraila 4th, 2009

Datorren astean, irailaren 7tik 10era, SEPLN erakundearen XXV. kongresua, SEPLN’09, ospatuko da Donostiako Miramar Jauregian. Kongresuaren helburu nagusia Hizkuntzaren Prozesamenduan egindako azken ikerketa eta garapenak aurkeztea da, komunitate zientifikoari zein inguruko enpresei. Topaketa honek hizkuntzen ordenagailu bidezko prozesamenduak aurreratzen jarraitzea ahalbidetuko duelakoan gaude.

SEPLN

SEPLN erakundea (Sociedad Española para el Procesamiento del Lenguaje Natural) Donostian jaio zen 1984ean, EHUko ikerlari-talde baten eskutik, eta horregatik berriro dator Donostiara XXV. urtemugan. Irailaren 8tik 10era 150 parte-hartzaileek 36 aurkezpen zientifiko, 8 proiektu eta 11 produktu-demostrazio ikusi ahal izango dituzte.

Kongresu nagusiaz gain, beste hiru workshop edo tailer ere badaude kongresuaren aurretik eta ondoren: irailaren 7an SALTMIL – Information Retrieval and Information Extraction for Less Resourced Languages (IE-IR-LRL) eta 5th International workshop on Web as Corpus (WAC5) tailerrak izango dira, eta irailaren 10ean arratsaldez Uncovering Plagiarism, Authorship, and Social Software Misuse (PAN 2009) tailerra.

Kongresuaren antolakuntza lokalaz EHUko IXA Taldea arduratu da, eta WAC5 tailerraz Elhuyar Fundazioa eta  I+G+B taldea.

WAC5 workshop-aren barruan Elhuyar I+G+B  taldeko Igor Leturiak Search engine based approaches for collecting domain-specific Basque-English comparable corpora from the Internet artikulua aurkeztuko du.

SEPLN antolakuntza

Mikroformatuak, web semantikoaren aperitifa

Asteartea, iraila 1st, 2009

Igor Leturiak aurreko bi artikuluetan azaldu digunez (1, 2), web semantikoak, hau da, esanahizko marken bidez etiketatutako eta erlazionatutako elementuz osatutako Internet berri batek aukera berri mordoa irekiko ditu, baina hura inplementatzea neketsua eta konplikatua da, eta ez da berehalakoan iritsiko.

mikroformatuak

Bitartean, ideia horren gainean gauzak egiten joan daitezkeela sinetsita, mikroformatuak sortu dituzte, egungo HTMLn oinarritutako sarean kontzeptu jakin batzuk semantikoki etiketatzeko bidea. “Mikroformatuak, web semantikoaren aperitifa” da web semantikoaren inguruan Igor Leturiak idatzitako hirugarren artikulua Elhuyar Zientzia eta Teknologia aldizkarian.