Elhuyar I+G

Hizkuntza-teknologietan ikertuz

Elhuyar zientzia eta teknologiaren hiztegi entziklopedikoa kalean da. Urte luzez aritu dira lanean Euskal Herriko 200 aditu baino gehiago proiektu honetan, Antton Gurrutxagaren zuzendaritzapean. Elhuyar Fundazioak eta Euskal Herriko Unibertsitateak elkarrekin argitaratu dugu, Euskadiko Kutxaren babesari esker, eta une honetan merkatuan dagoen mota honetako hiztegi bakarra da. Bihar, osteguna,  aurkezpen-ekitaldia izango da Chillida-Leku museoan.

continue reading…

Joan den astean Poloniako Mrągowo herrian izandako CLA’09 (Computational Linguistics – Applications) nazioarteko workshop-ean AnHitz-ek, euskaraz egiten duen zientzia eta teknologiako aditu birtualak, aplikazio onenaren saria irabazi zuen.
 
 anhitz

continue reading…

Datorren astean, irailaren 7tik 10era, SEPLN erakundearen XXV. kongresua, SEPLN’09, ospatuko da Donostiako Miramar Jauregian. Kongresuaren helburu nagusia Hizkuntzaren Prozesamenduan egindako azken ikerketa eta garapenak aurkeztea da, komunitate zientifikoari zein inguruko enpresei. Topaketa honek hizkuntzen ordenagailu bidezko prozesamenduak aurreratzen jarraitzea ahalbidetuko duelakoan gaude.

SEPLN

SEPLN erakundea (Sociedad Española para el Procesamiento del Lenguaje Natural) Donostian jaio zen 1984ean, EHUko ikerlari-talde baten eskutik, eta horregatik berriro dator Donostiara XXV. urtemugan. Irailaren 8tik 10era 150 parte-hartzaileek 36 aurkezpen zientifiko, 8 proiektu eta 11 produktu-demostrazio ikusi ahal izango dituzte.

Kongresu nagusiaz gain, beste hiru workshop edo tailer ere badaude kongresuaren aurretik eta ondoren: irailaren 7an SALTMIL – Information Retrieval and Information Extraction for Less Resourced Languages (IE-IR-LRL) eta 5th International workshop on Web as Corpus (WAC5) tailerrak izango dira, eta irailaren 10ean arratsaldez Uncovering Plagiarism, Authorship, and Social Software Misuse (PAN 2009) tailerra.

Kongresuaren antolakuntza lokalaz EHUko IXA Taldea arduratu da, eta WAC5 tailerraz Elhuyar Fundazioa eta  I+G+B taldea.

WAC5 workshop-aren barruan Elhuyar I+G+B  taldeko Igor Leturiak Search engine based approaches for collecting domain-specific Basque-English comparable corpora from the Internet artikulua aurkeztuko du.

SEPLN antolakuntza

Igor Leturiak aurreko bi artikuluetan azaldu digunez (1, 2), web semantikoak, hau da, esanahizko marken bidez etiketatutako eta erlazionatutako elementuz osatutako Internet berri batek aukera berri mordoa irekiko ditu, baina hura inplementatzea neketsua eta konplikatua da, eta ez da berehalakoan iritsiko.

mikroformatuak

Bitartean, ideia horren gainean gauzak egiten joan daitezkeela sinetsita, mikroformatuak sortu dituzte, egungo HTMLn oinarritutako sarean kontzeptu jakin batzuk semantikoki etiketatzeko bidea. “Mikroformatuak, web semantikoaren aperitifa” da web semantikoaren inguruan Igor Leturiak idatzitako hirugarren artikulua Elhuyar Zientzia eta Teknologia aldizkarian.

Martxoaren 25etik 27ra ospatu zen Edinburgon TAUS “Translation Automation User Society” erakundeak  antolatutako foroa.
TAUS itzulpen-erabiltzaileak, teknologia-hornitzaileak eta itzulpengintzako enpresak  biltzen dituen elkartea da. Edinburgon antolatutako foroak kode irekiko itzukpen-plataformak aurkeztea zuen helburu eta Elekako Iñaki Irazabalbeitiak OpenTrad sistema aurkeztu zuen.  Hemen duzue ikusgari OpenTrad-en aurkezpena:

Elhuyar Zientzia eta Teknologia aldizkariko ekaineko alean Andoni Sagarnak artikulu interesgarria idatzi du hizkuntzaren teknologiak eta hizkuntzaren industriaren inguruan. Besteak beste, hizkuntzaren prozesamenduan oinarritutako aplikazioak heldutasunera eta merkatura iristen ari direla azaltzen digu, eta horiek lantzen dituzten industria batzuk indarra hartzen ari direla.

Asko idatzi du Andoni Sagarnak hizkuntzaren industriaren eta hizkuntzaren teknologien inguruan: gai hauetan sakontzeko gomendagarria da benetan Iparrorratza bloga jarraitzea eta  Euskaltzaindiko sarrera-hitzaldia irakurtzea.

Hizkuntzaren industriaren erronka berriez gehiago jakiteko.

Elhuyar Zientzia eta Teknologia aldizkariko maiatzeko artikuluan, Sir Tim Berners-Leek asmatutako World Wide Webak eta haren oinarrian dagoen HTML formatuak dituzten arazoak azaldu zituen Igor Leturiak, eta azaletik azaldu zuen zer den Berners-Leek berak proposatutako konponbidea, web semantikoa, alegia.

Artikulu honetan, web semantikoaren azpian dauden teknologiak eta adibideak azaldu  ditu, eta hura egia bihurtzeko dauden arazoak ere bai.

1990ean, Sir Tim Berners-Lee CERNeko ikertzaileak World Wide Web-a asmatu zuen, hipertestuaren kontzeptua eta Interneteko TCP/IP eta DNS protokoloak konbinatuz. Asmakizun hark gu guztion bizitza eta mundu osoa aldatu zituen. Hala ere, aldaketa hori ez da ezer izango Berners-Lee azkenaldian lantzen ari den ideia berria, web semantikoa alegia, gauzatuz gero sortuko denaren aldean.

Web semantikoaz Igor Leturiak idatzitako artikuluaren lehen zatia irakurgai duzue osorik Elhuyar Zientzia eta Teknologia aldizkari berrituan.

EHUko Udako XXVIII.  ikastaroen barnean Soziolingusitika Klusterrak “Zein hizkuntza hitz egiten du komunikazio gizarteak?” ikastaroa antolatu du. Ikastaro honetan Elhuyar Fundazioko Josu Waliñok hitzaldia eman zuen atzo “Hizkuntzen industriaren erronka berriak” izenburupean.

Hitzaldiko aurkezpena hemen duzue:

Hizkuntzalaritzan eta, bereziki, hizkuntza-teknologietan, corpus konparagarriak gero eta garrantzia handiagoa hartzen ari dira azken urteotan. Artikulu honetan corpus konparagarriak zer diren, eta hizkuntzalaritzan nahiz hizkuntza-teknologietan zertarako balio dezaketen azaltzen saiatuko gara.

Testu-corpusak idatzizko dokumentuen bildumak dira, eta oinarrizko baliabideak dira hizkuntza naturalaren zenbait ezaugarri aztertu ahal izateko edota hipotesiak kontrastatzeko. Hizkuntza naturalaren prozesamendua egiteko behar den ezagutza inferitzeko ere oso garrantzitsuak dira. Hala ere, corpus-mota asko daude, eta, zereginaren arabera, batzuk aproposagoak dira besteak baino. Corpus konparagarriak, adibidez, antzeko testuez osatutako bildumak dira. Dokumentuak “antzekoak” direla esateko irizpide ezberdinak badaude ere continue reading…

Powered by WordPress Web Design by SRS Solutions © 2018 Elhuyar I+G Design by SRS Solutions