Informazioaren Berreskurapena (IR) - Elhuyar I+G

Elhuyar I+G

Hizkuntza-teknologietan ikertuz

Browsing Posts in Informazioaren Berreskurapena (IR)

Gaur Solr-i buruz arituko gara. Solr geroz eta gehiago elucene-solr-logorabiltzen den web aplikazio bat da, Lucene bilatzaile motore librearen gainean inplementatutakoa. Solr-ek Lucene indizeak erabiltzeko erraztasunak eta funtzionalitate gehigarriak eskaintzen ditu. Dokumentuak indexatu eta bilatzeko aukera ematez gain, hainbat gehigarri ditu, hala nola, highlightak, dokumentu erlazionatuak, zuzentzailea eta abar. Indexazio eta bilaketa hori url bitartez egin daiteke, edota hainbat lengoaietarako dauden liburutegiak erabiliz (java, python, ruby, php, c#/.net, c++, scala, perl, javascript /json /node.js, R …).

Elhuyarren Lucene eta Solr erabiltzen dugu hainbat aplikazioetan, adibidez webcorpusak.elhuyar.org atarian corpusak indexatzeko, edo Dokusare eta Elezkari moduko aplikazioetan dokumentu bildumak indexatu eta kontsultatzeko. Bada, gaur, horrelako aplikazioetan Solr-en segurtasuna nola ahalbidetu azalduko dugu, kudeaketarako sarbidea edozeinen esku egon ez dadin. Kudeaketarako sarbidea mugatzea garrantzitsua da, bestela edozeinek baitu aukera indizeetan aldaketak egiteko (eta indizea bera osorik ezabatzeko ere!).

continue reading…

Koperniko zientzialariari buruzko infotaula

Irudia: Koperniko zientzialariari buruzko infotaula

Elhuyar Fundazioko Hizkuntza eta Teknologiako I+G sailean Galdetu Wikipedia izeneko webgunea kaleratu dugu (http://galdetuwikipedia.elhuyar.org/galdetu_wikipedia). Bertan euskarazko informazio egituratua kontsultatzeko galdera-erantzun sistema bat aurkezten da.

Galdera-erantzun sistema honek eskuragarri duen informazio egituratua RDF ezagutza-base bat da. Erabiltzaileek aukera dute hizkuntza naturalean idatzitako galderak burutzeko eta sistema erantzun zehatza ematen saiatzen da. Adibidez, “Non jaio zen Ruper Ordorika?” galdera egin eta sistemak “Oñati” erantzungo du.

Zehazki Wikipediako artikuluen infotauletako informaziotik erauzitako RDF sarea kontsultatzen du galdera-erantzun sistema honek. Honetarako, lehendabizi erabiltzaileek hizkuntza naturalean idatzi dituzten galderak SPARQL lengoaiara itzultzen ditu sistemak, ondoren, aipatutako RDF sarearen gainean erantzuna bilatu ahal izateko.

continue reading…

Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].

1. irudia. Webeko edukien banaketa hizkuntzen arabera

continue reading…

  1. http://w3techs.com/technologies/overview/content_language/all
Powered by WordPress Web Design by SRS Solutions © 2018 Elhuyar I+G Design by SRS Solutions