bilatzaileak - Elhuyar I+G

Elhuyar I+G

Hizkuntza-teknologietan ikertuz

Browsing Posts tagged bilatzaileak

Gaur Solr-i buruz arituko gara. Solr geroz eta gehiago elucene-solr-logorabiltzen den web aplikazio bat da, Lucene bilatzaile motore librearen gainean inplementatutakoa. Solr-ek Lucene indizeak erabiltzeko erraztasunak eta funtzionalitate gehigarriak eskaintzen ditu. Dokumentuak indexatu eta bilatzeko aukera ematez gain, hainbat gehigarri ditu, hala nola, highlightak, dokumentu erlazionatuak, zuzentzailea eta abar. Indexazio eta bilaketa hori url bitartez egin daiteke, edota hainbat lengoaietarako dauden liburutegiak erabiliz (java, python, ruby, php, c#/.net, c++, scala, perl, javascript /json /node.js, R …).

Elhuyarren Lucene eta Solr erabiltzen dugu hainbat aplikazioetan, adibidez webcorpusak.elhuyar.org atarian corpusak indexatzeko, edo Dokusare eta Elezkari moduko aplikazioetan dokumentu bildumak indexatu eta kontsultatzeko. Bada, gaur, horrelako aplikazioetan Solr-en segurtasuna nola ahalbidetu azalduko dugu, kudeaketarako sarbidea edozeinen esku egon ez dadin. Kudeaketarako sarbidea mugatzea garrantzitsua da, bestela edozeinek baitu aukera indizeetan aldaketak egiteko (eta indizea bera osorik ezabatzeko ere!).

continue reading…

Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].

1. irudia. Webeko edukien banaketa hizkuntzen arabera

continue reading…

  1. http://w3techs.com/technologies/overview/content_language/all
Powered by WordPress Web Design by SRS Solutions © 2018 Elhuyar I+G Design by SRS Solutions