CorpEus-ek orain Google ere badarabil

2007an kaleratu genuen CorpEus, weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua. CorpEus-ek Microsoft-en Windows Live Search bilatzailea (orain Bing deitzen dena) erabili izan du beti motor gisa, Google-ren APIaren baldintzek ezinezkoa egiten baitzuten berau erabiltzea. Baina Google-k berriki baldintzak aldatu ditu, eta orain CorpEus-ek aukera ematen du kontsultak Bing nahiz Google erabiliz egiteko.


Internet euskarazko corpus erraldoi bat balitz bezala kontsultatzeko aukera ematen du CorpEus-ek. Sartutako hitzaren (edo hitzen) lema bidezko bilaketa egiten du Interneteko euskarazko orrien artean, eta orri horietan dauden hitzaren agerpen guztiak erakusten ditu bere testuinguruan, hainbat daturen araberako grafikoekin batera.

Horrez gain, eskatutako hitzak aldaerak dituela detektatzen bada, bilaketa egiteaz gain, aldaerak proposatzen zaizkio erabiltzaileari, edo, eskatutakoa aldaera bada, forma estandarra. Eta erabiltzaileak hitz anbiguo edo ezezagun bat sartzen duenean, itzulitako analisien artean aukeratu dezake. Termino edo izen-sintagma osoen bilaketa lematizatua ere egin dezake, hitzak komatxo bikoitzen artean sartuz.

APIak integratzen

Hori guztia egiteko, Interneteko bilatzaileak erabili behar ditu CorpEus-ek ezinbestean, zehazki euren gainean hirugarrenek zerbitzuak eraikitzeko eskaintzen dituzten API edo funtzio-sortak. 2007an CorpEus kaleratu zenean, Microsoft-en Windows Live Search-en (gaur egun Bing gisa berbataiatutakoa) APIa erabiltzea erabaki zen, nahiz eta jakin jende gehienarentzat gustukoagoa eta hobea dela Google, bera zelako baldintza egokienak eskaintzen zituena: egunean 25.000 dei onartzen zituen eta deiko 50na emaitza itzuliz, 250. emaitzara arte kontsulta zitekeen. Google-k aldiz, bi API zituen: batak egunean 1.000 dei soilik onartzen zituen, deiko 10na emaitza itzultzen zituen soilik eta bertan behera uztekotan zen, eta besteak, nahiz eta dei mugarik ez izan, 8 emaitza besterik ez zituen itzultzen.

Berriki Google-n bigarren API horrek baldintzak aldatu ditu eta 64. emaitzara arte kontsultatu daiteke. Horregatik, CorpEus-en Google-ren APIa ere inplementatu dugu eta orain Bing edo Google erabiltzeko aukera dago. Zeren arabera erabaki zein erabili? Orokorrean, Google-k estaldura hobeagoa du eta orri gehiago ditu bere indizean, beraz egokiagoa da webean agerpen gutxi dituzten hitzak bilatzeko. Gerta daiteke zenbait hitzek Bing-en emaitzarik ez itzultzea edo emaitza oso gutxi itzultzea, eta posible da Google-k kasu horietan emaitza gehiago ematea. Aldiz, webean presentzia handia duten hitzen ahalik eta agerpen eta testuinguru gehien ikustea interesatzen bazaigu, Bing egokiagoa izan daiteke. Google erabilita lehenengo 64 emaitzetako agerpenak soilik erakuts daitezke eta Bing erabilita, aldiz, lehenengo 250 emaitzetakoak.

Erabilpen adibideak

CorpEusen erabilpen posible baten adibidea hor goiko lehen irudian dugu (egin klik han edo irudi handian, osorik ikusteko): energia lema bilatzeko eskatu diogu, Bing erabilita eta 250 orritako agerpenak bistaratzeko esanda (hitz arrunta eta webean presentzia handikoa denez, emaitza gehiago izango ditugu Bing erabilita, Google-k 64 orri itzultzen baititu gehienez). Ondoko hitzaren lemaren araberako grafikoa erakusteko eskatu diogunez, energia hitzarekin erabiltzen diren adjektibo, aditz eta izen ohikoenak agertuko zaizkigu grafikoan. Jarraian erakusten den irudian ikus daiteke nola kontsulta bera egiten badugu Google erabilita, askoz emaitza gutxiago ateratzen diren.

Gauza bera gertatzen da RSS bilatuta. Interneten presentzia handiko hitza denez, emaitza gehiago lortzen dira Bing erabilita Google erabilita baino. Irudietan, bilagaiaren ondoko hitzaren lemaren araberako grafikoak erakusten dira, RSS zein beste hitzekin konbinatzen den ikusteko.

Hurrengo bi irudiek, aldiz, kontrako kasua ilustratzeko balio dute, hitz batek webean presentzia txikia duenekoa alegia. lagingailu lema Bing erabiliz bilatzeko eskatuta, bost emaitza besterik ez ditu itzultzen; Google-k, aldiz, dezente gehiago, indizea handiagoa baitu.

Edo konparatu ditzakegu lagingailu hitzaren emaitzak sampler hitzarenekin. Bing nahiz Google erabilita, ikusten da emaitza gehiago dituela sampler hitzak, betiere Google-k dituelarik emaitza gehiago.

(Igor Leturia, Elhuyar I+G+B); Sustatu.com (2010-02-19)

Tags: ,

Comments are closed.