Gorila vrea sa caute in timp real
Scris de Andrei | Sun, Jun 7, 2009
In 1997 Reuters a realizat un studiu despre dependenta de informatii la care au participat 1000 de manageri din Marea Britanie, SUA, Germania, Singapore, Hong Kong si Irlanda. Studiul a aratat ca mai mult de jumatate din cei chestionati manifestau dependenta de informatii, iar 54% au precizat ca gasirea informatiei dorite le provoaca o senzatie de exaltare asemenea unui drog. Trei sferturi din cei intervievati au dat vina pe Internet pentru supraincarcarea informationala pe care o simteau.
Tot in 1997 Web-ul avea doar cativa ani, dar incepuse sa prinda avant. Motorul de cautare BackRub se redenumea in Google, iar termenul “weblog” abia se nastea. De atunci Web-ul a crescut si odata cu el si dependenta de informatie.
Una din modalitatile prin care Google si-a castigat multi adepti a fost viteza de actualizare a index-ului. De la update-uri lunare in 2000, Google a ajuns la update-uri ale index-ului in cateva minute, pe masura ce asteptarile utilizatorilor au crescut. Aparitia lui Twitter a readus in atentie cautarea in timp real. Febra cautarii in timp real a aparut acum cativa ani, odata cu motoarele de cautare pe bloguri care promiteau un acces mai rapid decat Google la informatia produsa de bloggeri.
Inevitabil au aparut in ultima vreme mai multe motoare de cautare in timp real, majoritatea concentrate pe indexarea reactiilor din Twitter: OneRiot, Tweetmeme, Scoopler, Topsy. Se pare ca planurile de afaceri care folosesc sintagma “real-time” au sanse mari de finantare in aceasta perioada.
Bineinteles ca online-ul romanesc nu putea pierde “valul real-time”. Curajul romanilor de a dezvolta motoare de cautare mioritice (okidoki.ro, jobjob.ro, balaur.ro etc.) a dus la aparitia lui Gorila.ro. Proiectul este dezvoltat de Sety, sloganul fiind “cautare in timp real pe .ro”. Numele neobisnuit m-a dus cu gandul la balaur.ro si nu m-as mira ca urmatorul proiect online de care aud sa aiba tot un nume de creatura fioroasa. Gorila nu e deloc fioroasa, are un design simplu, minimalist, eficient – cautarea si rezultatele sunt afisate in aceeasi pagina.
Nu am inteles ce inseamna “.ro” in viziunea Gorilei. Nu m-am lamurit daca indexeaza toate site-urile .ro sau blog-urile romanesti (indiferent ca sunt pe .ro sau .com) sau ce tehnica foloseste pentru a distinge Web-ul romanesc de restul. In testele efectuate, am obtinut si rezultate de pe domenii .com care nu aveau nicio legatura cu Web-ul romanesc.
In urma testelor am obtinut rezultate de pe bloguri romanesti, bloguri de pe Blogspot.com si Wordpress.com, site-uri romanesti de stiri, reactii de pe Twitter si de pe mai multe site-uri din afara (ex: brandrepublic.com, newscientist.com, ap.org, thekitchn.com etc.). Ar fi foarte utila o pagina care sa descrie sursele indexate de Gorila si modul in care se ia decizia de a indexa o anumita pagina.
Rezultatele sunt prezentate sub forma de flux si sunt organizate descrescator dupa un singur criteriu: momentul in care au fost in care au fost indexate. Desi sub deviza “Ce se intampla acum pe .ro?”, am fost surprins sa obtin ca rezultate articole vechi de cateva luni sau chiar de anul trecut. Tinand cont de scopul proiectului, ma asteptam sa obtin ca rezultate articole aparute in ultimele zile sau cel mult in ultimele saptamani. Gorila ar trebui sa tina cont de momentul in care articolele au aparut pe Web, nu de momentul in care au fost indexate.
Nu am gasit nicio modalitate de a filtra rezultatele, iar folosirea operatorilor cu care eram obisnuit de Google (ex: ghilimele pentru fraze) nu a avut niciun efect. Lipsa oricaror modalitati de filtrare face greoaie parcurgerea rezultatelor deoarece sunt afisate “la gramada” reactii de pe Twitter, stiri, comentarii si articole de pe blog-uri.
La capitolul relevanta rezultatele au dezamagit asteptarile, in unele cautari obtinand rezultate care nu contineau nici macar unul din termenii cautati. Relevanta cautarilor m-a facut curios in legatura cu motorul de indexare folosit de Gorila. De asemenea, problema relevantei a facut imposibila evaluarea proiectului din punct de vedere al scopului propus: cautarea in timp real.
In momentul de fata cautarea in timp real reprezinta o propunere atractiva pentru dependentii de informatie: cel mai scurt timp intre momentul producerii informatiei si momentul in care ea ajunge la cei interesati. Initiativa Gorila.ro de a fi prezent in aceasta zona (de mare actualitate peste ocean) este de apreciat, dar problemele actuale il fac inutilizabil. Sunt totusi constient ca proiectul e la inceput si ii urez Gorilei mult succes in rezolvarea problemelor si satisfacerea dependentilor de informatie!
Pe aceeasi tema:
Tag-uri: cautare in timp real, Gorila, Gorila.ro, motor de cautare, Sety, twitter, Viorel Spinu



June 8th, 2009 at 12:48 pm
Salut
Multumesc pentru timpul acordat site-ului gorila.ro.
O sa incerc mai jos sa iti raspund la observatiile facute:
1. Scopul site-ul este sa indexeze toate siteurile romanesti indiferent de domeniul pe care sunt hostate (com, org, etc) . Multe bloguri romanesti sunt hostate pe wordpress.com sau blogspot.com si din acesta cauza suntem nevoiti sa indexam si pagingi din afara domeniului .ro. Intradevar cateodata ne mai scapa si cateva pagini in limba engleza . Incercam pe viitor sa imbuntatim algoritmul de detectie al limbii romane . Si o sa schimbam textul din prima pagina sa eliminam confuzia.
2. In legatura cu lipsa operatorilor ai dreptate . O sa introducem in viitor modalitati de filtrare a site-urilor ( ziare, bloguri, Twitter etc)
3. In legatura cu relevanta anumitor cautari poti sa imi dai anumite example care nu au afisat rezultatele relevante?
4. Ai vazut in lista de rezultate si articole mai vechi de cateva luni ori pentru ca nu erau articole indexate mai noi pe aceeasi tema ori pentru ca nu am putut identifica data articolului si atunci am folosit data de indexare . Problema asta apare datorita faptului ca indexare merge de foarte putin timp si va dispare in viitor.
Multumesc
Andrei Dore
gorila.ro
June 9th, 2009 at 2:38 pm
@Andrei, am analizat relevanta cautarilor pe Gorila.ro aici:
http://www.focusit.ro/2009/06/relevanta-cautarilor-pe-gorilaro/