Clusty un motore di ricerca da analizzare e considerare con attenzione (Parte I)

Pagina 1 di 2

Clusty, il motore di ricerca che …non siscorda mai. (Il keyword clustering aiuta la memoriadei search engine, ecco perchè…)

PrePost: questo post ha un lato scientifico (si licet), unlato informativo (che è di pubblica utilità) eun lato personale (che interessa ‘quasi’ solome). Il lato personale potrebbe non interessare a molti(mentre interesserà moltissimo a pochi…) ecomunque è quello che più mi diverte. Mi piacemischiare con storie personali (soprattuto negative) le mieconsiderazioni webbologiche perchè danno un po’di sale alla zuppa e perchè mi diverte giocare algatto coi…topi. ?.

Un po’di giorni fa, a seguito del dibattito nato– online e offline con qualche ‘net friend’– in merito alla semanticità di Accoona, nuovomotore di ricerca ‘europeo’, mi è tornatoalla mente Clusty, un motore diricerca di cui avevo parlato già anni fa eche reputo essere (at the end of the page…) un buonmotore di ricerca; certamente non famoso quanto Google,certamente non ‘embedded’ come Msn di Microsoft esicuramente non ‘storico’ quanto Yahoo, maassolutamente degno di osservazione e di analisi.

Nomen Omen

Il motore di ricerca Clusty porta nel nomeil suo ‘technological core’;Clusty deriva dalla radice ‘clust’ , chetroviamo nella parola ‘cluster’ e nel verbo‘to clust’ e che in sostanza significa‘gruppo, raggruppare, raggruppamento’etc... Diciamolo subito: Clusty, come qualsiasi altro motoredi ricerca attualmente online, non è un motoredi ricerca semantico; è un motore diricerca lessicale e quindi basato esclusivamente sul‘retrieval’ di Keyword e Keyphrase(considerando comunque una keyphrase come una keyword‘composita’…). Siamo quindi ben lontanidalla tanto agognata ‘semanticità’ delSearch Engine 3.0, ma devo dire che i risultati diClusty sono senza dubbio molto soddisfacenti e,forse per le minori pretese (di Accoona.com, per esempio),saltano subito agli occhi. In questo post cercherò dimostrare come il clustering, anchelessicale e quindi ‘non intelligente’, possaessere un aiuto prezioso per tutti i motori di ricerca nondisposti a ‘perdersi’ dei pezzi del web (i‘pezzi’ sono le pagine dei siti web).

Linking cerebrale e sigarette sul comodino

E’ un vero e proprio uovo di colombo, ma se ciriflettiamo solo un attimo, qual è il vero‘collante’ della nostra memoria? I collegamenti(i link, diremmo oggi); e questo appare chiaro quando ciscordiamo qualcosa. Senza darci arie di psicologi (che sonobrutte arie…), possiamo osservare ogni giorno chequando dimentichiamo qualcosa (anche semplicemente:“dove ho messo le sigarette?”), per ricordarcicerchiamo degli ‘agganci’ con qualcosa che nonabbiamo ancora dimenticato; per esempio, cerchiamo diricordare dove fossimo l’ultima volta che abbiamofumato: “Ecco, sì, stavo parlando con miofratello al telefono che mi diceva proprio che mi erogià acceso due sigarette durante la telefonata”,allora salgo in camera mia e trovo le sigarette sul comodino,penso che forse le avevo ‘freudianamente’dimenticate lì per un istintodi’conservazione’, me ne accendo una e scendo ascrivere questo post.

Bene, il motore di ricerca Clusty funziona– intenzionalmente o no, questo non ci è datosapere – in questo modo. Durante l’analisi dellepagine web già crawlate (quindi già inseritenell’indice e anche se non ancora pubblicate) Clustysembra cercare degli ‘appigli’ tra i termini e lofa probabilmente (siamo sempre nelle ipotesi da reverseengineer)  anche tenendo conto di quello cheeffettivamente gli utenti cercano sul suo motore (in unprossimo post spero che riusciremo a mostrare quali sono lepotenzialità di un’analisi delle query perqualsiasi motore che voglia elevarsi anche un solo gradinosopra la fase ‘lessicale’ della search, che duraormai da troppo tempo). 

Facciamo allora un esempio concreto. Dicevo prima che,scrivendo di Accoona e leggendo i commenti dei colleghi, misono ricordato di Clusty (perche’ la ‘sequenzadei collegamenti puo’ essere anche creativa espontanea…). Normalmente, una delle query che utilizzoper testare un motore di ricerca è il mio nome ecognome; non è tanto per egocentrismo, egotismo ovanità (mie qualità a cui sono comunque moltoaffezionato), quanto piuttosto perchè io so benissimoquali sono i post che ho scritto, gli articoli e i siti chegestisco etc.,  e quindi se su un determianto searchengine non trovo una pagina che so esistere e che socontenere una determinata keyword, allora e‘perchè’ il motore di ricerca –semplicemente – non l’ha indicizzata. Bene, vadosu Clusty e comincio a fare ego-surfing.

EgoSurfing su Clusty (fatelo anche voi!)

Cercando “federico riva” su Clusty (consigliosempre gli apici per un buon egosurfing), visualizzo una SERPche mi dice che posso scegliere fra 2272 risultati diricerca, ma soprattutto, visualizzo – sulla spalladella pagina – una lista di termini (keyword okeyphrase) linkati. Ecco lo Snap della pagina.

federico rivaSi tratta di termini che – secondo Clusty –hanno a che fare con “Federico Riva” e che, comepotete osservare, sono disposti in un ordine decrescente. DaMarketing (33 presenze) a Vyuz San Diego, passando per…pissing estremo e prima ancora…Godado ? .Bene. Cerchiamo di capire che cosa ha fatto Clusty.Apparentemente (faccio sempre il reverse engineer) si trattadi termini che ricorrono almeno in due pagine web inconcomitanza con la keyphrase “federico riva”(che ovviamente viene considerata da Clusty come una singolakeyword, dal momento che èstata scritta fra apici).

Non ci troviamo quindi di fronte – almeno sembra– a un motore di ricerca semantico, quanto piuttosto aun motore di ricerca che ‘raggruppa’,intelligentemente, keyword che (probabilmente presenti anchein pagine web dove NON appare il termine Federico Riva) hannoa che fare con la query cercata. D’altronde, Clusty nonsi chiama Semanty e quindi, almeno dal nome, non si avanzanessuna pretesa di semanticità.

La cosa che va subito detta è che questi link cheappaiono alla sinistra delle SERP non debbono essereconsiderati dei semplici link, bensì delleinformazioni. Clusty, mostrandoci dei link che possono‘attivare’ una ulteriore query, ci‘informa’ che il termine o i termini cercati sonocorrelati con quelli visualizzati e linkati e, con unadisposizione verticale, ci suggerisce che Federico Riva ha ache fare più con il marketing che con il pissingestremo…anche se, a tal proposito, sembra che abbia ache fare fortemente anche con Godado, cosa che ‘ahiGodado’  non è più vera da pocoprima di Natale 2005; ma su questo punto torneremo inseguito, come anche sul fatto che un motore di ricerca cheragiona a ‘cluster’ ha una…marcia inpiù (per usare un antico e sfortunato payoff) perindividuare i siti spam (e non solo gli spamengine).

Proseguiamo però con l’analisi dei linksuggeritici da Clusty. In calce agli stessi, possiamo leggeredue ‘suggerimenti’: ‘more’ e‘all results’.

Dico subito che con mia grande sorpresa, visualizzo un linkche non pensavo proprio di trovare ed e quello relativo aReadyTrading.com. ReadyTrading era un sito (anzi, èancora…?) di mia proprietà (come chiunquepuò vedere dal Whois) e che vedeva coinvolte duepersone, o meglio: una ditta individuale (Federico Rivaappunto) e un individuo con una ditta (Diego Ratti).

Diego Ratti svolgeva l’attività di Docente ditrading e io ero il capo del sito che aveva il compitoprimario di incassare i soldi e di redistribuirli al Rattitrattenendo una piccola percentuale per la mia‘opera’.

clusty_esteso.jpgBeh, quando venni ‘kickato’ dalla GodadoItalia S.r.l. senza nessuna giusta causa che fosse quella diuna miopia delirante, il dottor Ratti decise, anche in questocaso arbitrariamente, che il dottor Riva non aveva piùdiritto ad avere quel sito e quell’attività (diconsulenza trading pubblicizzata online) e che quindi era ilcaso di sostituire la home page con una ‘underconstruction).

D’altronde forse il Ratti pensava che, dal momento cheil sito era stato realizzato da dipendenti di Godado (con lacollaborazione di uno stagista nicknamed‘spruzzo’) e che il dominio era stato acquistato(mi pare di ricordare…) con la carta di credito diGodado e comunque ospitato a titolo gratuito sui server Inetdi Godado e che i corsi erano tenuti negli uffici di CarateBrianza di Godado Italia S.r.l., io non avevo alcun dirittosu quel dominio.

Tratterò in un altro punto dei diritti dei proprietaridi un dominio (che sono ovviamente superiori a quelli dei‘possessori’) e in altra sede del fatto che nonmi è stato più consentito di rientrare inpossesso del mio dominio, qui mi preme solo sottolineare comeClusty sia stato più intelligente del dottor Ratti ecome anzi sia stato troppo intelligente…

Infatti nel dare disposizione agli stessi che avevanorealizzato e uppato il sito, il Ratti si dimenticava ditogliere le sottocartelle del sito e quindi Clustygiustamente (anzi direi, troppo giustamente…) hatenuto in indice le pagine che non erano state eliminate,pensando che solo un lamer alle primisime armi avrebbe potutopensare di cancellare un sito semplicemente sostituendol’html della index.

Travolto dalla mia innata curiosità comincio allora anavigare le pagine del sito e vedo che Clusty ha indicizzatoproprio tutte le pagine, anche quella dove si vede che ilnumero di fax a cui i potenziali ‘alunni’dovevano mandare il fax di accettazione era quello di GodadoItalia, un numero che ancora ricordo a memoria.

Vado poi su Google e vedo che in effetti, con la query‘intelligente’: site:www.readytrading.comappaiono tutte le pagine ancora indicizzate diReadyTrading.com. Anche Google quindi non aveva toltodall’indice le pagine e d’altronde perchèfarlo se non lo aveva fatto chi non era stato capace diapplicare una veloce, tecnologica e comunue inutile‘damnatio memoriae’ (a fine post vimostrerò un bello strumento, presente da anni, chepermette di vedere come se fossero ancora online le pagine diquasi tutti i siti del world wide web).

Cercando però su Google con ‘FedericoRiva’, noto che non appaiono nemmeno nei primi 100risultati le pagine di readytrading e questo perchè?Perchè Google non ha un forte sistema di interlinking‘per quanto lessicale e cioè basato sullekeyword e keyphrase’ come lo ha Clusty.

Ci sono casi ancora più evidenti (che ho trovatosempre grazie all’ego-surfing) del fatto che un motoredi ricerca meno potente (come obiettivamente è Clustyrispetto al WareEngine di DelaView, AKA Google Inc.) possagrazie a un semplicissimo sistema diclustering, avere più ‘memoria’di un motore di ricerca che invece fa ancora dellaquantità il suo cavallo di battaglia (Google infattiindicizza circa dieci volte le pagine indicizzate da Clustycon la query ‘virgolettata’ “federicoriva”.
Vedo infatti che Clusty mi ricorda che quasi dieci anni fachiedevo informazioni sulle pipe a una famosa community difumatori di pipe smokers e che il mio numero di matricolaall’università degli studi di Milano era 432603.

Continua>>>