Clusty un motore di ricerca da analizzare e considerare con attenzione (Parte I)

Pagina 1 di 2

Clusty, il motore di ricerca che …non si scorda mai. (Il keyword clustering aiuta la memoria dei search engine, ecco perchè…)

PrePost: questo post ha un lato scientifico (si licet), un lato informativo (che è di pubblica utilità) e un lato personale (che interessa ‘quasi’ solo me). Il lato personale potrebbe non interessare a molti (mentre interesserà moltissimo a pochi…) e comunque è quello che più mi diverte. Mi piace mischiare con storie personali (soprattuto negative) le mie considerazioni webbologiche perchè danno un po’ di sale alla zuppa e perchè mi diverte giocare al gatto coi…topi. ?.

Un po’di giorni fa, a seguito del dibattito nato – online e offline con qualche ‘net friend’ – in merito alla semanticità di Accoona, nuovo motore di ricerca ‘europeo’, mi è tornato alla mente Clusty, un motore di ricerca di cui avevo parlato già anni fa e che reputo essere (at the end of the page…) un buon motore di ricerca; certamente non famoso quanto Google, certamente non ‘embedded’ come Msn di Microsoft e sicuramente non ‘storico’ quanto Yahoo, ma assolutamente degno di osservazione e di analisi.

Nomen Omen

Il motore di ricerca Clusty porta nel nome il suo ‘technological core’; Clusty deriva dalla radice ‘clust’ , che troviamo nella parola ‘cluster’ e nel verbo ‘to clust’ e che in sostanza significa ‘gruppo, raggruppare, raggruppamento’ etc... Diciamolo subito: Clusty, come qualsiasi altro motore di ricerca attualmente online, non è un motore di ricerca semantico; è un motore di ricerca lessicale e quindi basato esclusivamente sul ‘retrieval’ di Keyword e Keyphrase (considerando comunque una keyphrase come una keyword ‘composita’…). Siamo quindi ben lontani dalla tanto agognata ‘semanticità’ del Search Engine 3.0, ma devo dire che i risultati di Clusty sono senza dubbio molto soddisfacenti e, forse per le minori pretese (di Accoona.com, per esempio), saltano subito agli occhi. In questo post cercherò di mostrare come il clustering, anche lessicale e quindi ‘non intelligente’, possa essere un aiuto prezioso per tutti i motori di ricerca non disposti a ‘perdersi’ dei pezzi del web (i ‘pezzi’ sono le pagine dei siti web).

Linking cerebrale e sigarette sul comodino

E’ un vero e proprio uovo di colombo, ma se ci riflettiamo solo un attimo, qual è il vero ‘collante’ della nostra memoria? I collegamenti (i link, diremmo oggi); e questo appare chiaro quando ci scordiamo qualcosa. Senza darci arie di psicologi (che sono brutte arie…), possiamo osservare ogni giorno che quando dimentichiamo qualcosa (anche semplicemente: “dove ho messo le sigarette?”), per ricordarci cerchiamo degli ‘agganci’ con qualcosa che non abbiamo ancora dimenticato; per esempio, cerchiamo di ricordare dove fossimo l’ultima volta che abbiamo fumato: “Ecco, sì, stavo parlando con mio fratello al telefono che mi diceva proprio che mi ero già acceso due sigarette durante la telefonata”, allora salgo in camera mia e trovo le sigarette sul comodino, penso che forse le avevo ‘freudianamente’ dimenticate lì per un istinto di’conservazione’, me ne accendo una e scendo a scrivere questo post.

Bene, il motore di ricerca Clusty funziona – intenzionalmente o no, questo non ci è dato sapere – in questo modo. Durante l’analisi delle pagine web già crawlate (quindi già inserite nell’indice e anche se non ancora pubblicate) Clusty sembra cercare degli ‘appigli’ tra i termini e lo fa probabilmente (siamo sempre nelle ipotesi da reverse engineer)  anche tenendo conto di quello che effettivamente gli utenti cercano sul suo motore (in un prossimo post spero che riusciremo a mostrare quali sono le potenzialità di un’analisi delle query per qualsiasi motore che voglia elevarsi anche un solo gradino sopra la fase ‘lessicale’ della search, che dura ormai da troppo tempo). 

Facciamo allora un esempio concreto. Dicevo prima che, scrivendo di Accoona e leggendo i commenti dei colleghi, mi sono ricordato di Clusty (perche’ la ‘sequenza dei collegamenti puo’ essere anche creativa e spontanea…). Normalmente, una delle query che utilizzo per testare un motore di ricerca è il mio nome e cognome; non è tanto per egocentrismo, egotismo o vanità (mie qualità a cui sono comunque molto affezionato), quanto piuttosto perchè io so benissimo quali sono i post che ho scritto, gli articoli e i siti che gestisco etc.,  e quindi se su un determianto search engine non trovo una pagina che so esistere e che so contenere una determinata keyword, allora e ‘perchè’ il motore di ricerca – semplicemente – non l’ha indicizzata. Bene, vado su Clusty e comincio a fare ego-surfing.

EgoSurfing su Clusty (fatelo anche voi!)

Cercando “federico riva” su Clusty (consiglio sempre gli apici per un buon egosurfing), visualizzo una SERP che mi dice che posso scegliere fra 2272 risultati di ricerca, ma soprattutto, visualizzo – sulla spalla della pagina – una lista di termini (keyword o keyphrase) linkati. Ecco lo Snap della pagina.

federico rivaSi tratta di termini che – secondo Clusty – hanno a che fare con “Federico Riva” e che, come potete osservare, sono disposti in un ordine decrescente. Da Marketing (33 presenze) a Vyuz San Diego, passando per …pissing estremo e prima ancora…Godado ? . Bene. Cerchiamo di capire che cosa ha fatto Clusty. Apparentemente (faccio sempre il reverse engineer) si tratta di termini che ricorrono almeno in due pagine web in concomitanza con la keyphrase “federico riva” (che ovviamente viene considerata da Clusty come una singola keyword, dal momento che èstata scritta fra apici).

Non ci troviamo quindi di fronte – almeno sembra – a un motore di ricerca semantico, quanto piuttosto a un motore di ricerca che ‘raggruppa’, intelligentemente, keyword che (probabilmente presenti anche in pagine web dove NON appare il termine Federico Riva) hanno a che fare con la query cercata. D’altronde, Clusty non si chiama Semanty e quindi, almeno dal nome, non si avanza nessuna pretesa di semanticità.

La cosa che va subito detta è che questi link che appaiono alla sinistra delle SERP non debbono essere considerati dei semplici link, bensì delle informazioni. Clusty, mostrandoci dei link che possono ‘attivare’ una ulteriore query, ci ‘informa’ che il termine o i termini cercati sono correlati con quelli visualizzati e linkati e, con una disposizione verticale, ci suggerisce che Federico Riva ha a che fare più con il marketing che con il pissing estremo…anche se, a tal proposito, sembra che abbia a che fare fortemente anche con Godado, cosa che ‘ahi Godado’  non è più vera da poco prima di Natale 2005; ma su questo punto torneremo in seguito, come anche sul fatto che un motore di ricerca che ragiona a ‘cluster’ ha una…marcia in più (per usare un antico e sfortunato payoff) per individuare i siti spam (e non solo gli spamengine).

Proseguiamo però con l’analisi dei link suggeritici da Clusty. In calce agli stessi, possiamo leggere due ‘suggerimenti’: ‘more’ e ‘all results’.

Dico subito che con mia grande sorpresa, visualizzo un link che non pensavo proprio di trovare ed e quello relativo a ReadyTrading.com. ReadyTrading era un sito (anzi, è ancora…?) di mia proprietà (come chiunque può vedere dal Whois) e che vedeva coinvolte due persone, o meglio: una ditta individuale (Federico Riva appunto) e un individuo con una ditta (Diego Ratti).

Diego Ratti svolgeva l’attività di Docente di trading e io ero il capo del sito che aveva il compito primario di incassare i soldi e di redistribuirli al Ratti trattenendo una piccola percentuale per la mia ‘opera’.

clusty_esteso.jpgBeh, quando venni ‘kickato’ dalla Godado Italia S.r.l. senza nessuna giusta causa che fosse quella di una miopia delirante, il dottor Ratti decise, anche in questo caso arbitrariamente, che il dottor Riva non aveva più diritto ad avere quel sito e quell’attività (di consulenza trading pubblicizzata online) e che quindi era il caso di sostituire la home page con una ‘under construction).

D’altronde forse il Ratti pensava che, dal momento che il sito era stato realizzato da dipendenti di Godado (con la collaborazione di uno stagista nicknamed ‘spruzzo’) e che il dominio era stato acquistato (mi pare di ricordare…) con la carta di credito di Godado e comunque ospitato a titolo gratuito sui server Inet di Godado e che i corsi erano tenuti negli uffici di Carate Brianza di Godado Italia S.r.l., io non avevo alcun diritto su quel dominio.

Tratterò in un altro punto dei diritti dei proprietari di un dominio (che sono ovviamente superiori a quelli dei ‘possessori’) e in altra sede del fatto che non mi è stato più consentito di rientrare in possesso del mio dominio, qui mi preme solo sottolineare come Clusty sia stato più intelligente del dottor Ratti e come anzi sia stato troppo intelligente…

Infatti nel dare disposizione agli stessi che avevano realizzato e uppato il sito, il Ratti si dimenticava di togliere le sottocartelle del sito e quindi Clusty giustamente (anzi direi, troppo giustamente…) ha tenuto in indice le pagine che non erano state eliminate, pensando che solo un lamer alle primisime armi avrebbe potuto pensare di cancellare un sito semplicemente sostituendo l’html della index.

Travolto dalla mia innata curiosità comincio allora a navigare le pagine del sito e vedo che Clusty ha indicizzato proprio tutte le pagine, anche quella dove si vede che il numero di fax a cui i potenziali ‘alunni’ dovevano mandare il fax di accettazione era quello di Godado Italia, un numero che ancora ricordo a memoria.

Vado poi su Google e vedo che in effetti, con la query ‘intelligente’: site:www.readytrading.com appaiono tutte le pagine ancora indicizzate di ReadyTrading.com. Anche Google quindi non aveva tolto dall’indice le pagine e d’altronde perchè farlo se non lo aveva fatto chi non era stato capace di applicare una veloce, tecnologica e comunue inutile ‘damnatio memoriae’ (a fine post vi mostrerò un bello strumento, presente da anni, che permette di vedere come se fossero ancora online le pagine di quasi tutti i siti del world wide web).

Cercando però su Google con ‘Federico Riva’, noto che non appaiono nemmeno nei primi 100 risultati le pagine di readytrading e questo perchè? Perchè Google non ha un forte sistema di interlinking ‘per quanto lessicale e cioè basato sulle keyword e keyphrase’ come lo ha Clusty.

Ci sono casi ancora più evidenti (che ho trovato sempre grazie all’ego-surfing) del fatto che un motore di ricerca meno potente (come obiettivamente è Clusty rispetto al WareEngine di DelaView, AKA Google Inc.) possa grazie a un semplicissimo sistema di clustering, avere più ‘memoria’ di un motore di ricerca che invece fa ancora della quantità il suo cavallo di battaglia (Google infatti indicizza circa dieci volte le pagine indicizzate da Clusty con la query ‘virgolettata’ “federico riva”.
Vedo infatti che Clusty mi ricorda che quasi dieci anni fa chiedevo informazioni sulle pipe a una famosa community di fumatori di pipe smokers e che il mio numero di matricola all’università degli studi di Milano era 432603.

Continua >>>

 

Ti potrebbe interessare anche

commenta la notizia

C'è 1 commento
Graziano
Hai qualche domanda da fare?