Marco Varone -

Web/Tecnologia

15/07/08

La Semantica per il Semantic Web

Come ho già detto la tecnologia semantica non è il Semantic Web ma il Semantic Web non potrà mai esistere senza questa tecnologia.

Ci sono diversi casi di successo REALI legati all’implementazione in aziende di motori di ricerca semantici mentre (escludendo qualche esperimento) non si può dire altrettanto del Web semantico, dove  la questione rimane estremamente complessa.

La tecnologia semantica è l’unica che dà speranze di automatizzare l’idea di base del Semantic Web, cioè l’organizzazione concettuale delle informazioni on-line.

Per tutto quello che oggi è presente in rete non è ipotizzabile una sistemazione manuale:  è utopico pensare anche a un mondo di utenti che dopo che scrive pensa subito anche a far emergere le relazioni semantiche fra i concetti espressi, ad esempio usando le tag. Fra l’altro ogni utente userebbe le proprie etichette, come già accade, e questo porterebbe a taggare documenti affini in modo diverso, rendendo così difficile il recupero delle informazioni.

Con un sistema automatico basato sulla semantica sarà possibile sistematizzare i concetti di tutte le informazioni (entità, relazioni fra queste entità) garantendo un trattamento standard a tutti i contenuti.

Naturalmente non sarà possibile eliminare completamente l’attività manuale: innanzi tutto sarà necessario lavorare a monte ad una configurazione ragionata e intelligente (quindi umana) e, poi, verificare i risultati ottenuti con il sistema.

L’attività manuale potrà focalizzarsi solo e semplicemente sul controllo (ma in molti insistono sulla visione di un’attività automatica e manuale sempre integrate).

Probabilmente saranno diversi i casi in cui intervenire per mettere a punto le cose, ma intanto il grosso sarà fatto.

Inoltre, non sarà così complicato perfezionare il sistema perché si comporterà sempre allo stesso modo senza lasciarsi influenzare da fattori soggettivi (tipici delle persone :-)).

Nova100 tags: , , , , , ,

13/06/08

MITI e REALTÀ: comunicazioni interrotte

Lo scambio e la condivisione delle informazioni sono sempre citati fra i principali vantaggi del social networking. Mantenersi aggiornati sui temi d'interesse scambiando dati di qualsiasi tipo con la propria cerchia di amici, infatti, pare essere uno dei motivi principali per cui tante persone usano quotidianamente i vari Facebook e MySpace.

Visto che il problema del recupero delle informazioni nel Web è un tema costante di questo blog e che abbiamo anche già rilevato quanto i siti tipici del Web 2.0 complichino la situazione, oggi poniamo l’attenzione su un altro aspetto: l’interruzione della comunicazione determinata proprio dalla proliferazione di blog e social network.

È un paradosso, se si pensa che l’obiettivo dei social media dovrebbe essere esattamente il contrario, eppure succede proprio così.

Si scrive un testo (un post di un blog ad esempio) che si condivide subito con Facebook, si salva in del.icio.us, magari si mette in forma ridotta e con una foto su Flickr, ecc.
Amici e colleghi aggiungono un commento oppure dicono qualcosa via Twitter o avvertono altri amici e colleghi scrivendo a loro volta un post citando quello di partenza.
Senza dubbio chi scrive per primo può entrare in contatto con un pubblico immenso e da questo punto di vista la potenza dei blog e dei vari siti per il social networking non è in discussione. Come risultato, però, c’è anche un’interruzione nella conversazione che può anche finire in niente.

Non è facile (spesso è impossibile) recuperare tutta la conoscenza che si genera attorno a un certo argomento e una volta tanto non si tratta solo di un fallimento delle tecnologie per il recupero delle informazioni. Anche se i problemi tecnologici ci sono (come abbiamo già sottolineato più volte, non è vero che oggi ci basta aprire il browser e usare un qualsiasi motore di ricerca per arrivare a tutte le informazioni che ci servono), in questo caso sono coperti da un altro fallimento: la frammentarietà di riferimenti e commenti fa sì che, con estrema facilità, una conversazione s’interrompa perché viene sparpagliata chissà dove, facendo fallire l’idea stessa alla base dei social media.

Non tutte le novità vengono per migliorare :-)

Nova100 tags: , , , , , , ,

06/06/08

Wikipedia è come il maiale

Per fortuna che esiste Wikipedia! Se già non ci fosse, bisognerebbe proprio inventarla perché senza di lei i tre quarti di coloro che BAZZICANO il mondo della semantica non saprebbero che cosa fare :-)

Non passa giorno che qualcuno non annunci  di aver lavorato con Wikipedia per la nascita di un nuovo sistema di categorizzazione, di un motore di ricerca oppure di una tecnologia per il riconoscimento delle entità (persone, aziende, prodotti, ecc.) o per un repository (ovviamente RDF) di fatti estratti in un qualche modo.

Ora, è vero che Wikipedia è un’importante, ricca fonte di conoscenza ma non bisogna dimenticare che la qualità e la profondità dei contenuti non sono omogenee. Molti la usano perché è più facile da analizzare e contiene informazioni parzialmente strutturate: quest’aspetto è tutt’altro che comune nel Web e perciò fa gola a tanti che pensano di trovare una scorciatoia per risolvere il problema della gestione e del recupero delle informazioni.

Il problema invece rimane, inoltre spesso Wikipedia si mostra più inaffidabile di altre fonti che magari non sono strutturate per niente ma almeno sono stabili. Provate ad esempio a guardare le categorie associate ad ogni articolo e a notare come la soggettività e l’imprevedibilità prendano spesso il sopravvento.

Viva Wikipedia allora (che è come il maiale di cui non si butta via niente) ma per quelli che sviluppano (o dicono di sviluppare) tecnologia semantica, è ora di passare a qualcosa di più complesso e di rendersi conto che esiste tutto un universo di conoscenze, problemi e opportunità che vanno ben oltre la più famosa enciclopedia Web.

Nova100 tags:

20/05/08

Balene e pelliccia di gatto

Domenica è iniziata la quarta edizione della Semantic Technology Conference, il più importante evento mondiale dedicato alle tecnologie semantiche.

Quest’anno non posso partecipare per altri impegni e sono perciò in attesa di valutare i contenuti e la qualità degli interventi a conferenza conclusa. Mi sono già fatto un’idea, però, e penso sia interessante condividere un paio di riflessioni in merito.

A una prima occhiata, l’evento sembra di dimensioni più ampie rispetto alla scorsa edizione, a dimostrazione dell’interesse continuo per la tecnologia semantica. Basta però scorrere il programma con più attenzione, senza neanche troppo sforzarsi di leggere fra le righe, per avere l’impressione che sia passato un anno inutilmente: non s’intravedono novità di rilievo fra i partecipanti, gli speaker e i vari interventi.

L’impressione è che, in generale, le grandi promesse dell’anno scorso non abbiano portato a risultati commisurati con le aspettative. Forse dipende dal forte e quasi globale rallentamento dell’economia (che negli Stati Uniti sembra avere colpito molto duro) oppure dal fatto che erano state create aspettative eccessive ma mi pare che tutti si siano concentrarti su dettagli e cose già viste piuttosto che sul quadro generale e su vere e proprie novità.

Non voglio procedere oltre con queste considerazioni perché l’evento è appena iniziato e si concluderà solo il 22 maggio. Mi auguro di potermi ricredere e, soprattutto, di trovare una smentita alla sensazione che con questa quarta edizione si sia innescato un meccanismo autoreferenziale: si parla molto, si lanciano sfide insistendo che siamo nell’anno giusto… ma poi nessuno indica una direzione precisa da seguire per rendere davvero efficaci tutte le potenzialità della semantica.

P.S. se vi chiedete il perché dello strano titolo, deriva dal fatto che oggi presenteremo al Semtech in anteprima un nuovo software, che cerca di indicare nuove direzioni :-),  nel corso di una sessione di lavoro intitolata “Whales & Cat Fur –Using a Semantic Network to Improve Precision & Recall”

Nova100 tags: , ,

08/05/08

MITI e REALTÀ: i 2 principali vantaggi nella ricerca con un motore semantico

Un motore di ricerca semantico consente (anche) di effettuare delle ricerche puntuali esprimendo delle domande nello stesso modo con cui si chiederebbe un’informazione ad una persona (anziché usare la solita sequenza di keyword).

In gergo tecnico si parla di ricerche in linguaggio naturale* che non significa altro che esprimersi così come siamo abituati a fare quando parliamo e comunichiamo fra noi.

Inoltre, grazie alla rete dei significati delle parole che rende possibile una corretta identificazione del senso del discorso (attraverso l’individuazione del giusto significato dei termini e delle frasi in base al contesto), il motore di ricerca semantico offre un grosso  vantaggio: estendere la capacità di restituire tutti i contenuti attinenti alla domanda di partenza.

Più la domanda è precisa e completa, più i benefici che si possono ottenere con la semantica aumentano (come ho già detto più volte, la semantica non può fare grandi cose per ricerche tipo “Jovanotti” mentre è molto potente quando si tratta di scovare risposte per domande molto precise).

Se pensiamo all’esempio della manualistica per auto di cui abbiamo parlato, per una richiesta tipo “come si sostituisce il fanalino posteriore?” verranno estratti tutti (e solo) i contenuti attinenti, compresi quelli in cui l’argomento viene trattato attraverso parole diverse da quelle presenti nella domanda di partenza:
non solo un contenuto tipo “istruzioni per cambiare il fanalino posteriore”
ma anche  “Sostituzione lampada dei fanali”.

Le parole sono diverse ma il significato è sempre lo stesso.

* Ho notato che per i non addetti ai lavori non è così facile capire subito il significato di “linguaggio naturale”. L’’espressione (che evidentemente non è cosi naturale ;-)) si è diffusa per indicare il nostro linguaggio, le cui regole evolvono con l’uso, in opposizione ai linguaggi artificiali, le cui regole invece sono definite a priori come i linguaggi di programmazione dei computer. Per Natural Language Processing (NLP), ‘gestione del linguaggio naturale’, si intende infatti un sistema in grado di elaborare la lingua degli esseri umani.

Nova100 tags: , , , ,

29/04/08

P.S. per “Pubblicità e semantica” e “Divagazioni”

A proposito di raccolta di informazioni per il contextual o semantic advertising e di analogie fra quello che è successo in Internet alla fine degli anni ’90 e quello che sta accadendo oggi, c’è anche l’aspetto dei servizi.

Ai tempi della (prima?) bolla, l’offerta era incentrata sugli account di e-mail, che praticamente erano l’unica cosa che si poteva regalare agli utenti per invogliarli a scegliere i propri servizi (e anche per iniziare a conteggiarli e capirli).

Oggi, oltre alle mail viene offerta la tecnologia, si regalano strumenti ricchi e facili da usare, come ad esempio le piattaforme per i blog e il social networking (oltre ad applicazioni on-line che rivaleggiano con Office).

Da un lato gli utenti hanno iniziato a popolare spontaneamente il Web di contenuti personali, dall’altro i fornitori hanno avuto a disposizione molti più dati e si sono concentrati sulla capacità di sfruttarli.

Anche questo spiega la frenetica corsa all’acquisto dei siti del Web 2.0 più promettenti (spesso per cifre folli) da parte dei grandi player di oggi:  la competizione si gioca anche sull’abilità di potenziare la raccolta e l’analisi delle informazioni sparse nei vari pezzetti della propria offerta.

Nulla di nuovo sotto il sole: anche nel Web la storia si ripete più di quanto ci si renda conto e malgrado si stia molto insistendo sulla contrapposizione fra l’era dell’ 1.0 e quella del 2.0 non ci sono novità in senso assoluto (come ad esempio i principi di collaborazione e condivisione che in realtà esistono da tempo) o differenze così sostanziali… a parte la banda (che rende possibili cose già pensate in passato ma non tecnicamente erogabili in precedenza) e il fatto che ci sono aziende che fanno soldi veri (nel Web 1.0, i soldi venivano solo spesi :-)

Nova100 tags: , , , , , , , ,

22/04/08

MITI e REALTÀ: i 5 passi nello sviluppo di un motore di ricerca semantico aziendale

I primi due passi necessari per implementare in azienda un motore di ricerca semantico (tipicamente fruibile via intranet) si svolgono in parallelo. Consistono nella valutazione del tipo di conoscenza da gestire e nella valutazione del modo secondo cui questa conoscenza verrà ricercata.

Per fare esempi concreti, possiamo prendere in considerazione due esigenze molto diverse:

  • rendere recuperabili le informazioni all'interno di un manuale d’uso, ad esempio di un'auto;
  • rendere fruibili le informazioni nel sito di una televisione (pur essendo ricercabili sul Web, sono comunque contenuti aziendali).

Quasi sempre le ricerche sulla manualistica saranno puntuali, molto precise (“come faccio a sostituire la lampadina del fanale posteriore?”) mentre quelle nella TV saranno in maggioranza generiche, probabilmente incentrate su nomi di personaggi, programmi o macro-argomenti (“Flavio Insinna”, “Matrix”, ecc. per cui anche una ricerca a keyword spesso può dare buoni risultati).

Il secondo passo consiste nell’analisi approfondita della conoscenza da gestire.

Con una tecnologia semantica, i concetti e le espressioni non noti possono essere facilmente individuati e inseriti all'interno della conoscenza del sistema.

Una parte di questo lavoro può essere fatta direttamente da chi implementa il motore di ricerca ma normalmente è sempre necessaria la collaborazione fra l’azienda-cliente e il fornitore: solo così, infatti, si possono fornire al sistema tutti gli elementi che servono per continuare a garantire un’analisi dei contenuti corretta ed efficiente.

Il terzo passo è la messa a punto del motore di ricerca. Consiste nel fare ricerche, cioè in pratica nel provare il motore e individuare rapidamente eventuali punti deboli che richiedono un intervento specifico.

Le ambiguità di significato delle parole, la specificità dei contenuti, l’uso di metafore non così comuni, ecc. possono creare dei problemi, per fortuna quasi sempre risolvibili in modo soddisfacente. Infatti, una delle prerogative più interessanti della tecnologia semantica è che la rete dei significati può essere arricchita di nuovi contenuti e di conseguenza possono aumentare anche i vari possibili legami fra le parole: con una piccola quantità di lavoro manuale (lasciando da parte il sogno di fare sempre e tutto in automatico), il motore può essere istruito in modo che “comprenda” bene e garantisca sempre un alto livello di precisione, correttezza e attendibilità.

Infine, c’è il rilascio all’azienda di una versione beta, cioè una versione di prova su cui si può iniziare a lavorare. Dopo alcuni giorni o settimane di test, i dati raccolti attraverso l’osservazione delle ricerche sottoposte al motore vengono analizzati in modo che si possano sistemare le ultime cose strettamente legate all'uso vero del motore visto che, piuttosto spesso, nell'utilizzo reale compaiono aspetti non ipotizzati in fase di analisi e primo test.

Nova100 tags: , , , ,

10/04/08

MITI e REALTÀ: la ricerca

La confusione legata ai tipi di motori di ricerca ha generato in ambito aziendale il mito che un motore vale l’altro e che il tipo di conoscenza (o di contenuti) da gestire non fa molta differenza.

Poiché il motore di ricerca per definizione (quello per il Web) deve trattare bene un po' tutti i contenuti (come abbiamo detto più volte, anche questa insieme con la velocità di implementazione in qualsiasi lingua è una ragione per cui nel Web prevale ancor oggi l’indicizzazione e il recupero dei contenuti per keyword), per molti diventa naturale estendere il ragionamento anche quando così non è.

La conoscenza aziendale, infatti, è un tipo di conoscenza e quindi non è vero che per qualsiasi azienda un motore vale l’altro. Questo non vuol dire che i motori tipici di Internet siano sempre sbagliati per le aziende (chi sostiene incondizionatamente questa tesi non dà una visione corretta del problema) ma che dipende dai casi, dalle necessità di lavoro, dalla quantità dei contenuti e dall’importanza che si dà (o si è costretti a dare) alle attività di ricerca.

Visto che abbiamo già parlato delle differenze tra i motori di ricerca per Internet e quelli per le aziende, ci soffermeremo sulle fasi che si attraversano quando si decide di sviluppare un motore di ricerca semantico per contenuti aziendali.

Anche in questo caso, si può partire da un mito e cioè che per implementare un motore semantico aziendale servono più o meno il tempo e le risorse necessari a costruire la Basilica di San Pietro ;-)

Si tratta di un falso mito perché anche se l'implementazione richiede più lavoro di quello necessario per installare un motore a keyword (spesso pochissimo di più), la qualità dei risultati ripaga abbondantemente il maggior costo iniziale già dopo poche settimane o mesi di utilizzo, rendendo conveniente l'operazione anche dal punto di vista economico. L'unica condizione da rispettare è quella di affidarsi a fornitori esperti della materia che abbiano fatto parecchie implementazioni in precedenza e che utilizzino una tecnologia di qualità.

Parleremo delle fasi di implementazione nei prossimi post.

Nova100 tags: , , , ,

03/04/08

A ciascuno il suo (motore di ricerca)

Chi mi segue dai tempi del blog Cogito, sa che il tema dei motori di ricerca ad uso interno (tipicamente in azienda) mi è caro, forse perché la maggior parte delle persone tende a pensare che gli unici motori esistenti siano quelli per Internet (e, nello specifico, che ci sia solo Google :-).

I motori di ricerca per aziende (oltre ad esistere ;-)) consentono di fare ricerche all’interno dei diversi archivi e cartelle aziendali che contengono il grosso della conoscenza, esplicita e implicita, utile nel lavoro di tutti i giorni: a differenza dei motori per Internet, possono sfruttare anche tecnologie diverse da quella a keyword: statistiche, linguistica superficiale e semantica.

Visto che in passato ho già parlato di approccio, struttura e differenze fra i due tipi di motori, vorrei ora soffermarmi solo su un paradosso: i motori a keyword tipici di Internet sono i più diffusi nelle aziende, malgrado siano i meno adatti a soddisfare le attività di ricerca che tipicamente si svolgono per lavoro (a dir la verità, le cose un po’ hanno iniziato a cambiare e sono sempre di più le organizzazioni che, vincendo l’inerzia e accettando la sfida del cambiamento…, chiedono strumenti più funzionali).

I motori di ricerca su Internet, infatti, sono in grado di dare in media buoni risultati perché sfruttano due elementi peculiari del Web:

- un'enorme ridondanza dei contenuti: la stessa cosa è scritta in così tanti posti e in così tanti modi che una ricerca, per quanto formulata in termini diversi, riesce quasi sempre a restituire qualcosa di sensato anche con un puro match di parole chiave;

- la ricerca di macro cose: molto spesso su Internet si cerca un sito o un'area per poi navigarlo a mano per individuare l'informazione esatta.

Quando si cerca invece all'interno della conoscenza aziendale, la ridondanza è molto ridotta e siamo interessati ad un dato/documento specifico e non c'è tempo per leggersi velocemente il contenuto di N risultati per trovare quello che serve (spesso sto cercando quello specifico documento o dato e non altri): per questi motivi (e per altri che tratterò in seguito), un motore di ricerca "alla Internet" all'interno dell'azienda è sicuramente meglio di niente ma, altrettanto sicuramente, si può fare molto meglio con altre tecnologie.

Nova100 tags: , , , ,

27/03/08

Semantica e pubblicità

Uno dei temi caldi di Internet è lo sfruttamento da parte dei grandi nomi della rete (Yahoo!, MySpace, Aol,  Google, Facebook, Microsoft) delle ricerche che facciamo on-line e dei siti che visitiamo per raccogliere più informazioni possibili sui nostri comportamenti e sulle nostre preferenze. L’obiettivo è tracciare dei profili-utente a cui offrire pubblicità mirata.

Il dibattito sulla liceità dell’operazione è aperto (perché se nessuno ci dice che ogni nostra mossa nel Web è osservata, magari registrata e studiata, allora non va bene) ma non entro nel merito e parlo invece della semantica per la pubblicità targettizzata (contextual advertising): mostrare messaggi promozionali inerenti al contenuto delle pagine web.

Le soluzioni attualmente usate si basano sulla tecnologia a keyword e ciò determina un risultato molto variabile (spesso scadente) perché le corrispondenze fra inserzioni e contenuti sono troppo approssimative.

Facciamo un esempio, prendendo un caso un po’ estremo ma utile per chiarirci le idee.

Può succedere che una notizia riguardante un disastro aereo sia abbinata ad annunci di promozioni su voli e viaggi, solo perché il sistema che deve scegliere il messaggio promozionale ha riconosciuto le parole “aereo, passeggeri, volo”: messaggio pubblicitario e contenuti della pagina contengono le stesse sequenze di caratteri (che per il sistema sono prive di senso) ma certamente pochi utenti saranno spinti dal contenuto della notizia a clickare quell’annuncio…

La semantica aiuta a risolvere il problema perché si focalizza sul significato delle parole e sulla struttura delle frasi, assicurando una qualità e pertinenza dei risultati decisamente superiori.

Se fosse utilizzata poi anche nel processo di determinazione di quei profili-utenti di cui abbiamo parlato sopra, offrirebbe naturalmente un ulteriore valore aggiunto.

Nova100 tags: , , ,

20/03/08

MITI e REALTÀ: semantica e Semantic Web

La semantica è un tipo di tecnologia e non è il Semantic Web o Web semantico.

Il falso mito che siano la stessa cosa è nato perché la semantica è la tecnologia più promettente per dare concretezza al sogno del Semantic Web: con la semantica, infatti, si sta passando dalla teoria del Semantic Web (2001) alla pratica, anche se sarebbe più corretto parlare di forme di sperimentazione e non di Semantic Web in assoluto (l’implementazione non sta avvenendo su larga scala, vera utopia, ma attraverso determinati tool o servizi/siti particolari).

Il Semantic Web è dunque UNA delle possibili applicazioni della tecnologia semantica. Riguarda sempre la gestione automatica delle informazioni (i contenuti on-line) di cui potrebbe sfruttare tutti e tre i processi fondamentali: ricerca, categorizzazione, estrazione.

La tecnologia semantica abilita sia l’identificazione e il processo di estrazione dei concetti presenti nei contenuti sia la categorizzazione per argomenti. Per concetti s’intende il significato espresso attraverso le frasi a partire da una corretta comprensione del senso di ciascuna parola. Ogni concetto estratto viene etichettato, sempre in automatico: non è l’utente che sceglie le tag (come capita adesso nella maggior parte dei casi sul Web) ma il sistema stesso.

Detta così, sembra una cosa facile, anzi per noi persone è davvero un’operazione banale ma per un computer è un traguardo complesso, impossibile da raggiungere senza la semantica.

Nova100 tags: , , , , , , , ,

21/02/08

Solo fumo e niente arrosto?

A distanza di mesi da quella rivoluzione troppo annunciata di cui ho parlato a proposito della semantica, è interessante notare che la moda ha continuato a imperversare: ormai sembra proprio che non sia più possibile parlare di conoscenza e ricerca nel Web o di qualunque altro argomento correlato senza usare la parola magica “semantica” (ho perfino letto da qualche parte che anche con Google adesso è possibile fare ricerche semantiche ;-)).

Per chi come me lavora da sempre in quest’ambito, il fenomeno ha senz’altro assunto dimensioni significative: fino a un paio di anni fa era difficilissimo riuscire a diffondere l’uso della tecnologia semantica per risolvere i tanti problemi legati alla gestione delle informazioni, mentre oggi sono le aziende che vanno a cercare i fornitori di semantica e che desiderano capire che cosa c’è di vero in questo “elisir” miracoloso. A noi ad esempio qualche tempo fa è capitato che una delle più grandi software house al mondo ci chiedesse di organizzare una presentazione ai livelli più alti: eppure, per diversi anni, da loro le nostre proposte erano state snobbate.

Come spesso accade, fenomeni di questo tipo sono un po’ effimeri, anche perché si crea tanto interesse nei confronti di qualcosa senza che però dietro ci sia una reale evoluzione dell’offerta. 

Infatti, nonostante la moda per la semantica non sia diminuita, non ci sono stati cambiamenti ma piuttosto dei camuffamenti, dei rimaneggiamenti di cose da tempo già esistenti.

Probabilmente sarà necessario attendere che passi la moda (anche se speriamo non del tutto…) perché la semantica possa diventare realmente una tecnologia pervasiva e concreta. Un po’ come è capitato in Internet quando nella prima fase, quella terminata con lo scoppio della bolla, si puntava ad avere un sacco di utenti (le famose eyeballs) che però nessuno era in grado di monetizzare. Poi è arrivato Google (e altri a seguire) ed è stato finalmente possibile trasformare gli utenti in soldi grazie alla pubblicità.

Per prima cosa e nel frattempo, comunque, è indispensabile che le aziende interessate alla semantica capiscano che non si tratta di una soluzione magica ma che occorre investire tempo e risorse per ottenere i risultati auspicati.

Nova100 tags: ,

08/02/08

MITI e REALTÀ: le ricerche in Internet

Esiste una lunga serie di false nozioni su Internet che ha dato vita a un macro-mito: on-line si può trovare tutto, basta “saper cercare”.

Invece non c’è proprio niente di speciale da sapere perché non è una questione di trucchi se non si trovano ad esempio libri reperibili in biblioteca: semplicemente non ci sono. Infatti, solo una piccolissima parte della conoscenza da cui siamo circondati è anche on-line e non per magia, ma perché qualcuno ha deciso di renderla disponibile via Web (e disponibile non significa “gratis” perché non è vero che tutte le informazioni del web sono gratuite… ma questo è un altro MITO ;-)).

Bisogna inoltre considerare l’esplosione delle pagine dinamiche (anche se tutti i motori di ricerca hanno sviluppato crawler apposta per indicizzare più contenuti possibili sottraendoli così alla parte nascosta del Web) e che i motori di ricerca riescono a classificare solo una minima parte di tutti i dati accessibili (nessuno sa indicare una percentuale precisa ma mi stupirei molto se fosse più del 4 o 5%). Quindi potrebbe anche essere che il contenuto sia on-line, ma rimarrebbe lo stesso il problema perché non esiste una tecnica speciale per recuperare ciò che non viene indicizzato.

Ma anche senza scomodare il Web nascosto: poniamo come certo che il contenuto d’interesse sia stato indicizzato, si può davvero trovare quello che serve in pochissimo tempo (e senza fare fatica… altro MITO)?

Senza le keyword giuste no, potremmo anche cercare anche per una settimana intera ma non cambierebbe nulla.

La realtà è che ancora non possiamo sfruttare al meglio quello che abbiamo a disposizione.

C’è chi dice che sarebbe bello avere in Internet qualsiasi documento originale (come i libri di cui parlavamo all’inizio del post), ma sarebbe bello anche solo riuscire a sfruttare la miriade di informazioni secondarie che possono comunque fornirci un supporto utilissimo, soprattutto perché sono fatte per la maggior dalle persone secondo diverse competenze, punti di vista, sensibilità, ecc.

Nova100 tags: , , , , , , ,

21/12/07

Per la fatica della ricerca nel Web, sarebbe meglio arrabbiarsi

Il report “7 Out Of 10 Americans Experience Search Engine Fatigue” segnalato alla fine del post “Alla ricerca delle persone” è l’ennesima conferma di una situazione arcinota perché tutti, chi più chi meno, sappiamo che non è facile trovare nel Web le informazioni che ci servono.

Lo confermano anche le statistiche (nel caso uno non si fidasse della propria esperienza ;-)) e insieme con la crescita del tempo che passiamo on-line (Nielsen NetRatings) aumentano anche i nostri problemi: trascorriamo mediamente 8-10 ore per settimana a cercare informazioni perdendone 3,5 perché non arriviamo a nulla (IDC), se recuperiamo i dati spesso ci accorgiamo dopo un po’ che dobbiamo buttarne la metà perché è inutile (soprattutto quando si tratta di lavoro, CIO Today), siamo stanchi e frustrati e, se si pensa alle aziende, si calcola che addirittura si può arrivare a perdere il 10% del proprio tempo a causa di attività di ricerca infruttuose (Butler Group).

Nessuno si meraviglia più di dati come questi o di titoli ad effetto come quello del report.

Però, dovremmo almeno arrabbiarci e soprattutto smettere di essere così indulgenti con i motori di ricerca e con chi tenta di persuaderci che la colpa è soprattutto nostra (una frase come search engine fatigue potrebbe far sembrare che sono i motori di ricerca a fare fatica, mica noi…).

Anche se va detto che è vero che in alcuni casi sono le persone a fare degli errori, per esempio partendo da alcuni presupposti sbagliati o credendo a falsi miti tipicamente legati ad Internet, come ad esempio la certezza che on-line ci siano tutte le informazione o l’idea che i motori di ricerca classifichino tutto il materiale pubblicato in qualsiasi sito.

Non è vero, ma questa è un’altra storia anzi (sarà) un altro post ;-)

Nova100 tags: , , ,

02/11/07

Visual search, ma per piacere…

Mi è capitato sottocchio un articolo sull’integrazione di un motore di ricerca per immagini nel sito di una start-up che si occupa di creazione di disegni, fotografie, immagini (ad esempio utili per l’organizzazione di una presentazione. La notizia è uscita in TechCrunch all’inizio di settembre; il motore di ricerca si chiama Like.com e la start-up è RockYou.

In teoria, un motore di ricerca per immagini dovrebbe consentire di trovare quello che si cerca partendo da un immagine.
Per esempio se in Like.com si sceglie una scarpa sportiva marrone, scamosciata e senza lacci, in risposta si ottiene un elenco di tutte le scarpe simili a quella di partenza per colore, forma e modello.

Sicuramente è molto allettante l’idea di trovare quello che si vuole senza fare nemmeno lo sforzo di descriverlo ed è divertente immaginare un futuro in cui sarà possibile fare una ricerca partendo da una foto, naturalmente fatta col telefonino…  ma non si tratta di qualcosa che già esiste o che sia vicino ad essere possibile per un uso generalizzato.

Non è facile trovare qualcosa usando le parole, figuriamoci con le immagini :-)

Nova100 tags: , , ,

23/10/07

Ma allora Google ha davvero un lato oscuro?

Ho scelto per caso il titolo “Il lato oscuro di Google” quando ho scritto quel post in cui ho riportato la vicenda di quei ladri impacciati che, per scoprire come scassinare una cassaforte, hanno pensato bene di usare un motore di ricerca nel bel mezzo della rapina.

Poi mi è capitato fra le mani il libro “Luci e ombre di Google. Futuro e Passato dell’industria dei metadati.” in cui l’autore

(Ippolita, cioè “un gruppo di ricerca composto da hacker e agitatori sociali, un server e una comunità di “scriventi”, un crocevia per condividere strumenti e competenze tra i linguaggi del digitale e i linguaggi della scrittura”)

offre già nell’introduzione un’analisi dei principali elementi che hanno portato Google a diventare il motore di ricerca più usato e famoso del mondo E, guarda caso, il sito in cui i vari capitoli del libro sono disponibili on line si chiama proprio the dark side of Google.

I vari capitoli del libro sono già disponibili da tempo on-line nel wiki del sito di Ippolita “The Dark side of Google”.

Non ho ancora avuto il tempo di leggere il tutto, ma la coincidenza era simpatica ed è incoraggiante vedere che un libro viene contemporaneamente reso disponibile nel modo classico e anche sul web.

Nova100 tags: , ,

10/10/07

Spie come noi

Nell’immaginario collettivo i Servizi Segreti evocano perlopiù un mondo misterioso, dove la tecnologia è ai confini della realtà e tutti gli strumenti sono evoluti, lontanissimi da quelli a cui normalmente siamo abituati.
È perciò tutt’altro che immediato un parallelo fra le attività che noi svolgiamo ogni giorno nelle nostre aziende (ma anche nel tempo libero) e quelle che pensiamo siano più tipiche di una spia.

Forse, però, con l’Intelligence abbiamo in comune molto più di quello che immaginiamo, almeno stando all’ambito della gestione delle informazioni: oltre alla necessità di reperire i dati e gli indizi più giusti, c’è anche l’esigenza di condividere la conoscenza acquisita diffondendola nel modo migliore e più veloce possibile.

Non so se avete già sentito parlare di “A-Space”, un progetto di social networking promosso dall’Intelligence Community (Stati Uniti) con l’obiettivo di migliorare la qualità dell’intelligence e promuovere la condivisione delle informazioni.

La “A” sta per “Analisti” (cioè gli agenti segreti) e “Space” rappresenta la variante di uno dei siti più famosi e tipici del Web 2.0: MySpace.

Per A-Space è prevista la partecipazione ad Intellipedia (un insieme di 3 Wiki top-secret il cui nome è nato sulla falsariga di Wikipedia), i cui membri provengono da 16 diverse agenzie segrete. A poco più di un anno e mezzo dalla sua creazione, Intillepedia raccoglie più di 29.000 articoli con un media di 114 pezzi nuovi creati ogni giorno e oltre 4.800 modifiche a materiale già esistente.

È interessante e positivo se alcuni degli strumenti del Web 2.0 possono contribuire alla risoluzione dei problemi legati alla condivisione delle informazioni (anche a livello globale) utili all’Intelligence. Ma quello che ha fatto davvero notizia è stata l’associazione dell’Intelligence con siti come Facebook e MySpace, molto semplici e tipicamente giovanili:

“Logged In and Sharing Gossip, er, Intelligence”, New York Times

“Spies and teenagers normally have little in common but that is about to change as America’s intelligence agencies prepare to launch “A-Space”, an internal communications tool modelled on the popular social networking sites, Facebook and MySpace”, Financial Times

Il problema della difficoltà nella ricerca e poi nella gestione integrata delle informazioni causato dai limiti delle tecnologie è lo stesso per tutti: agenti e servizi segreti, aziende, persone.
Cambiano le esigenze, gli obiettivi, naturalmente anche i rischi e la complessità delle situazioni da affrontare. Cambiano di conseguenza anche la velocità e la concretezza con cui si tenta di dare una risposta al problema.

Penso che tornerò presto sull’argomento.

Nova100 tags: , , , , , , , , , ,

05/10/07

THESEUS e la nuova era di Internet: Web 2.0 + Semantics = Web 3.0

A proposito della forte presenza della parola semantica in THESEUS (v. descrizione nel sito e in alcuni articoli come questo) mi è stato chiesto in più occasioni un parere: ma si tratta proprio di semantica oppure è uno di quei casi d’uso/abuso per intendere una tecnologia un po’ meno rozza di quella a keyword?

Per giudicare, bisognerà attendere maggiori dettagli: ancora non sono state sviluppate le tecnologie alla ba