Marco Varone -

« febbraio 2008 | Principale | aprile 2008 »

marzo 2008

27/03/08

Semantica e pubblicità

Uno dei temi caldi di Internet è lo sfruttamento da parte dei grandi nomi della rete (Yahoo!, MySpace, Aol,  Google, Facebook, Microsoft) delle ricerche che facciamo on-line e dei siti che visitiamo per raccogliere più informazioni possibili sui nostri comportamenti e sulle nostre preferenze. L’obiettivo è tracciare dei profili-utente a cui offrire pubblicità mirata.

Il dibattito sulla liceità dell’operazione è aperto (perché se nessuno ci dice che ogni nostra mossa nel Web è osservata, magari registrata e studiata, allora non va bene) ma non entro nel merito e parlo invece della semantica per la pubblicità targettizzata (contextual advertising): mostrare messaggi promozionali inerenti al contenuto delle pagine web.

Le soluzioni attualmente usate si basano sulla tecnologia a keyword e ciò determina un risultato molto variabile (spesso scadente) perché le corrispondenze fra inserzioni e contenuti sono troppo approssimative.

Facciamo un esempio, prendendo un caso un po’ estremo ma utile per chiarirci le idee.

Può succedere che una notizia riguardante un disastro aereo sia abbinata ad annunci di promozioni su voli e viaggi, solo perché il sistema che deve scegliere il messaggio promozionale ha riconosciuto le parole “aereo, passeggeri, volo”: messaggio pubblicitario e contenuti della pagina contengono le stesse sequenze di caratteri (che per il sistema sono prive di senso) ma certamente pochi utenti saranno spinti dal contenuto della notizia a clickare quell’annuncio…

La semantica aiuta a risolvere il problema perché si focalizza sul significato delle parole e sulla struttura delle frasi, assicurando una qualità e pertinenza dei risultati decisamente superiori.

Se fosse utilizzata poi anche nel processo di determinazione di quei profili-utenti di cui abbiamo parlato sopra, offrirebbe naturalmente un ulteriore valore aggiunto.

Nova100 tags: , , ,

20/03/08

MITI e REALTÀ: semantica e Semantic Web

La semantica è un tipo di tecnologia e non è il Semantic Web o Web semantico.

Il falso mito che siano la stessa cosa è nato perché la semantica è la tecnologia più promettente per dare concretezza al sogno del Semantic Web: con la semantica, infatti, si sta passando dalla teoria del Semantic Web (2001) alla pratica, anche se sarebbe più corretto parlare di forme di sperimentazione e non di Semantic Web in assoluto (l’implementazione non sta avvenendo su larga scala, vera utopia, ma attraverso determinati tool o servizi/siti particolari).

Il Semantic Web è dunque UNA delle possibili applicazioni della tecnologia semantica. Riguarda sempre la gestione automatica delle informazioni (i contenuti on-line) di cui potrebbe sfruttare tutti e tre i processi fondamentali: ricerca, categorizzazione, estrazione.

La tecnologia semantica abilita sia l’identificazione e il processo di estrazione dei concetti presenti nei contenuti sia la categorizzazione per argomenti. Per concetti s’intende il significato espresso attraverso le frasi a partire da una corretta comprensione del senso di ciascuna parola. Ogni concetto estratto viene etichettato, sempre in automatico: non è l’utente che sceglie le tag (come capita adesso nella maggior parte dei casi sul Web) ma il sistema stesso.

Detta così, sembra una cosa facile, anzi per noi persone è davvero un’operazione banale ma per un computer è un traguardo complesso, impossibile da raggiungere senza la semantica.

Nova100 tags: , , , , , , , ,

18/03/08

MITI e REALTÀ: la semantica per la categorizzazione automatica

Come detto, il metodo di lavoro è l’elemento più importante nello sviluppo di un progetto di categorizzazione automatica di successo ma, subito dopo, a fare la differenza interviene la tecnologia.

Ciò che può rendere tutto economicamente realizzabile, infatti, è l’uso di una tecnologia sufficientemente evoluta.

In teoria, si potrebbero implementare progetti complessi anche usando tecniche molto elementari (come ad esempio l’analisi incentrata sull’identificazione di keyword), ma la quantità di lavoro necessaria per arrivare a un buon grado di efficienza tenderebbe rapidamente all’infinito, con un aumento proporzionale anche dei costi: per ottenere il massimo da una tecnologia di base sono indispensabili persone estremamente esperte e capaci, in altre parole… molto rare e molto costose.

Con la comprensione del significato delle parole e delle frasi (la semantica), invece, la realizzazione del progetto diventa sostenibile perché si possono scrivere le regole di categorizzazione svincolandosi dai minuti dettagli che compongono i testi, lavorando in modo più astratto e generalizzato.

Un esempio può chiarire meglio questo punto.

Immaginiamo di voler analizzare tutte le mail che vengono inviate a un’azienda, ad esempio a una banca. Ci saranno diversi tipi di messaggi, ad esempio richieste di informazioni oppure lamentele per problemi di varia natura. Nei vari messaggi compariranno comunque gli stessi termini: conto corrente, acquisto titoli, libretto degli assegni, carta di credito, ecc.

Siccome non è la parola in sé che fa il senso ma l’ordine e l’insieme delle parole, è chiaro che non basta individuare delle keyword per capire dove si chiedono informazioni e dove invece ci si lamenta, ma occorre comprendere la struttura delle frasi.

Con la giusta tecnologia, il progetto può essere realizzato da persone moderatamente esperte (perciò non difficili da trovare) e in tempi accettabili (da qualche giorno a qualche mese al massimo).

Riassumendo, per un progetto di categorizzazione di successo non esistono formule (o automatismi ) magiche ma servono il giusto metodo e una tecnologia semantica di qualità.

Nova100 tags: , , , , , , , , ,

13/03/08

Il mercato è bello perché è vario

Anche se a spizzichi e bocconi, il mercato della gestione delle informazioni è in crescita e negli ultimi anni la domanda ha migliorato i risultati delle aziende che operano nel settore. La posizione di primo piano spetta al Nord America (nessuna sorpresa) ma le cose stanno andando abbastanza bene anche in Europa.

Le aziende hanno capito i vantaggi che si possono trarre da questo tipo di prodotti, il meccanismo finalmente si è innescato ed è aumentata anche la domanda nei confronti delle applicazioni più innovative.

In Italia, la realtà purtroppo resta contraddittoria: come spesso accade nel nostro Paese, fermento e interesse vanno a braccetto con molte resistenze e tanti bizantinismi.

Nel nostro settore, inoltre, non è facile riuscire a trasformare in risultati subito misurabili per le aziende le promesse legate alla gestione della conoscenza (e questo indipendentemente dal tipo di tecnologia). Chiunque può capire subito i vantaggi che derivano dall’acquisto di prodotti gestionali (escluso SAP :-) mentre l’opportunità di migliorare i processi legati alla gestione delle informazioni non è così chiara e, anzi, molto spesso non viene nemmeno considerata fra le priorità.

Quando un’azienda non compra qualcosa perché pensa di non averne bisogno oppure perché non ne capisce il valore, non c’è nulla di sbagliato (e questa più che una dinamica aziendale è piuttosto una “regola di vita”). Caso mai l’errore si fa quando si finisce con l’acquistare qualcosa non si sa bene perché.

L’importante è non pretendere la tecnologia perfetta perché non esiste: chi sostiene di avere la soluzione perfetta per ogni esigenza mente e, purtroppo, sono molti quelli che lo fanno nel nostro settore :-(

Quello che le aziende devono cercare è la tecnologia migliore che, molto spesso, coincide con la tecnologia semantica, sviluppata (anche) per oltrepassare i limiti tipici delle altre tecnologie:  è comunque sempre fondamentale partire dai problemi che si devono affrontare e scegliere in base a questi la tecnologia.

Nova100 tags: , , , ,

06/03/08

Il dinamismo statico del Web

È un luogo comune pensare al Web come al contenitore di informazione di massa più dinamico che esista. Sembra essere vero perché, ad esempio, rende disponibile un aggiornamento delle notizie di attualità praticamente in tempo reale: ci sono i siti che forniscono le news, i motori di ricerca indicizzano i contenuti e così “le cose più interessanti” finiscono ai vertici dei risultati ottenuti con le ricerche.

Ho evidenziato “le cose più interessanti” perché vorrei dedicare questo post a un aspetto abbastanza spiacevole di questo fenomeno, i cui risvolti sono spesso paradossali.

Pensiamo alla reputazione di un’azienda.

Anche solo a causa di un unico evento negativo, un’azienda affermata dopo anni di onesto lavoro può rischiare di compromettere la propria credibilità per una cosa apparentemente banale come una cattiva recensione su un blog.

Il meccanismo per cui in Internet un singolo commento negativo può raggiungere una risonanza tale da finire in cima ai risultati dei motori di ricerca può essere paragonato al tam-tam tipico delle leggende metropolitane.

Facciamo un esempio. Tanti anni fa, si diceva che la Coca-Cola fosse una sostanza altamente corrosiva, utile per pulire un bullone dalla ruggine ma anche capace di bucare una bistecca o di sciogliere in pochi giorni di ammollo un topo intero…

La storia girava nelle scuole, nei giardini pubblici, nei negozi e per telefono. Le maestre la dicevano alle altre insegnanti e alle mamme, le mamme ai papà, i papà ai colleghi e alle mogli, le mogli alle colleghe, alle amiche, ai nonni, ai mariti… e via così, secondo lo schema classico di una qualsiasi leggenda metropolitana.

Il meccanismo in Internet è lo stesso, cambia solo la via di trasmissione che in questo caso si definisce “link-building”: per prima cosa qualcuno pubblica un testo negativo su un’azienda, altri lo leggono, commentano e, contemporaneamente, iniziano a linkare la pagina sui propri blog, nei gruppi di discussione oppure fanno partire un mail per un amico o per più destinatari insieme... e il risultato finale è che a un certo punto la notizia è ai primi posti dei risultati di ricerca.

Non ricordo precisamente quali furono le mosse della Coca-Cola in merito (io non potei provare direttamente la verità di questa cosa perché non si beveva Coca-Cola a casa nostra ;-)), ma tornando ai giorni nostri e al Web, naturalmente non è così facile risolvere il problema, la cui portata può raggiungere livelli mondiali.

I contenuti peggiori (per un’azienda) rischiano di rimanere a lungo in primo piano rispetto anche a contenuti molto più recenti. Per scalzarli in pratica non basta affidarsi all’idea dell’apparente dinamismo del Web, ma occorre inscenare un link-building controffensivo e quindi avviare una propaganda altrettanto serrata e ben ragionata.

Per questo scopo esistono già diversi servizi, anche molto mirati oppure più genericamente proposti da chi offre consulenza per l’ottimizzazione delle pagine web nei motori di ricerca (SEO).

Ma c’è chi inizia anche a considerare il problema da un altro punto di vista, quello della prevenzione. Tra le attività legate alla Competitive Intelligence (e Marketing Intelligence), infatti, si sta dedicando tantissima attenzione allo sviluppo della capacità aziendale di cogliere per tempo i segnali di sotto-traccia con l’obiettivo di arrivare ai commenti negativi quando ancora sono in forma debole e, dunque, prima che inizi l’inarrestabile tam-tam del link-building.

In quest’ambito i riflettori sono puntanti sulla semantica con un’insistenza ancora maggiore rispetto al livello comunque alto: è chiaro che per un’azienda non ha senso pensare di usare le comuni tecnologie. Le ricerche a keyword a cui siamo abituati non sarebbero di aiuto per almeno un paio di motivi:

  • non serve a molto individuare le fonti in cui un determinato prodotto (la keyword) è citato senza sapere perché. Bisogna invece arrivare subito a capire in che termini si parla di quel prodotto: negativi o positivi?

Con la tecnologia semantica si punta alla comprensione automatica del senso del discorso e non alla rilevazione di una semplice sequenza di caratteri.

  • per un’azienda che è presente sul mercato con diversi prodotti bisognerebbe attivare un monitoraggio a keyword per ciascuno di questi prodotti. Quindi, bisognerebbe investire tempo e risorse nel controllo di più risultati, comunque inutili se basati su una ricerca di questo tipo.

Nella rete dei significati delle parole (e la rete semantica è il fulcro della tecnologia semantica) vengono espressi anche i legami tra queste parole.

Un esempio pratico è il seguente: a un’azienda come “Barilla” può essere associato il brand “Mulino Bianco” e, ancora più in dettaglio, tutti i prodotti della linea biscotti oppure gli snack, ecc. In termini di Marketing Intelligence si può così ottenere il vantaggio di arrivare a coprire l’intera offerta di un’azienda attraverso un’unica ricerca in cui è contemplata ad esempio solo la parola/concetto “Barilla”. È il sistema che autonomamente estenderà l’analisi ai contenuti dove saranno presenti Barilla ma anche “Nastrine, Baiocchi, Gran Cereale”…

Nova100 tags: , , , , , , ,

Nova100