Marco Varone -

Prima pagina

15/07/08

La Semantica per il Semantic Web

Come ho già detto la tecnologia semantica non è il Semantic Web ma il Semantic Web non potrà mai esistere senza questa tecnologia.

Ci sono diversi casi di successo REALI legati all’implementazione in aziende di motori di ricerca semantici mentre (escludendo qualche esperimento) non si può dire altrettanto del Web semantico, dove  la questione rimane estremamente complessa.

La tecnologia semantica è l’unica che dà speranze di automatizzare l’idea di base del Semantic Web, cioè l’organizzazione concettuale delle informazioni on-line.

Per tutto quello che oggi è presente in rete non è ipotizzabile una sistemazione manuale:  è utopico pensare anche a un mondo di utenti che dopo che scrive pensa subito anche a far emergere le relazioni semantiche fra i concetti espressi, ad esempio usando le tag. Fra l’altro ogni utente userebbe le proprie etichette, come già accade, e questo porterebbe a taggare documenti affini in modo diverso, rendendo così difficile il recupero delle informazioni.

Con un sistema automatico basato sulla semantica sarà possibile sistematizzare i concetti di tutte le informazioni (entità, relazioni fra queste entità) garantendo un trattamento standard a tutti i contenuti.

Naturalmente non sarà possibile eliminare completamente l’attività manuale: innanzi tutto sarà necessario lavorare a monte ad una configurazione ragionata e intelligente (quindi umana) e, poi, verificare i risultati ottenuti con il sistema.

L’attività manuale potrà focalizzarsi solo e semplicemente sul controllo (ma in molti insistono sulla visione di un’attività automatica e manuale sempre integrate).

Probabilmente saranno diversi i casi in cui intervenire per mettere a punto le cose, ma intanto il grosso sarà fatto.

Inoltre, non sarà così complicato perfezionare il sistema perché si comporterà sempre allo stesso modo senza lasciarsi influenzare da fattori soggettivi (tipici delle persone :-)).

Nova100 tags: , , , , , ,

08/07/08

Quo vadis, Microsoft?

Dopo l’acquisto di Fast per l’enterprise search (ricerca in azienda) e il fallimento del tentativo  di acquisto di  Yahoo!, Microsoft ha appena annunciato un’altra acquisizione, sempre nel campo della ricerca ma questa volta per il mondo consumer: come qualcuno avrà letto, la “fortunata” è ora una piccola start-up americana di nome Powerset.

Evidentemente non è bastata la “fregatura” di Fast e così, dopo aver acquistato un’azienda con i bilanci più falsi di una banconota da 35 euro e il cui management è oggi sotto inchiesta penale in Norvegia (alla faccia della tanto decantata serietà e cristallina onestà dei popoli nordici… e poi dicono di noi italiani ;-)), Microsoft compie questa mossa di mercato come minimo poco comprensibile.

In questo caso non ci sono bilanci falsificati o problemi legati al management, soprattutto perché Powerset è un’azienda che ha zero vendite e da tempo non aveva neanche più un amministratore delegato in carica. Ma l’operazione, indipendentemente da dove la si guardi, sembra comunque uno significativo spreco di soldi e di tempo.

Si ha l’impressione che l’unica ragione per cui Microsoft compia queste operazioni sia una tremenda paura di Google: provando infatti quello che Powerset è riuscito a implementare spendendo 15 milioni di dollari (basta andare solo sul loro sito), si fa fatica a intravedere una ragione di acquisto. Il motore di ricerca semantico (o pseudo tale) realizzato da Powerset fornisce risultati che non si discostano da quanto ottenuto in passato con altri motori un po’ furbetti  o da quanto si può ottenere con poco sforzo mirato: fra l’altro Powerset non possiede nemmeno una tecnologia linguistica propria ma la prende in licenza da Xerox.

Se queste sono le armi con cui Microsoft vuole contrastare Google, allora Brin e Page possono dormire sonni tranquillissimi almeno per i prossimi 20 anni! Va però detto che il controvalore dell’offerta non è noto. Sono girate delle cifre ma… si sa, l’ufficiosità spesso è molto distante dalla realtà. Si può allora pensare che se Microsoft è riuscita a comprare il tutto a prezzi di saldo (Powerset era sul mercato da diversi mesi perché non aveva più soldi per continuare) allora ci può essere qualche logica: acquistare un po’ di tecnologia, assumere una cinquantina di persone che già lavorano da qualche anno nel campo della ricerca e muovere così un po’ il mercato della semantica che non era mai stato associato a Microsoft prima.

In ogni caso, non si tratta sicuramente di un buon inizio per la Microsoft post-Gates: c’è sicuramente bisogno di un concorrente per Google (così come ci sarebbe bisogno di un concorrente vero anche per Microsoft) ma sembra proprio che la stessa sindrome che in passato colpiva e accecava i concorrenti del gigante di Redmond stia colpendo adesso Ballmer e compagnia.

Nova100 tags: , , , , , , ,

02/07/08

Navigare prima di comprare

Qualche giorno fa è uscito un articolo in cui si dice che il metodo preferito per recuperare informazioni sui prodotti che si pensa di acquistare è l’uso dei motori di ricerca.

Si vede che si fa prima a navigare Internet piuttosto che andare nei negozi :-)

A parte le battute, che la gente prima di comprare s’informi su qualità e prezzi non è una novità, ma che lo faccia on-line sì, è una novità interessante soprattutto per chi vende.

La percentuale di chi rimane influenzato leggendo i pareri espressi nei vari siti è molto alta: 83%.
È impossibile per un’azienda sfuggire a un esame critico (praticamente giornaliero, incessante) sui prodotti e i servizi che offre.

Le voci negative corrono molto velocemente (abbiamo già parlato del monitoraggio della reputazione on-line come nuova esigenza aziendale, per non dire emergenza) ma per fortuna quelle positive hanno lo stesso passo.

Il fenomeno del tam-tam del Web 2.0 rappresenta infatti una grande opportunità (oltre che un rischio).

Le aziende chiedono strumenti in grado di tenere il passo perché è impossibile cavalcare a mano tutte le onde: bisognerebbe avere risorse dedicate probabilmente solo alla lettura delle fonti (ma anche in grado di compiere analisi o comunque di iniziare a organizzare/strutturare i dati in modo da renderli poi gestibili con gli strumenti automatici).

Tra i fornitori di tecnologia, invece, c’è molto fermento: l’ambito applicativo è estremamente interessante e promettente.

In questo contesto la semantica sta assumendo un ruolo di rilievo perché può esprimere appieno le proprie potenzialità. Il motivo è molto semplice: è l’unica tecnologia che non consente solo di rilevare di che cosa parlano gli utenti ma di COME ne parlano.

Perciò anche per un’azienda che sta pensando a un software per la Competitive/Marketing Intelligence vale la regola del... “navigare prima di comprare” :-)

Nova100 tags: , , , ,

29/05/08

Niente più temi in salsa Wikipedia, un software debella il copia-incolla: siamo sicuri?

Chi mi segue da parecchio tempo, forse ricorderà uno dei miei primi post in cui "stroncavo" gli articoli di divulgazione riguardanti l'intelligenza artificiale, i motori di ricerca evoluti e altre tecnologie simili.

Non ho poi ripreso molto l'argomento perché mi sono reso conto che è praticamente impossibile fare qualcosa di utile affinché questi articoli siano un po' meno folkloristici e un po' più affidabili scientificamente.

Non posso però evitare di commentare un pezzo uscito ieri in cui si descrive come risolto un problema che, nella realtà, ha una complessità tale da renderlo quasi impossibile da affrontare con successo.

Consideriamo anche solo un testo di 1.000 parole: eliminando quelle meno significative (articoli, preposizioni, congiunzioni, ausiliari...) resterebbero almeno 300 parole.

Per vedere se questo insieme di 300 parole è stato copiato, pensiamo di iniziare una ricerca in Internet. Chiunque può capire che ci troveremmo già di fronte a un problema, visto che nessun motore consente di  fare una ricerca con un numero così alto di parole.
Ma ammettiamo di voler procedere: potremmo creare dei sottogruppi di parole, 10- 20 parole al massimo, e iniziare poi a provare tutte le combinazioni possibili e immaginabili, creando via via nuovi, “N” sottoinsiemi di parole: non serve essere esperti in matematica per capire che si tratterebbe di una quantità abnorme di sottoinsiemi, impossibile da gestire.

In alternativa, si potrebbero scegliere solo i termini più significativi e usare questi come chiave di ricerca. Il controllo diventerebbe così un poco più affrontabile ma servirebbe l’intervento umano e questo farebbe cadere la tesi dichiarata nell’articolo.

Quindi, provando a continuare il ragionamento (senza cioè arrendersi dinanzi alla crescita esponenziale che si avrebbe andando avanti per le ricerche in sottogruppi) vediamo di capire che cosa succederebbe ipotizzando di riuscire a trovare dei testi on-line da cui forse potrebbe essere stato copiato il testo di partenza.
Ci troveremmo di fronte a un altro problema, molto complesso: dover scaricare tutti i documenti e analizzarli e poi pensare ad incrociarli per stabilire se il nostro testo è copiato o no.

Il professore di cui si parla nell’articolo molto probabilmente ha ideato qualche miglioramento agli approcci di ricerca e analisi esistenti, sicuramente avrà sviluppato un software potenzialmente utile per fare ricerche su Internet (di brani copiati) in modo più facile e rapido ma senza dubbio non ha messo a punto nulla di neanche lontanamente paragonabile a quanto descritto.

Si tratta di un’ennesima occasione persa per fare divulgazione di qualità su questi temi legati alla gestione delle informazioni, ma forse per uno studente abituato a usare più il copia&incolla della propria testa è un bel sollievo sapere che non esiste ancora una tecnologia in grado di capire così facilmente se un testo è copiato oppure no ;-)

Nova100 tags: ,

27/05/08

A caccia di informazioni

Qualche giorno fa un nostro cliente ci ha contattato per commissionarci un software per l’identificazione e la gestione delle informazioni relative ai suoi prodotti. In particolare, è interessato all’analisi delle notizie presenti nelle cosiddette fonti aperte, vale a dire le varie risorse informative liberamente accessibili (molte delle quali sono pubbliche e quindi alla portata di tutti, come ad esempio la stragrande maggioranza dei siti Internet) per sapere come si parla dei propri prodotti e come sfruttare questa conoscenza per migliorare la propria offerta.

In passato, abbiamo realizzato diversi progetti di questo tipo ed eravamo perciò tranquilli. Invece, ci siamo trovati di fronte ad un problema che ho già citato alcune volte in passato.

Pur trattandosi di un cliente importante (fatturato superiore al mezzo miliardo di Euro, quotato in Borsa, con prodotti e servizi usati da milioni di persone) non ci è stato possibile individuare informazioni di qualità che lo riguardassero.

Siamo partiti concentrandoci sul Web, cioè la fonte aperta per eccellenza, ma a parte brevi citazioni non esistono veri contenuti continui ed affidabili su cui implementare il servizio. Non si tratta di un’esperienza nuova ma anzi di un’ulteriore conferma che non è affatto vero che il Web contiene tutto ma sono comunque rimasto stupito perché non stiamo parlando di un’azienda di nicchia.

Divagazione…

Se il Web non contiene tutto, allora che cosa contiene?

Forse ve lo siete già chiesto e per la risposta bisogna considerare diversi aspetti. Limitandoci alla vicenda del cliente sopra, aggiungo qualche dettaglio e alcune considerazioni.

Per curiosità, abbiamo pensato di fare un paragone fra la nostra azienda cliente e un’azienda simile americana. Abbiamo così scoperto una differenza sostanziale: pur non essendoci per l’azienda americana ricchissimo materiale a disposizione (comunque la quantità è maggiore), esistono contenuti di qualità sufficienti per implementare una nostra soluzione in grado di garantire un valore aggiunto.

Fra le possibili considerazioni che si possono trarre, c’è l’arretratezza che persiste in Italia nell’uso di Internet. È vero che gli utenti sono cresciuti molto negli ultimi anni, ma forse non sono così tanti quelli che s’impegnano a far circolare osservazioni, spunti e idee nuove che non siano sempre e solo strettamente connesse ad aspetti tipici del consumismo.

Nova100 tags: , , ,

15/05/08

Semplicità ed efficienza: la tecnologia semantica nella vita di tutti i giorni. Un esempio

Un buon esempio di applicazione della tecnologia semantica ai problemi di tutti i giorni è l’assistenza tecnica per i prodotti di uso comune.

I telefonini rappresentano un caso di studio interessante: sono strumenti ampiamente diffusi, il cui uso è consolidato e quotidiano, ma spesso sono così complessi da non essere sfruttati che al 30-40%.

Un progetto su cui stiamo lavorando consente agli utenti che hanno acquistato una certa marca di telefonini di inviare via SMS una richiesta di aiuto. In pratica, il funzionamento è lo stesso di qualsiasi SMS: si digita quello che si vuole e si invia. Il messaggio non è destinato però a una persona ma a un numero di assistenza automatica che fa partire questo processo:

  • la domanda o la richiesta dell’utente, che può scrivere esattamente come se stesse comunicando con una persona, viene analizzata in automatico in modo che sia capito il significato del messaggio (con la semantica); 
  • una volta individuato il problema, sempre in automatico viene recuperata l’informazione giusta per risolverlo. Le informazioni pertinenti possono essere subito recuperate perché in precedenza è già stata elaborata la base di conoscenza: tutti i contenuti del manuale d’uso del telefonino vengono cioè indicizzati e categorizzati (sempre con la semantica) in modo che possano così esser poi ricercati e trovati; 
  • identificato il contenuto giusto, sempre via SMS parte in automatico la risposta per l’utente.

Tutto questo nel giro di qualche secondo dal primo SMS: un’applicazione concreta della tecnologia semantica che non richiede nessun apprendimento da parte dell’utente e che è sempre a disposizione in modo semplice e naturale.

Nova100 tags: , , , ,

08/05/08

MITI e REALTÀ: i 2 principali vantaggi nella ricerca con un motore semantico

Un motore di ricerca semantico consente (anche) di effettuare delle ricerche puntuali esprimendo delle domande nello stesso modo con cui si chiederebbe un’informazione ad una persona (anziché usare la solita sequenza di keyword).

In gergo tecnico si parla di ricerche in linguaggio naturale* che non significa altro che esprimersi così come siamo abituati a fare quando parliamo e comunichiamo fra noi.

Inoltre, grazie alla rete dei significati delle parole che rende possibile una corretta identificazione del senso del discorso (attraverso l’individuazione del giusto significato dei termini e delle frasi in base al contesto), il motore di ricerca semantico offre un grosso  vantaggio: estendere la capacità di restituire tutti i contenuti attinenti alla domanda di partenza.

Più la domanda è precisa e completa, più i benefici che si possono ottenere con la semantica aumentano (come ho già detto più volte, la semantica non può fare grandi cose per ricerche tipo “Jovanotti” mentre è molto potente quando si tratta di scovare risposte per domande molto precise).

Se pensiamo all’esempio della manualistica per auto di cui abbiamo parlato, per una richiesta tipo “come si sostituisce il fanalino posteriore?” verranno estratti tutti (e solo) i contenuti attinenti, compresi quelli in cui l’argomento viene trattato attraverso parole diverse da quelle presenti nella domanda di partenza:
non solo un contenuto tipo “istruzioni per cambiare il fanalino posteriore”
ma anche  “Sostituzione lampada dei fanali”.

Le parole sono diverse ma il significato è sempre lo stesso.

* Ho notato che per i non addetti ai lavori non è così facile capire subito il significato di “linguaggio naturale”. L’’espressione (che evidentemente non è cosi naturale ;-)) si è diffusa per indicare il nostro linguaggio, le cui regole evolvono con l’uso, in opposizione ai linguaggi artificiali, le cui regole invece sono definite a priori come i linguaggi di programmazione dei computer. Per Natural Language Processing (NLP), ‘gestione del linguaggio naturale’, si intende infatti un sistema in grado di elaborare la lingua degli esseri umani.

Nova100 tags: , , , ,

22/04/08

MITI e REALTÀ: i 5 passi nello sviluppo di un motore di ricerca semantico aziendale

I primi due passi necessari per implementare in azienda un motore di ricerca semantico (tipicamente fruibile via intranet) si svolgono in parallelo. Consistono nella valutazione del tipo di conoscenza da gestire e nella valutazione del modo secondo cui questa conoscenza verrà ricercata.

Per fare esempi concreti, possiamo prendere in considerazione due esigenze molto diverse:

  • rendere recuperabili le informazioni all'interno di un manuale d’uso, ad esempio di un'auto;
  • rendere fruibili le informazioni nel sito di una televisione (pur essendo ricercabili sul Web, sono comunque contenuti aziendali).

Quasi sempre le ricerche sulla manualistica saranno puntuali, molto precise (“come faccio a sostituire la lampadina del fanale posteriore?”) mentre quelle nella TV saranno in maggioranza generiche, probabilmente incentrate su nomi di personaggi, programmi o macro-argomenti (“Flavio Insinna”, “Matrix”, ecc. per cui anche una ricerca a keyword spesso può dare buoni risultati).

Il secondo passo consiste nell’analisi approfondita della conoscenza da gestire.

Con una tecnologia semantica, i concetti e le espressioni non noti possono essere facilmente individuati e inseriti all'interno della conoscenza del sistema.

Una parte di questo lavoro può essere fatta direttamente da chi implementa il motore di ricerca ma normalmente è sempre necessaria la collaborazione fra l’azienda-cliente e il fornitore: solo così, infatti, si possono fornire al sistema tutti gli elementi che servono per continuare a garantire un’analisi dei contenuti corretta ed efficiente.

Il terzo passo è la messa a punto del motore di ricerca. Consiste nel fare ricerche, cioè in pratica nel provare il motore e individuare rapidamente eventuali punti deboli che richiedono un intervento specifico.

Le ambiguità di significato delle parole, la specificità dei contenuti, l’uso di metafore non così comuni, ecc. possono creare dei problemi, per fortuna quasi sempre risolvibili in modo soddisfacente. Infatti, una delle prerogative più interessanti della tecnologia semantica è che la rete dei significati può essere arricchita di nuovi contenuti e di conseguenza possono aumentare anche i vari possibili legami fra le parole: con una piccola quantità di lavoro manuale (lasciando da parte il sogno di fare sempre e tutto in automatico), il motore può essere istruito in modo che “comprenda” bene e garantisca sempre un alto livello di precisione, correttezza e attendibilità.

Infine, c’è il rilascio all’azienda di una versione beta, cioè una versione di prova su cui si può iniziare a lavorare. Dopo alcuni giorni o settimane di test, i dati raccolti attraverso l’osservazione delle ricerche sottoposte al motore vengono analizzati in modo che si possano sistemare le ultime cose strettamente legate all'uso vero del motore visto che, piuttosto spesso, nell'utilizzo reale compaiono aspetti non ipotizzati in fase di analisi e primo test.

Nova100 tags: , , , ,

17/04/08

Cum grano salis, anche nel Web

Non c’è dubbio che per chi lavora con la conoscenza (knowledge worker, per usare un termine di moda) il Web sia una fonte informativa molto interessante, spesso irrinunciabile.
Se, ad esempio, pensiamo al marketing  vedremo che, a differenza di quello che accade con i tradizionali sistemi per le ricerche di mercato (questionari, dati di vendita su cui basare proiezioni, ecc.), il Web si basa sulla partecipazione delle persone: oggi si frequentano siti, soprattutto blog e social network, anche per confrontarsi e discutere spontaneamente di prodotti, aziende, persone, ecc.

Non per questo, però, il Web va sempre considerato come una fonte più completa o migliore delle altre. In diversi casi, infatti, per estrarre conoscenza significativa e di valore è fondamentale selezionare le fonti e applicare la giusta metodologia:  analizzare un sacco di siti (blog, forum, social network... ) sperando che una quantità enorme possa in qualche modo portare alla qualità è un vicolo cieco (ma ciò nonostante, molti addetti ai lavori seguono proprio questa strada).

Le elezioni politiche appena svolte sono una buona dimostrazione di quello che può accadare nel Web.

Qualche giorno prima delle elezioni, ho fatto un esperimento usando uno dei nostri software per l’analisi delle informazioni non strutturate.
(Naturalmente non si tratta di una prova scientificamente inattaccabile, ma di un modo concreto per dimostrare che non bisogna pensare al Web come a una fonte di informazioni assoluta e universale.)

Ho selezionato alcune migliaia di blog e forum fra quelli più dinamici (cioè dove gli utenti scrivono e commentano di più) dedicati a discussioni politiche (ma anche ad altri argomenti assortiti) e ho estratto in automatico le indicazioni relative al gradimento espresso nei confronti dei due principali schieramenti (mi sono concentrato solo sui due gruppi di Berlusconi e Veltroni per semplicità).

Ho così scoperto una significativa maggioranza di commenti, confronti e indicazioni a favore di Veltroni. Il dato, se considerato in senso assoluto e in maniera acritica, avrebbe fatto pensare a un successo per il centro sinistra (o, comunque, ad un ottimo risultato) mentre le cose , come tutti sappiamo, sono andate diversamente e il centrodestra ha stravinto.

Quello che occorre fare è prima di tutto capire quanto il Web è rappresentativo per la conoscenza che si vuole trattare (e come ho già scritto recentemente ci sono molti contesti in cui il Web è una fonte perfetta e fondamentale per comprendere quello che sta succedendo).

Una volta stabilito questo, bisogna scegliere con attenzione le fonti da monitorare in modo da assicurare un buon bilanciamento e una buona copertura alla conoscenza cui si è interessati: fatto questo, i risultati sono assicurati (e spesso sorprendenti anche per gli scettici :-).

Nova100 tags: , , , , , , , , , , ,

27/03/08

Semantica e pubblicità

Uno dei temi caldi di Internet è lo sfruttamento da parte dei grandi nomi della rete (Yahoo!, MySpace, Aol,  Google, Facebook, Microsoft) delle ricerche che facciamo on-line e dei siti che visitiamo per raccogliere più informazioni possibili sui nostri comportamenti e sulle nostre preferenze. L’obiettivo è tracciare dei profili-utente a cui offrire pubblicità mirata.

Il dibattito sulla liceità dell’operazione è aperto (perché se nessuno ci dice che ogni nostra mossa nel Web è osservata, magari registrata e studiata, allora non va bene) ma non entro nel merito e parlo invece della semantica per la pubblicità targettizzata (contextual advertising): mostrare messaggi promozionali inerenti al contenuto delle pagine web.

Le soluzioni attualmente usate si basano sulla tecnologia a keyword e ciò determina un risultato molto variabile (spesso scadente) perché le corrispondenze fra inserzioni e contenuti sono troppo approssimative.

Facciamo un esempio, prendendo un caso un po’ estremo ma utile per chiarirci le idee.

Può succedere che una notizia riguardante un disastro aereo sia abbinata ad annunci di promozioni su voli e viaggi, solo perché il sistema che deve scegliere il messaggio promozionale ha riconosciuto le parole “aereo, passeggeri, volo”: messaggio pubblicitario e contenuti della pagina contengono le stesse sequenze di caratteri (che per il sistema sono prive di senso) ma certamente pochi utenti saranno spinti dal contenuto della notizia a clickare quell’annuncio…

La semantica aiuta a risolvere il problema perché si focalizza sul significato delle parole e sulla struttura delle frasi, assicurando una qualità e pertinenza dei risultati decisamente superiori.

Se fosse utilizzata poi anche nel processo di determinazione di quei profili-utenti di cui abbiamo parlato sopra, offrirebbe naturalmente un ulteriore valore aggiunto.

Nova100 tags: , , ,

18/03/08

MITI e REALTÀ: la semantica per la categorizzazione automatica

Come detto, il metodo di lavoro è l’elemento più importante nello sviluppo di un progetto di categorizzazione automatica di successo ma, subito dopo, a fare la differenza interviene la tecnologia.

Ciò che può rendere tutto economicamente realizzabile, infatti, è l’uso di una tecnologia sufficientemente evoluta.

In teoria, si potrebbero implementare progetti complessi anche usando tecniche molto elementari (come ad esempio l’analisi incentrata sull’identificazione di keyword), ma la quantità di lavoro necessaria per arrivare a un buon grado di efficienza tenderebbe rapidamente all’infinito, con un aumento proporzionale anche dei costi: per ottenere il massimo da una tecnologia di base sono indispensabili persone estremamente esperte e capaci, in altre parole… molto rare e molto costose.

Con la comprensione del significato delle parole e delle frasi (la semantica), invece, la realizzazione del progetto diventa sostenibile perché si possono scrivere le regole di categorizzazione svincolandosi dai minuti dettagli che compongono i testi, lavorando in modo più astratto e generalizzato.

Un esempio può chiarire meglio questo punto.

Immaginiamo di voler analizzare tutte le mail che vengono inviate a un’azienda, ad esempio a una banca. Ci saranno diversi tipi di messaggi, ad esempio richieste di informazioni oppure lamentele per problemi di varia natura. Nei vari messaggi compariranno comunque gli stessi termini: conto corrente, acquisto titoli, libretto degli assegni, carta di credito, ecc.

Siccome non è la parola in sé che fa il senso ma l’ordine e l’insieme delle parole, è chiaro che non basta individuare delle keyword per capire dove si chiedono informazioni e dove invece ci si lamenta, ma occorre comprendere la struttura delle frasi.

Con la giusta tecnologia, il progetto può essere realizzato da persone moderatamente esperte (perciò non difficili da trovare) e in tempi accettabili (da qualche giorno a qualche mese al massimo).

Riassumendo, per un progetto di categorizzazione di successo non esistono formule (o automatismi ) magiche ma servono il giusto metodo e una tecnologia semantica di qualità.

Nova100 tags: , , , , , , , , ,

13/03/08

Il mercato è bello perché è vario

Anche se a spizzichi e bocconi, il mercato della gestione delle informazioni è in crescita e negli ultimi anni la domanda ha migliorato i risultati delle aziende che operano nel settore. La posizione di primo piano spetta al Nord America (nessuna sorpresa) ma le cose stanno andando abbastanza bene anche in Europa.

Le aziende hanno capito i vantaggi che si possono trarre da questo tipo di prodotti, il meccanismo finalmente si è innescato ed è aumentata anche la domanda nei confronti delle applicazioni più innovative.

In Italia, la realtà purtroppo resta contraddittoria: come spesso accade nel nostro Paese, fermento e interesse vanno a braccetto con molte resistenze e tanti bizantinismi.

Nel nostro settore, inoltre, non è facile riuscire a trasformare in risultati subito misurabili per le aziende le promesse legate alla gestione della conoscenza (e questo indipendentemente dal tipo di tecnologia). Chiunque può capire subito i vantaggi che derivano dall’acquisto di prodotti gestionali (escluso SAP :-) mentre l’opportunità di migliorare i processi legati alla gestione delle informazioni non è così chiara e, anzi, molto spesso non viene nemmeno considerata fra le priorità.

Quando un’azienda non compra qualcosa perché pensa di non averne bisogno oppure perché non ne capisce il valore, non c’è nulla di sbagliato (e questa più che una dinamica aziendale è piuttosto una “regola di vita”). Caso mai l’errore si fa quando si finisce con l’acquistare qualcosa non si sa bene perché.

L’importante è non pretendere la tecnologia perfetta perché non esiste: chi sostiene di avere la soluzione perfetta per ogni esigenza mente e, purtroppo, sono molti quelli che lo fanno nel nostro settore :-(

Quello che le aziende devono cercare è la tecnologia migliore che, molto spesso, coincide con la tecnologia semantica, sviluppata (anche) per oltrepassare i limiti tipici delle altre tecnologie:  è comunque sempre fondamentale partire dai problemi che si devono affrontare e scegliere in base a questi la tecnologia.

Nova100 tags: , , , ,

06/03/08

Il dinamismo statico del Web

È un luogo comune pensare al Web come al contenitore di informazione di massa più dinamico che esista. Sembra essere vero perché, ad esempio, rende disponibile un aggiornamento delle notizie di attualità praticamente in tempo reale: ci sono i siti che forniscono le news, i motori di ricerca indicizzano i contenuti e così “le cose più interessanti” finiscono ai vertici dei risultati ottenuti con le ricerche.

Ho evidenziato “le cose più interessanti” perché vorrei dedicare questo post a un aspetto abbastanza spiacevole di questo fenomeno, i cui risvolti sono spesso paradossali.

Pensiamo alla reputazione di un’azienda.

Anche solo a causa di un unico evento negativo, un’azienda affermata dopo anni di onesto lavoro può rischiare di compromettere la propria credibilità per una cosa apparentemente banale come una cattiva recensione su un blog.

Il meccanismo per cui in Internet un singolo commento negativo può raggiungere una risonanza tale da finire in cima ai risultati dei motori di ricerca può essere paragonato al tam-tam tipico delle leggende metropolitane.

Facciamo un esempio. Tanti anni fa, si diceva che la Coca-Cola fosse una sostanza altamente corrosiva, utile per pulire un bullone dalla ruggine ma anche capace di bucare una bistecca o di sciogliere in pochi giorni di ammollo un topo intero…

La storia girava nelle scuole, nei giardini pubblici, nei negozi e per telefono. Le maestre la dicevano alle altre insegnanti e alle mamme, le mamme ai papà, i papà ai colleghi e alle mogli, le mogli alle colleghe, alle amiche, ai nonni, ai mariti… e via così, secondo lo schema classico di una qualsiasi leggenda metropolitana.

Il meccanismo in Internet è lo stesso, cambia solo la via di trasmissione che in questo caso si definisce “link-building”: per prima cosa qualcuno pubblica un testo negativo su un’azienda, altri lo leggono, commentano e, contemporaneamente, iniziano a linkare la pagina sui propri blog, nei gruppi di discussione oppure fanno partire un mail per un amico o per più destinatari insieme... e il risultato finale è che a un certo punto la notizia è ai primi posti dei risultati di ricerca.

Non ricordo precisamente quali furono le mosse della Coca-Cola in merito (io non potei provare direttamente la verità di questa cosa perché non si beveva Coca-Cola a casa nostra ;-)), ma tornando ai giorni nostri e al Web, naturalmente non è così facile risolvere il problema, la cui portata può raggiungere livelli mondiali.

I contenuti peggiori (per un’azienda) rischiano di rimanere a lungo in primo piano rispetto anche a contenuti molto più recenti. Per scalzarli in pratica non basta affidarsi all’idea dell’apparente dinamismo del Web, ma occorre inscenare un link-building controffensivo e quindi avviare una propaganda altrettanto serrata e ben ragionata.

Per questo scopo esistono già diversi servizi, anche molto mirati oppure più genericamente proposti da chi offre consulenza per l’ottimizzazione delle pagine web nei motori di ricerca (SEO).

Ma c’è chi inizia anche a considerare il problema da un altro punto di vista, quello della prevenzione. Tra le attività legate alla Competitive Intelligence (e Marketing Intelligence), infatti, si sta dedicando tantissima attenzione allo sviluppo della capacità aziendale di cogliere per tempo i segnali di sotto-traccia con l’obiettivo di arrivare ai commenti negativi quando ancora sono in forma debole e, dunque, prima che inizi l’inarrestabile tam-tam del link-building.

In quest’ambito i riflettori sono puntanti sulla semantica con un’insistenza ancora maggiore rispetto al livello comunque alto: è chiaro che per un’azienda non ha senso pensare di usare le comuni tecnologie. Le ricerche a keyword a cui siamo abituati non sarebbero di aiuto per almeno un paio di motivi:

  • non serve a molto individuare le fonti in cui un determinato prodotto (la keyword) è citato senza sapere perché. Bisogna invece arrivare subito a capire in che termini si parla di quel prodotto: negativi o positivi?

Con la tecnologia semantica si punta alla comprensione automatica del senso del discorso e non alla rilevazione di una semplice sequenza di caratteri.

  • per un’azienda che è presente sul mercato con diversi prodotti bisognerebbe attivare un monitoraggio a keyword per ciascuno di questi prodotti. Quindi, bisognerebbe investire tempo e risorse nel controllo di più risultati, comunque inutili se basati su una ricerca di questo tipo.

Nella rete dei significati delle parole (e la rete semantica è il fulcro della tecnologia semantica) vengono espressi anche i legami tra queste parole.

Un esempio pratico è il seguente: a un’azienda come “Barilla” può essere associato il brand “Mulino Bianco” e, ancora più in dettaglio, tutti i prodotti della linea biscotti oppure gli snack, ecc. In termini di Marketing Intelligence si può così ottenere il vantaggio di arrivare a coprire l’intera offerta di un’azienda attraverso un’unica ricerca in cui è contemplata ad esempio solo la parola/concetto “Barilla”. È il sistema che autonomamente estenderà l’analisi ai contenuti dove saranno presenti Barilla ma anche “Nastrine, Baiocchi, Gran Cereale”…

Nova100 tags: , , , , , , ,

28/02/08

Festival di Sanremo e linguistica (perché Sanremo è Sanremo)

Sicuramente vi domanderete cosa c'entra la semantica (nello specifico più la linguistica) con Sanremo…

Il fiasco dell'attuale edizione del Festival mi ha fatto tornare in mente che esattamente 10 anni fa facemmo un'analisi dei testi delle canzoni per il Dopofestival (condotto guarda caso proprio da Chiambretti) utilizzando un Cogito ancora agli inizi della sua futura carriera :-) per trovare le parole più comuni, le somiglianze dei testi con canzoni famose e altre cose ancora.

Come spesso capita in questi eventi, durante il Dopofestival furono utilizzati solo pochissimi dei dati estratti con quest'analisi (e nemmeno quelli più interessanti ma solo qualche nota di colore) e la cosa ci fece piuttosto arrabbiare perché ci avevamo lavorato un sacco  in cambio solo di una citazione pubblica che non fu mai fatta...

Ricordando questo episodio (e per dimostrare che la linguistica può trovare applicazione negli scenari più impensabili... ), ho speso oggi cinque minuti per vedere cosa è cambiato in questi 10 anni: ho analizzato i testi del 1998 e quelli del 2008 con i nostri strumenti e ho scoperto alcune cose divertenti.

Nel 1998, i testi erano 28 e ruotavano attorno a:

- amore: di gran lunga la parola più utilizzata (nessuno si stupirà della cosa), compare 53 volte in 16 testi

- io: 18 volte in 9 testi

- occhi: 14 volte in 10 testi

- luce: 14 volte in 6 testi

- cuore: solo 12 volte in 8 testi

- i verbi che reggevano questi testi erano dire (44 volte in 9 testi), sentire (30 volte in 14 testi), sapere (27 volte in 11 canzoni), cercare (22 volte in 9 testi) e pensare (22 volte in 12 canzoni).

Appurato questo, che cosa è cambiato nel 2008?

Sicuramente il numero di canzoni (che sono 34) e poi:

- amore: nessuna sorpresa, è ancora la parola più utilizzata, compare 49 volte in 20 testi

- io: 26 volte in 9 testi

- occhi: sono un po' meno popolari (in proporzione), 16 volte in 8 testi

- luce: solo 4 volte in 4 testi. È  il cambiamento più forte, forse indica che stiamo vivendo in un periodo oscuro per l'Italia? Oppure che ci aspettano tempi bui nel prossimo futuro?

- cuore: ben 33 volte in 15 testi. È incredibile come sia ancora più frequente di dieci anni fa nonostante tutto quello che dovrebbe essere cambiato nel frattempo...

- vita: compare 27 volte in 10 testi (forse anche questo un segno dei tempi?)

- mondo: 30 volte in 12 canzoni (chiara indicazione della sempre crescente rilevanza della globalizzazione anche in contesti nazionalpopolari)

- i verbi: dire imperversa (55 volte in 20 testi), sentire tiene la posizione (41 volte in 12 testi), sapere anche (42 volte in 18 canzoni), cercare finisce in fondo (solo 9 volte in 7 testi: evidentemente in dieci anni molte cose sono state trovate e non occorre più cercare) e anche pensare non più così importante (17 volte in 8 canzoni: vedendo come va l'Italia, non mi stupisce che si pensi ancora meno del 1998...). In compenso, si "viaggia" molto di più: andare compare 35 volte in 20 canzoni (anche qui la globalizzazione?), si guardano le cose in modo diverso (vedere c'è 25 volte in 15 testi) e c'è voglia di cambiare (23 volte in 9 canzoni).

Volendo, si potrebbero fare facilmente mille altre analisi (gli aggettivi più comuni, i concetti più comuni da soli e in relazione, il sentimento dei testi...) ma non avevo altro tempo da dedicarci.

Direi però che quanto trovato spiega perché quest'anno il Festival va male: se in 10 anni è cambiato così poco, non ci si può stupire che la gente guardi qualcos'altro :-)

Nova100 tags: ,

14/02/08

MITI e REALTÀ: categorizzazione automatica - niente magia, solo un segreto

Il segreto di un progetto di categorizzazione automatica di successo non è tanto nella scelta di una tecnologia sufficientemente poten