Marco Varone -

Tecnologia

08/07/08

Quo vadis, Microsoft?

Dopo l’acquisto di Fast per l’enterprise search (ricerca in azienda) e il fallimento del tentativo  di acquisto di  Yahoo!, Microsoft ha appena annunciato un’altra acquisizione, sempre nel campo della ricerca ma questa volta per il mondo consumer: come qualcuno avrà letto, la “fortunata” è ora una piccola start-up americana di nome Powerset.

Evidentemente non è bastata la “fregatura” di Fast e così, dopo aver acquistato un’azienda con i bilanci più falsi di una banconota da 35 euro e il cui management è oggi sotto inchiesta penale in Norvegia (alla faccia della tanto decantata serietà e cristallina onestà dei popoli nordici… e poi dicono di noi italiani ;-)), Microsoft compie questa mossa di mercato come minimo poco comprensibile.

In questo caso non ci sono bilanci falsificati o problemi legati al management, soprattutto perché Powerset è un’azienda che ha zero vendite e da tempo non aveva neanche più un amministratore delegato in carica. Ma l’operazione, indipendentemente da dove la si guardi, sembra comunque uno significativo spreco di soldi e di tempo.

Si ha l’impressione che l’unica ragione per cui Microsoft compia queste operazioni sia una tremenda paura di Google: provando infatti quello che Powerset è riuscito a implementare spendendo 15 milioni di dollari (basta andare solo sul loro sito), si fa fatica a intravedere una ragione di acquisto. Il motore di ricerca semantico (o pseudo tale) realizzato da Powerset fornisce risultati che non si discostano da quanto ottenuto in passato con altri motori un po’ furbetti  o da quanto si può ottenere con poco sforzo mirato: fra l’altro Powerset non possiede nemmeno una tecnologia linguistica propria ma la prende in licenza da Xerox.

Se queste sono le armi con cui Microsoft vuole contrastare Google, allora Brin e Page possono dormire sonni tranquillissimi almeno per i prossimi 20 anni! Va però detto che il controvalore dell’offerta non è noto. Sono girate delle cifre ma… si sa, l’ufficiosità spesso è molto distante dalla realtà. Si può allora pensare che se Microsoft è riuscita a comprare il tutto a prezzi di saldo (Powerset era sul mercato da diversi mesi perché non aveva più soldi per continuare) allora ci può essere qualche logica: acquistare un po’ di tecnologia, assumere una cinquantina di persone che già lavorano da qualche anno nel campo della ricerca e muovere così un po’ il mercato della semantica che non era mai stato associato a Microsoft prima.

In ogni caso, non si tratta sicuramente di un buon inizio per la Microsoft post-Gates: c’è sicuramente bisogno di un concorrente per Google (così come ci sarebbe bisogno di un concorrente vero anche per Microsoft) ma sembra proprio che la stessa sindrome che in passato colpiva e accecava i concorrenti del gigante di Redmond stia colpendo adesso Ballmer e compagnia.

Nova100 tags: , , , , , , ,

27/05/08

A caccia di informazioni

Qualche giorno fa un nostro cliente ci ha contattato per commissionarci un software per l’identificazione e la gestione delle informazioni relative ai suoi prodotti. In particolare, è interessato all’analisi delle notizie presenti nelle cosiddette fonti aperte, vale a dire le varie risorse informative liberamente accessibili (molte delle quali sono pubbliche e quindi alla portata di tutti, come ad esempio la stragrande maggioranza dei siti Internet) per sapere come si parla dei propri prodotti e come sfruttare questa conoscenza per migliorare la propria offerta.

In passato, abbiamo realizzato diversi progetti di questo tipo ed eravamo perciò tranquilli. Invece, ci siamo trovati di fronte ad un problema che ho già citato alcune volte in passato.

Pur trattandosi di un cliente importante (fatturato superiore al mezzo miliardo di Euro, quotato in Borsa, con prodotti e servizi usati da milioni di persone) non ci è stato possibile individuare informazioni di qualità che lo riguardassero.

Siamo partiti concentrandoci sul Web, cioè la fonte aperta per eccellenza, ma a parte brevi citazioni non esistono veri contenuti continui ed affidabili su cui implementare il servizio. Non si tratta di un’esperienza nuova ma anzi di un’ulteriore conferma che non è affatto vero che il Web contiene tutto ma sono comunque rimasto stupito perché non stiamo parlando di un’azienda di nicchia.

Divagazione…

Se il Web non contiene tutto, allora che cosa contiene?

Forse ve lo siete già chiesto e per la risposta bisogna considerare diversi aspetti. Limitandoci alla vicenda del cliente sopra, aggiungo qualche dettaglio e alcune considerazioni.

Per curiosità, abbiamo pensato di fare un paragone fra la nostra azienda cliente e un’azienda simile americana. Abbiamo così scoperto una differenza sostanziale: pur non essendoci per l’azienda americana ricchissimo materiale a disposizione (comunque la quantità è maggiore), esistono contenuti di qualità sufficienti per implementare una nostra soluzione in grado di garantire un valore aggiunto.

Fra le possibili considerazioni che si possono trarre, c’è l’arretratezza che persiste in Italia nell’uso di Internet. È vero che gli utenti sono cresciuti molto negli ultimi anni, ma forse non sono così tanti quelli che s’impegnano a far circolare osservazioni, spunti e idee nuove che non siano sempre e solo strettamente connesse ad aspetti tipici del consumismo.

Nova100 tags: , , ,

15/05/08

Semplicità ed efficienza: la tecnologia semantica nella vita di tutti i giorni. Un esempio

Un buon esempio di applicazione della tecnologia semantica ai problemi di tutti i giorni è l’assistenza tecnica per i prodotti di uso comune.

I telefonini rappresentano un caso di studio interessante: sono strumenti ampiamente diffusi, il cui uso è consolidato e quotidiano, ma spesso sono così complessi da non essere sfruttati che al 30-40%.

Un progetto su cui stiamo lavorando consente agli utenti che hanno acquistato una certa marca di telefonini di inviare via SMS una richiesta di aiuto. In pratica, il funzionamento è lo stesso di qualsiasi SMS: si digita quello che si vuole e si invia. Il messaggio non è destinato però a una persona ma a un numero di assistenza automatica che fa partire questo processo:

  • la domanda o la richiesta dell’utente, che può scrivere esattamente come se stesse comunicando con una persona, viene analizzata in automatico in modo che sia capito il significato del messaggio (con la semantica); 
  • una volta individuato il problema, sempre in automatico viene recuperata l’informazione giusta per risolverlo. Le informazioni pertinenti possono essere subito recuperate perché in precedenza è già stata elaborata la base di conoscenza: tutti i contenuti del manuale d’uso del telefonino vengono cioè indicizzati e categorizzati (sempre con la semantica) in modo che possano così esser poi ricercati e trovati; 
  • identificato il contenuto giusto, sempre via SMS parte in automatico la risposta per l’utente.

Tutto questo nel giro di qualche secondo dal primo SMS: un’applicazione concreta della tecnologia semantica che non richiede nessun apprendimento da parte dell’utente e che è sempre a disposizione in modo semplice e naturale.

Nova100 tags: , , , ,

17/04/08

Cum grano salis, anche nel Web

Non c’è dubbio che per chi lavora con la conoscenza (knowledge worker, per usare un termine di moda) il Web sia una fonte informativa molto interessante, spesso irrinunciabile.
Se, ad esempio, pensiamo al marketing  vedremo che, a differenza di quello che accade con i tradizionali sistemi per le ricerche di mercato (questionari, dati di vendita su cui basare proiezioni, ecc.), il Web si basa sulla partecipazione delle persone: oggi si frequentano siti, soprattutto blog e social network, anche per confrontarsi e discutere spontaneamente di prodotti, aziende, persone, ecc.

Non per questo, però, il Web va sempre considerato come una fonte più completa o migliore delle altre. In diversi casi, infatti, per estrarre conoscenza significativa e di valore è fondamentale selezionare le fonti e applicare la giusta metodologia:  analizzare un sacco di siti (blog, forum, social network... ) sperando che una quantità enorme possa in qualche modo portare alla qualità è un vicolo cieco (ma ciò nonostante, molti addetti ai lavori seguono proprio questa strada).

Le elezioni politiche appena svolte sono una buona dimostrazione di quello che può accadare nel Web.

Qualche giorno prima delle elezioni, ho fatto un esperimento usando uno dei nostri software per l’analisi delle informazioni non strutturate.
(Naturalmente non si tratta di una prova scientificamente inattaccabile, ma di un modo concreto per dimostrare che non bisogna pensare al Web come a una fonte di informazioni assoluta e universale.)

Ho selezionato alcune migliaia di blog e forum fra quelli più dinamici (cioè dove gli utenti scrivono e commentano di più) dedicati a discussioni politiche (ma anche ad altri argomenti assortiti) e ho estratto in automatico le indicazioni relative al gradimento espresso nei confronti dei due principali schieramenti (mi sono concentrato solo sui due gruppi di Berlusconi e Veltroni per semplicità).

Ho così scoperto una significativa maggioranza di commenti, confronti e indicazioni a favore di Veltroni. Il dato, se considerato in senso assoluto e in maniera acritica, avrebbe fatto pensare a un successo per il centro sinistra (o, comunque, ad un ottimo risultato) mentre le cose , come tutti sappiamo, sono andate diversamente e il centrodestra ha stravinto.

Quello che occorre fare è prima di tutto capire quanto il Web è rappresentativo per la conoscenza che si vuole trattare (e come ho già scritto recentemente ci sono molti contesti in cui il Web è una fonte perfetta e fondamentale per comprendere quello che sta succedendo).

Una volta stabilito questo, bisogna scegliere con attenzione le fonti da monitorare in modo da assicurare un buon bilanciamento e una buona copertura alla conoscenza cui si è interessati: fatto questo, i risultati sono assicurati (e spesso sorprendenti anche per gli scettici :-).

Nova100 tags: , , , , , , , , , , ,

18/03/08

MITI e REALTÀ: la semantica per la categorizzazione automatica

Come detto, il metodo di lavoro è l’elemento più importante nello sviluppo di un progetto di categorizzazione automatica di successo ma, subito dopo, a fare la differenza interviene la tecnologia.

Ciò che può rendere tutto economicamente realizzabile, infatti, è l’uso di una tecnologia sufficientemente evoluta.

In teoria, si potrebbero implementare progetti complessi anche usando tecniche molto elementari (come ad esempio l’analisi incentrata sull’identificazione di keyword), ma la quantità di lavoro necessaria per arrivare a un buon grado di efficienza tenderebbe rapidamente all’infinito, con un aumento proporzionale anche dei costi: per ottenere il massimo da una tecnologia di base sono indispensabili persone estremamente esperte e capaci, in altre parole… molto rare e molto costose.

Con la comprensione del significato delle parole e delle frasi (la semantica), invece, la realizzazione del progetto diventa sostenibile perché si possono scrivere le regole di categorizzazione svincolandosi dai minuti dettagli che compongono i testi, lavorando in modo più astratto e generalizzato.

Un esempio può chiarire meglio questo punto.

Immaginiamo di voler analizzare tutte le mail che vengono inviate a un’azienda, ad esempio a una banca. Ci saranno diversi tipi di messaggi, ad esempio richieste di informazioni oppure lamentele per problemi di varia natura. Nei vari messaggi compariranno comunque gli stessi termini: conto corrente, acquisto titoli, libretto degli assegni, carta di credito, ecc.

Siccome non è la parola in sé che fa il senso ma l’ordine e l’insieme delle parole, è chiaro che non basta individuare delle keyword per capire dove si chiedono informazioni e dove invece ci si lamenta, ma occorre comprendere la struttura delle frasi.

Con la giusta tecnologia, il progetto può essere realizzato da persone moderatamente esperte (perciò non difficili da trovare) e in tempi accettabili (da qualche giorno a qualche mese al massimo).

Riassumendo, per un progetto di categorizzazione di successo non esistono formule (o automatismi ) magiche ma servono il giusto metodo e una tecnologia semantica di qualità.

Nova100 tags: , , , , , , , , ,

13/03/08

Il mercato è bello perché è vario

Anche se a spizzichi e bocconi, il mercato della gestione delle informazioni è in crescita e negli ultimi anni la domanda ha migliorato i risultati delle aziende che operano nel settore. La posizione di primo piano spetta al Nord America (nessuna sorpresa) ma le cose stanno andando abbastanza bene anche in Europa.

Le aziende hanno capito i vantaggi che si possono trarre da questo tipo di prodotti, il meccanismo finalmente si è innescato ed è aumentata anche la domanda nei confronti delle applicazioni più innovative.

In Italia, la realtà purtroppo resta contraddittoria: come spesso accade nel nostro Paese, fermento e interesse vanno a braccetto con molte resistenze e tanti bizantinismi.

Nel nostro settore, inoltre, non è facile riuscire a trasformare in risultati subito misurabili per le aziende le promesse legate alla gestione della conoscenza (e questo indipendentemente dal tipo di tecnologia). Chiunque può capire subito i vantaggi che derivano dall’acquisto di prodotti gestionali (escluso SAP :-) mentre l’opportunità di migliorare i processi legati alla gestione delle informazioni non è così chiara e, anzi, molto spesso non viene nemmeno considerata fra le priorità.

Quando un’azienda non compra qualcosa perché pensa di non averne bisogno oppure perché non ne capisce il valore, non c’è nulla di sbagliato (e questa più che una dinamica aziendale è piuttosto una “regola di vita”). Caso mai l’errore si fa quando si finisce con l’acquistare qualcosa non si sa bene perché.

L’importante è non pretendere la tecnologia perfetta perché non esiste: chi sostiene di avere la soluzione perfetta per ogni esigenza mente e, purtroppo, sono molti quelli che lo fanno nel nostro settore :-(

Quello che le aziende devono cercare è la tecnologia migliore che, molto spesso, coincide con la tecnologia semantica, sviluppata (anche) per oltrepassare i limiti tipici delle altre tecnologie:  è comunque sempre fondamentale partire dai problemi che si devono affrontare e scegliere in base a questi la tecnologia.

Nova100 tags: , , , ,

14/02/08

MITI e REALTÀ: categorizzazione automatica - niente magia, solo un segreto

Il segreto di un progetto di categorizzazione automatica di successo non è tanto nella scelta di una tecnologia sufficientemente potente, ma piuttosto nella metodologia utilizzata per realizzare il progetto: se il metodo è giusto, per ottenere il successo sarà poi indispensabile usare la tecnologia giusta ma se il metodo è sbagliato, non c’è tecnologia che tenga.

L’elemento più importante è la fase di analisi iniziale in cui è necessario sforzarsi di descrivere in modo chiaro, oggettivo e replicabile l’essenza del problema. È fondamentale che il cliente, tipicamente un’azienda con la necessità di gestire una considerevole mole di conoscenza (in genere, vari tipi di documenti prodotti o acquisiti per lavoro), spieghi al fornitore le proprie, reali esigenze.
Quest’ultimo, naturalmente, si deve impegnare per soddisfarle nel modo migliore.

Detta così, la situazione non sembra poi tanto diversa da quella di qualsiasi altro progetto di sviluppo di software ma qui si tratta di capire come gestire una conoscenza complessa, cosa tutt’altro che banale e che non si può in alcun modo improvvisare.

Il primo passo è quello più importante e richiede un impegno speciale da parte del cliente che, in modo ragionato, dovrebbe dare al fornitore le risposte per le seguenti domande:

  • per quale motivo voglio categorizzare i miei contenuti?
  • qual è la persona o quali sono le persone che conoscono bene la conoscenza che voglio categorizzare?
  • se l’attività di categorizzazione attualmente viene fatta manualmente, quali sono nel dettaglio i processi seguiti?
  • quali sono le categorie veramente importanti e significative, in grado di rendere il contenuto più utile e di maggior valore?
  • se l’insieme delle categorie esiste già, sono veramente necessarie tutte le categorie?
  • quali sono le logiche il più possibile oggettive che fanno sì che un determinato documento debba appartenere a una categoria piuttosto che a un’altra?

Anche se le domande sopra sono tutte semplici, non è così facile trovare subito le risposte ed ecco che entra in gioco l’esperienza del fornitore, che è coinvolto nel progetto di analisi sotto diversi punti di vista.

Intanto non deve solo offrire una soluzione ma condividere il problema del cliente.  Poi, deve avere competenze che vanno ben oltre gli aspetti tecnici o puramente legati alla tecnologia: in genere, infatti, il cliente non è un esperto di conoscenza e perciò non è semplice per lui individuare subito le categorie (o domini del sapere) basilari per la riuscita del progetto.

Se si riesce a realizzare la fase di analisi iniziale nel modo giusto, il passo più importante per il successo del progetto è fatto: questa, infatti, è l’unica, stretta via attraverso cui occorre passare per ottenere un sistema efficace, in grado di garantire efficienza e vantaggi in termini di costi e valore.

Nova100 tags: , , , , , , , , ,

04/02/08

A volte ritornano…

Pensavo che avessimo superato da molto tempo l’idea di un’Intelligenza Artificiale così intelligente da sfuggire a qualsiasi controllo e di macchine tanto evolute da non sentirsi più solo macchine (ma, anzi, da non desiderare altro che la sottomissione dell’umanità).

Mi sbagliavo invece: su Nova di qualche tempo fa ho letto “L’esplosione delle macchine con troppa intelligenza” e in evidenza c’era questo paragrafo:

"L’uomo sta iniziando a produrre tecnologie che non riesce a capire. Ma deve fare attenzione a non inimicarsele."

Pare che al massimo fra 25 anni sapremo davvero di che cosa saranno capaci le intelligenze artificiali che produciamo oggi e addirittura c’è chi ha annunciato l’imminente lancio sul mercato di un prodotto che nel giro di 5 anni ci eguaglierà in fatto di intelligenza.

Anche se sono passati più di 50 anni dalle prime visioni catastrofiche legate alla nascita dell’Artificial Intelligence, evidentemente "tira" ancora parlare  dell’oscura minaccia della tecnologia amica/nemica...

Mi stupisce sempre il grande interesse che si crea nei confronti di progetti irrealizzabili che fanno perdere di vista i problemi reali e mi sfugge la ragione per cui si mostra tanto interesse per la ricerca di un’intelligenza uguale alla nostra piuttosto che per la realizzazione di strumenti furbi, davvero utili e in grado di affiancarci nelle nostre attività.

Alla fine, sono solo manovre pubblicitarie ma mi dispiace leggere cose che creano confusione e perplessità tra le tante persone che sono esperte del settore e che non hanno le conoscenze per farsi un'opinione ponderata.

Nova100 tags: , , ,

25/01/08

Perché è così importante strutturare (bene) le informazioni?

Il problema più difficile nel trattamento automatico del linguaggio o delle informazioni è l’analisi delle frasi e l’identificazione del significato giusto delle parole (disambiguare).

La lingua, infatti, è ricca di omografi, di termini che hanno più di un significato e di locuzioni o fraseologie che oltre a un senso letterale assumono anche un valore metaforico.

Qualche esempio:

“canzoni” sostantivo e “canzoni” forma del verbo canzonare, “lotto” sostantivo e “lotto” verbo, “colle” plurale di “colla” e “colle” nel senso di monticello;

“calcio” che indica sia uno sport sia un’azione sia una parte della pistola sia un elemento chimico, ecc., “polo” che indica un tipo di maglietta o maglione, ma anche uno sport e un tipo di macchina (la stessa cosa vale per “golf”!), “radio” che al femminile significa una cosa e al maschile ne indica altre, “giallo” che può essere inteso come colore oppure come genere di libri, film, ecc.;

“testa di legno” che assume un senso diverso secondo la frase: questa bambola ha la “testa di legno” - tuo fratello è una “testa di legno”, la mamma “ha tagliato la corda” del pacco - il ladro “ha tagliato la corda”.

La comprensione per noi è naturale (lo diventa attraverso le esperienze che maturiamo crescendo e anche studiando, approfondendo, ecc.), ma trasferire a un software l’esperienza necessaria perché capisca è faticoso e complesso.

Oggi, però, si riescono a fare cose che in un passato neanche troppo lontano erano davvero impensabili.
Grazie ai progressi della tecnologia, è possibile in tempi rapidissimi trasformare i testi in modo che possano essere poi elaborati con il computer. Nei testi (qualsiasi comunicazione scritta in generale) normalmente non ci sono elementi organizzati a priori in database ma frasi espresse nel linguaggio comune. Per questo in gergo si parla di “informazioni non strutturate” per la cui strutturazione la semantica si profila come la tecnologia più appropriata: saper riconoscere una parola in un testo è un’operazione semplicissima, che non richiede l’impiego di tecnologie sofisticate (e perciò si presta bene per attività di ricerca basate sull’uso di keyword), mentre il discorso cambia se si tratta di individuare il concetto che questa parola esprime. In questo caso, è necessaria un’analisi linguistica approfondita. Una volta strutturate e organizzate in database, le informazioni diventano “leggibili” con il computer e dunque possono essere elaborate in automatico per diverse attività: ricerca, classificazioni automatiche di documenti, e-mail, ecc., organizzazione e raccolta di dati per valutazioni aziendali strategiche e sistemi di reportistica (business intelligence in generale), ma anche traduzioni e ricerche multilingua (forse avrete già sentito parlare di cross-linguistic search).

È chiaro che la qualità dei risultati di tutte queste possibili attività aumenta molto se le informazioni non perdono la propria, vera natura (cioè il significato che hanno) passando da non strutturate a strutturate.

Nova100 tags: , , , , , , , , , , , ,

16/01/08

MITI e REALTÀ: la categorizzazione automatica…

... ovvero: programmi che “imparano” a categorizzare da soli e programmi che invece categorizzano e basta

A partire dalla fine degli anni Settanta, molti ricercatori hanno iniziato a investire tempo e risorse nell’individuazione di algoritmi in grado di analizzare dei testi già categorizzati a mano da altre persone per poi estrarne, questa volta autonomamente (o forse sarebbe meglio dire magicamente…), l’essenza della conoscenza necessaria a categorizzare altri testi dello stesso tipo.

In sostanza, l’idea era (anzi è perché nessuno ha trovato una soluzione reale) la seguente:

  • prendere l’elenco di categorie desiderate (o albero, spesso gerarchico) direttamente dalle persone che vogliono ottenere un sistema di categorizzazione automatica;
  • farsi fornire sempre dalle stesse persone un certo numero di documenti (etichettati manualmente) per ogni categoria partendo dall’insieme molto più ampio di tutti i testi disponibili;
  • servirsi dell’albero di categorie e dell’insieme dei documenti per insegnare al programma a “riconoscere gli stilemi” di ciascuna categoria. Quest’ultima fase è quella più magica ;-) ed è normalmente definita di addestramento (o training).

Da questo approccio è nato uno dei miti più longevi e persistenti del Knowledge Management.

Infatti, nonostante l’intento perseguito si sia dimostrato subito aleatorio, la voglia di renderlo attuabile è stata tale che ancor oggi si insiste sulla possibilità di poter ottenere un programma, adatto per qualsiasi ambito, che partendo da pochi esempi possa fare in automatico qualcosa che spesso nemmeno le persone riescono a fare.

L’idea di un sistema del genere è comprensibile e desiderabile (forse è il sogno di chiunque abbia a che fare con la gestione delle informazioni…) ma ha creato aspettative esagerate, assolutamente irrealistiche e, ancor peggio, molto dannose perché continuano a rendere più difficile l’avanzare dello stato dell’arte.

Sistemi di questo tipo NON esistono e, come mi capita spesso di sottolineare, non esistono nemmeno facili scorciatoie per la risoluzioni dei complessi problemi legati alla gestione delle informazioni.

Nel caso della categorizzazione, però, è vero che oltre al mito c’è anche la realtà e questa spesso è migliore di quella che ci si immagina.

Sebbene infatti la categorizzazione di contenuti ad uso personale sia ancora oggi piuttosto lontana dall’essere economicamente realizzabile (è ancora troppo costosa perché si tratta di un ambito difficile da circoscrivere e troppo vincolato alla soggettività), già da alcuni anni, in ambito aziendale, si possono implementare sistemi di categorizzazione automatica in modo economico ed efficace, purché fra tutte le parti in gioco (azienda e fornitore di tecnologia, cliente e venditore, ecc.) siano chiari gli obiettivi da raggiungere e anche le trappole da evitare.

Vedremo come nel prossimo post su questo argomento.

Nova100 tags: , , , , , , , , ,

11/01/08

MITI e REALTÀ: la categorizzazione

Anche la gestione delle informazioni (Knowledge Management in senso lato) ha i propri miti e le proprie leggende e penso che sia interessante parlarne  in una collana di post dedicata alla spiegazione di che cosa è reale e fattibile e che cosa è mito. È la prima collana del blog ;-)

Spero di riuscire a scrivere degli approfondimenti semplici e comprensibili, interessanti, anche se non sono in grado offrire troppe garanzie sulla regolarità della pubblicazione (ogni tanto devo anche lavorare). Confido piuttosto nella pazienza di voi lettori...

La categorizzazione

Partiamo con la categorizzazione, di cui ho già parlato di recente, non solo perché è un’attività centrale nella gestione efficiente della conoscenza contenuta nei testi (o, per dirla in termini più tecnici, delle cosiddette informazioni non strutturate), ma anche perché avvolta nei miti più pervicaci nell’ambito dell’organizzazione dei documenti.

Che cos’è la categorizzazione? La domanda non è così banale perché esistono diversi modi per indicare questa attività che, evidentemente, ha ereditato la confusionaria ecletticità tipica del Knowledge Management, compresa l’ampia varietà delle etichette… Limitandoci alle parole italiane, si usano comunemente “classificazione” e “clusterizzazione” (quest’ultimo è un brutto neologismo, ma purtroppo non esiste un corrispondente migliore) fino ad arrivare anche a veri e propri obbrobri linguistici tipo “tassonomizzazione”.

Personalmente preferisco “categorizzazione” perché mi pare che sia il termine in grado di rispecchiare nel modo più semplice il processo che sta dietro i vari nomi: distinguere secondo diverse categorie le informazioni di cui si dispone per poi renderne il reperimento facile e immediato.

Si tratta di un’attività eminentemente manuale e perciò vincolata a una visione soggettiva, a scelte individuali che dipendono dal modo di pensare, dalle necessità, ecc. e magari anche dal tipo di contenuti (documenti, mail, siti, ecc.).

Non c’è bisogno di sottolineare che, in quanto attività manuale, la categorizzazione presenta due grossi problemi: richiede moltissimo tempo per essere eseguita e normalmente dà luogo a definizioni di categorie non oggettive e dunque non facilmente sfruttabili da altre persone. Questi problemi sono le principali ragioni per cui, nell’ambito del normale corso di sviluppo delle tecnologie per la gestione delle informazioni, si è iniziato a pensare ad applicazioni automatiche.

I primi sistemi di categorizzazione sono nati subito dopo i primi tentativi di implementare applicazioni per la ricerca, anche se l’interesse per la potenziale utilità della categorizzazione automatica è enormemente cresciuto con l’esplosione delle informazioni negli ultimi anni. Basta pensare alla quantità di dati oggi reperibili nel Web rispetto a qualche anno fa, alla nostra esperienza diretta nella gestione dei documenti sui nostri PC oppure al fenomeno della posta elettronica: in meno di 10 anni un utente medio si è trovato a dover trattare circa 30 mail al giorno da pochi mail alla settimana…

Come pare tipico nell’ambito delle tecnologie per il trattamento delle informazioni (almeno osservando ciò che succede da addetto ai lavori), quasi tutti i ricercatori hanno affrontato il problema con l’idea fissa di trovare un algoritmo che, con poco o nullo lavoro manuale, potesse categorizzare qualunque contenuto in automatico e con elevata qualità.

È iniziata così la corsa al silver bullet della categorizzazione automatica piuttosto che di una soluzione più pragmatica al problema:  una fuga in avanti che ha portato ad aspettative eccessive e risultati molto lontani da quanto desiderato. Nei prossimi post vedremo come, quando e perché.

Nova100 tags: , , , , , , , , ,

03/01/08

Ma quanto è attuale il Knowledge Management oggi?

Come mi capita di dire spesso, non esiste una definizione di Knowledge Management che metta tutti d’accordo e perciò forse non c’è un’unica risposta per la domanda del titolo, molto dipende dal punto di vista da cui si considera il problema e anche dal tipo di conoscenza cui ci si riferisce.

Negli ultimi 2-3 anni, ad esempio, si è sviluppato molto interesse nell’ambito della gestione della conoscenza utile ai processi decisionali più strategici: Marketing Intelligence e Competitive Intelligence (di cui ad esempio si parla in questo post).

Inoltre, se si considera la conoscenza in senso lato, le informazioni utili per un’azienda non si esauriscono nelle informazioni interne, già acquisite e assodate, ma coinvolgono anche tutto ciò che diventa via via disponibili nelle fonti più tradizionali, tipo la stampa, e nei nuovi siti Web.

Ancora una volta e comunque s’intenda il Knowledge Management, la tecnologia si pone tra i fattori di maggior criticità perché gli strumenti più comuni sono inadeguati e non servono a molto quando la mole di informazioni da trattare è considerevole e sempre in evoluzione (ad esempio a causa dell’estremo dinamismo tipico dei siti del Web 2.0).

C’è però da dire che le aziende, pur avendo maturato una discreta consapevolezza della situazione, hanno iniziato solo di recente a considerare con la giusta priorità il problema della gestione globale di tutte le informazioni (a maggior ragione quelle espresse nel Web spontaneamente, per esempio nei commenti dei post dei blog).

Forse perché la difficoltà a controllare tutti i dati potenzialmente interessanti induce ad accantonare il problema piuttosto che ad affrontarlo (è un paradosso, ma in molti casi sembra proprio che accada così).

Nova100 tags: , , , ,

28/12/07

Tra macchina e mela

I titoli di due libri su Alan Turing che sono usciti nel corso di quest’anno a poca distanza l’uno dall’altro mi hanno fatto ripensare a quanto la vita privata di questo scienziato abbia sempre destato un interesse eccezionale: sono più famosi la sua macchina e il suo test oppure la mela rossa avvelenata con cui si dice si sia tolto la vita?

(Il primo libro s’intitola “La mela di Alan, hacking the Turing Test” uscito in una collana dedicata al Teatro - Di Renzo Editore, 2007, mentre il secondo “L’uomo che sapeva troppo” David Leavitt, Codice Edizioni, 2007).

Nello stesso anno in cui Minsky formulò l’ipotesi di poter riprodurre i processi del cervello umano, Turing scrisse un articolo per dimostrare la tesi di una macchina in grado di compiere qualunque operazione logica purché opportunamente programmata (la Macchina di Turing).

L’articolo, che divenne subito storico, si apre con la domanda Can machines think?” e prosegue con la descrizione di un test basato su un gioco: un dialogo fra un uomo, una donna e una terza persona che fa domande con l’obiettivo di determinare chi sia l’uomo e chi la donna.

La donna potrebbe essere in realtà la macchina da testare e l’uomo potrebbe cercare di trarre in inganno l’interlocutore fingendo di essere una donna. Chi fa le domande è all’oscuro di questi dettagli perché le persone non si vedono e le risposte alle domande vengono scritte oppure passate a un intermediario.

Se alla fine chi fa le domande non è in grado di stabilire che la macchina è una macchina e dunque non è né un uomo né una donna, allora si deve semplicemente concludere che questa supera il test: è intelligente.

Non ho ancora letto i due libri sopra ma consiglio sicuramente di leggere The Imitation Game, un articolo senza tempo che fa capire perché Turing sia considerato un precursore assoluto e una mente di primissimo livello.

Nova100 tags: , , , , ,

21/11/07

Se non sai che cosa fare, chiedilo al telefonino...

… perché se è intelligente allora ti conosce, sa che cosa ti piace e che cosa no ed è sempre pronto a consigliarti al meglio su ristoranti, negozi, eventi.

I telefonini stanno diventando sempre più potenti e riescono perciò a far girare programmi che fino a poco tempo fa erano riservati solo ai computer da tavolo. Quanto descritto nell’articolo

Smart Phone Suggests Things to Do (già ripreso anche in italiano nel post Il cellulare che legge nel pensiero) non solo è attuabile, ma sembra anche semplice: a volte sono proprio le cose più semplici ad essere le più utili.

Nova100 tags:

12/11/07

Classificare o sfaccettare?

Lavorando sui progetti di classificazione automatica, ci si imbatte praticamente sempre in alcune situazioni indicative del fatto che non può esistere una vera categorizzazione automatica perfetta: sono le persone stesse a far scelte molto soggettive (e variabili nel tempo) quando si tratta di stabilire a quale dominio o argomento appartiene un testo.


La situazione più comune capita quando si definisce un certo numero di categorie fra loro non omogenee: quando si devono classificare degli articoli di giornali, per esempio, è un classico per il cliente mettere nello stesso elenco di categorie argomenti come sport o politica insieme con personaggi o eventi.


Mentre le prime categorie sono piuttosto oggettive e relative all’argomento del testo, le seconde sono in qualche modo trasversali e molto difficili da inserire in un sistema automatico: non c’è un unico tema, non ci sono concetti ricorrenti o tipici ma ci si può riferire a qualsiasi ambito, fermo restando che qualcuno o qualcosa (personaggio o evento) è al centro di quest’ambito.

Eppure, le persone non fanno fatica a dire che articoli in cui si parla di Leonardo da Vinci, Gorbaciov, Robin Hood e Joe di Maggio hanno come “categoria” personaggi.


Un altro esempio riguarda invece una considerazione abbastanza banale per noi, ma ancora una volta decisamente complessa per un programma.

Poniamo il caso di dover decidere a quale categoria appartiene la recensione di un film sulla II Guerra Mondiale. Per qualunque persona, senza nemmeno iniziare a leggere il testo, il primo dominio sarebbe “cinema”, visto che si tratta di un film. Il programma, invece, penserebbe* piuttosto a storia o guerra o militare, ma non penserebbe* a cinema come tema rilevante.


Per fortuna, la maggior parte dei problemi di categorizzazione sono comunque affrontabili da parte di un sistema automatico che, opportunamente configurato, sicuramente sarà molto più obiettivo e affidabile (perché non si stanca mai e non si fa influenzare da fattori esterni) di una persona, che rimane però l’unica veramente intelligente :-)


* penserebbe e non penserebbe… si fa per dire ;-)

Nova100 tags: , , , , , ,

26/09/07

Il tempo è galantuomo

È stato piuttosto divertente leggere su Nòva di giovedì scorso il pezzo “Chip di buonsenso”.

C’erano alcune dichiarazioni di Marvin Minsky, noto guru e strenuo sostenitore della cosiddetta “corrente forte” dell’Artificial Intelligence (per chi non ha tempo o voglia di consultare le pagine di Wikipedia, l’AI forte si basa sulla convinzione che si possa veramente dotare un computer della stessa intelligenza che contraddistingue l’uomo).

L’aspetto piacevole  della lettura è stata l’apparente conversione di Minsky verso un pensiero più simile a quello debole che a quello forte dell’AI, avvicinandosi a quello che io ritengo da sempre (e sono in buona compagnia a farlo) l’unico approccio sensato e realistico.

Leggendo tra le righe, sembra proprio che il buon Marvin abbia capito che il nostro cervello non è così semplice e che forse è meglio usare approcci meno ambiziosi ma più essenziali e concreti, realizzabili: che nessuna delle sue previsioni ottimistiche si sia ancora avverata a distanza di tanti anni di lavoro e ricerca evidentemente ha fatto sorgere anche in lui qualche dubbio sulla vera “forza” dell’AI.

Ho trovato quasi commuoventi le ultime righe dell’intervista dove, abbandonati i sogni utopici del passato, si propongono progetti sempre innovativi, ma più piccoli e pragmatici.

Peccato per tutte le risorse che sono state investite prima di questa conversione, ma meglio tardi che mai :-)

Nova100 tags: , , , , ,

18/09/07

Nel cuore della tecnologia semantica

Parlando del Semtech 2007 ho citato le ontologie perché sono alla base della tecnologia semantica. Guido Vetere ha dedicato all'argomento una serie di approfondimenti molto interessanti, chiari e semplici (qui c'è una puntata).

Esiste una certa confusione, a tutti i livelli, tra i termini tassonomia, ontologia e, spesso, rete semantica e penso che i post di Guido siano utili a chiarire le idee in merito: io cerco di dare qualche indicazione sulle reti semantiche sperando che siano interessanti ed utili.

Una rete semantica è una sorta di database lessicale in cui i termini sono considerati e raggruppati in base al significato, cioè al concetto che esprimono, e non ordinati alfabeticamente come in un classico dizionario ma secondo il senso (ecco perché la rete è detta "semantica") e i vari e possibili legami che fra i sensi possono esistere (per questo si parla di "relazioni semantiche").

La ricchezza di una rete semantica è data sia dalle parole/concetti presenti sia dalle relazioni semantiche trattate, come ad esempio

legami di parentela
come l'iponimia e l'iperonimia: l'iponimia riguarda il rapporto che sussiste tra un concetto specifico e uno più generale. L'iperonimo quindi è il termine più generico, una parola che ha un significato generale rispetto ad altre che rappresentano specificazioni particolari di quel significato: es. "animale" è iperonimo rispetto a "gatto";

oppure anche la meronimia-olonimia, cioè la relazione semantica parte-tutto: un meronimo è un nome che indica una parte di un tutto (che è detto olonimo), come per esempio nel caso di fetta-torta (parte=porzione-tutto=massa) o plastica-bottiglia (parte=materiale-tutto=oggetto intero);

o relazioni fra nomi e verbi del tipo verbo-soggetto o verbo-oggetto: dato un "nome" e volendo considerare i possibili legami "verbo\soggetto", otterremo tutti i verbi legati normalmente cioè più frequentemente a quel nome quando esso nella frase svolge la funzione di soggetto: nome-soggetto "cibo" verbi "avariare, scarseggiare"...
Il ragionamento è il medesimo se si considera la relazione semantica "verbo-oggetto": nome-oggetto "cibo" verbi "mangiare, trangugiare, triturare, masticare"...

e anche altri tipi di legame, come ad esempio di appartenenza geografica: ogni elemento della geografia (non solo paesi, città, fiumi, valli, ecc. ma anche monumenti) è messo in relazione con gli altri elementi geografici a cui è legato. Così per esempio "Val Gardena" è legato