Marco Varone -

« dicembre 2007 | Principale | febbraio 2008 »

gennaio 2008

25/01/08

Perché è così importante strutturare (bene) le informazioni?

Il problema più difficile nel trattamento automatico del linguaggio o delle informazioni è l’analisi delle frasi e l’identificazione del significato giusto delle parole (disambiguare).

La lingua, infatti, è ricca di omografi, di termini che hanno più di un significato e di locuzioni o fraseologie che oltre a un senso letterale assumono anche un valore metaforico.

Qualche esempio:

“canzoni” sostantivo e “canzoni” forma del verbo canzonare, “lotto” sostantivo e “lotto” verbo, “colle” plurale di “colla” e “colle” nel senso di monticello;

“calcio” che indica sia uno sport sia un’azione sia una parte della pistola sia un elemento chimico, ecc., “polo” che indica un tipo di maglietta o maglione, ma anche uno sport e un tipo di macchina (la stessa cosa vale per “golf”!), “radio” che al femminile significa una cosa e al maschile ne indica altre, “giallo” che può essere inteso come colore oppure come genere di libri, film, ecc.;

“testa di legno” che assume un senso diverso secondo la frase: questa bambola ha la “testa di legno” - tuo fratello è una “testa di legno”, la mamma “ha tagliato la corda” del pacco - il ladro “ha tagliato la corda”.

La comprensione per noi è naturale (lo diventa attraverso le esperienze che maturiamo crescendo e anche studiando, approfondendo, ecc.), ma trasferire a un software l’esperienza necessaria perché capisca è faticoso e complesso.

Oggi, però, si riescono a fare cose che in un passato neanche troppo lontano erano davvero impensabili.
Grazie ai progressi della tecnologia, è possibile in tempi rapidissimi trasformare i testi in modo che possano essere poi elaborati con il computer. Nei testi (qualsiasi comunicazione scritta in generale) normalmente non ci sono elementi organizzati a priori in database ma frasi espresse nel linguaggio comune. Per questo in gergo si parla di “informazioni non strutturate” per la cui strutturazione la semantica si profila come la tecnologia più appropriata: saper riconoscere una parola in un testo è un’operazione semplicissima, che non richiede l’impiego di tecnologie sofisticate (e perciò si presta bene per attività di ricerca basate sull’uso di keyword), mentre il discorso cambia se si tratta di individuare il concetto che questa parola esprime. In questo caso, è necessaria un’analisi linguistica approfondita. Una volta strutturate e organizzate in database, le informazioni diventano “leggibili” con il computer e dunque possono essere elaborate in automatico per diverse attività: ricerca, classificazioni automatiche di documenti, e-mail, ecc., organizzazione e raccolta di dati per valutazioni aziendali strategiche e sistemi di reportistica (business intelligence in generale), ma anche traduzioni e ricerche multilingua (forse avrete già sentito parlare di cross-linguistic search).

È chiaro che la qualità dei risultati di tutte queste possibili attività aumenta molto se le informazioni non perdono la propria, vera natura (cioè il significato che hanno) passando da non strutturate a strutturate.

Nova100 tags: , , , , , , , , , , , ,

16/01/08

MITI e REALTÀ: la categorizzazione automatica…

... ovvero: programmi che “imparano” a categorizzare da soli e programmi che invece categorizzano e basta

A partire dalla fine degli anni Settanta, molti ricercatori hanno iniziato a investire tempo e risorse nell’individuazione di algoritmi in grado di analizzare dei testi già categorizzati a mano da altre persone per poi estrarne, questa volta autonomamente (o forse sarebbe meglio dire magicamente…), l’essenza della conoscenza necessaria a categorizzare altri testi dello stesso tipo.

In sostanza, l’idea era (anzi è perché nessuno ha trovato una soluzione reale) la seguente:

  • prendere l’elenco di categorie desiderate (o albero, spesso gerarchico) direttamente dalle persone che vogliono ottenere un sistema di categorizzazione automatica;
  • farsi fornire sempre dalle stesse persone un certo numero di documenti (etichettati manualmente) per ogni categoria partendo dall’insieme molto più ampio di tutti i testi disponibili;
  • servirsi dell’albero di categorie e dell’insieme dei documenti per insegnare al programma a “riconoscere gli stilemi” di ciascuna categoria. Quest’ultima fase è quella più magica ;-) ed è normalmente definita di addestramento (o training).

Da questo approccio è nato uno dei miti più longevi e persistenti del Knowledge Management.

Infatti, nonostante l’intento perseguito si sia dimostrato subito aleatorio, la voglia di renderlo attuabile è stata tale che ancor oggi si insiste sulla possibilità di poter ottenere un programma, adatto per qualsiasi ambito, che partendo da pochi esempi possa fare in automatico qualcosa che spesso nemmeno le persone riescono a fare.

L’idea di un sistema del genere è comprensibile e desiderabile (forse è il sogno di chiunque abbia a che fare con la gestione delle informazioni…) ma ha creato aspettative esagerate, assolutamente irrealistiche e, ancor peggio, molto dannose perché continuano a rendere più difficile l’avanzare dello stato dell’arte.

Sistemi di questo tipo NON esistono e, come mi capita spesso di sottolineare, non esistono nemmeno facili scorciatoie per la risoluzioni dei complessi problemi legati alla gestione delle informazioni.

Nel caso della categorizzazione, però, è vero che oltre al mito c’è anche la realtà e questa spesso è migliore di quella che ci si immagina.

Sebbene infatti la categorizzazione di contenuti ad uso personale sia ancora oggi piuttosto lontana dall’essere economicamente realizzabile (è ancora troppo costosa perché si tratta di un ambito difficile da circoscrivere e troppo vincolato alla soggettività), già da alcuni anni, in ambito aziendale, si possono implementare sistemi di categorizzazione automatica in modo economico ed efficace, purché fra tutte le parti in gioco (azienda e fornitore di tecnologia, cliente e venditore, ecc.) siano chiari gli obiettivi da raggiungere e anche le trappole da evitare.

Vedremo come nel prossimo post su questo argomento.

Nova100 tags: , , , , , , , , ,

14/01/08

L'affare Microsoft-Fast (affare per chi?)

Come molti avranno letto in giro (meritevole di nota questo post, in inglese), Microsoft ha fatto un'offerta di acquisto per FAST, la seconda azienda come fatturato (la prima è Autonomy) nel campo dei motori di ricerca tradizionali (basati su keyword) per il mondo aziendale (enterprise search): visto il prezzo stratosferico offerto, non penso proprio che da parte di FAST ci potranno essere problemi e credo che l'operazione si chiuderà nel giro di qualche mese.

Molto è già stato scritto in merito a questo avvenimento ma ci sono due o tre cose che, secondo me, non sono state evidenziate a sufficienza:

  • il prezzo pagato è assolutamente eccessivo: dimostra che Microsoft ha un'enorme paura che Google riesca a sfondare nel campo dell'enterprise search (Google in USA è ben messo ma nel resto del mondo non così tanto) e questo la porta a pagare cifre troppo alte (fino a due anni fa, Microsoft avrebbe comprato a non più di 3-400 milioni di dollari e pagando in azioni e non in contanti);
  • molti hanno scritto che MS è interessata ai clienti di FAST: forse sì ma li ha pagati sicuramente troppo e poi sono sicuramente tutti già clienti di Microsoft trattandosi di aziende medie e grandi (in pratica, ha pagato per comprare clienti che ha già...);
  • la tecnologia di Fast non è particolarmente evoluta o innovativa (del
    tutto simile a quella di concorrenti come Autonomy o Google): con 1,2 miliardi di dollari, MS poteva sviluppare una tecnologia molto superiore oppure, ancora meglio, comprare qualche piccola azienda dinamica e innovativa del settore e fornirla/e di adeguati fondi per velocizzare lo sviluppo di soluzioni migliori;
  • l'integrazione di un gruppo di sviluppo (sicuramente di valore) con base in Norvegia con quello basato a Redmond non la vedo proprio banale così come inserire i prodotti attuali di FAST nell'offerta di Microsoft (sia che si fondano con MS SharePoint sia che restino separati).

Mi sembra perciò che si tratti di un'operazione su cui sospendere il giudizio perché le incognite sono molte: per avere un giusto ritorno sull'enorme investimento, Microsoft dovrà azzeccare tutte le mosse ed avere anche quel po' di fortuna che in questi casi è indispensabile.

Nova100 tags: ,

11/01/08

MITI e REALTÀ: la categorizzazione

Anche la gestione delle informazioni (Knowledge Management in senso lato) ha i propri miti e le proprie leggende e penso che sia interessante parlarne  in una collana di post dedicata alla spiegazione di che cosa è reale e fattibile e che cosa è mito. È la prima collana del blog ;-)

Spero di riuscire a scrivere degli approfondimenti semplici e comprensibili, interessanti, anche se non sono in grado offrire troppe garanzie sulla regolarità della pubblicazione (ogni tanto devo anche lavorare). Confido piuttosto nella pazienza di voi lettori...

La categorizzazione

Partiamo con la categorizzazione, di cui ho già parlato di recente, non solo perché è un’attività centrale nella gestione efficiente della conoscenza contenuta nei testi (o, per dirla in termini più tecnici, delle cosiddette informazioni non strutturate), ma anche perché avvolta nei miti più pervicaci nell’ambito dell’organizzazione dei documenti.

Che cos’è la categorizzazione? La domanda non è così banale perché esistono diversi modi per indicare questa attività che, evidentemente, ha ereditato la confusionaria ecletticità tipica del Knowledge Management, compresa l’ampia varietà delle etichette… Limitandoci alle parole italiane, si usano comunemente “classificazione” e “clusterizzazione” (quest’ultimo è un brutto neologismo, ma purtroppo non esiste un corrispondente migliore) fino ad arrivare anche a veri e propri obbrobri linguistici tipo “tassonomizzazione”.

Personalmente preferisco “categorizzazione” perché mi pare che sia il termine in grado di rispecchiare nel modo più semplice il processo che sta dietro i vari nomi: distinguere secondo diverse categorie le informazioni di cui si dispone per poi renderne il reperimento facile e immediato.

Si tratta di un’attività eminentemente manuale e perciò vincolata a una visione soggettiva, a scelte individuali che dipendono dal modo di pensare, dalle necessità, ecc. e magari anche dal tipo di contenuti (documenti, mail, siti, ecc.).

Non c’è bisogno di sottolineare che, in quanto attività manuale, la categorizzazione presenta due grossi problemi: richiede moltissimo tempo per essere eseguita e normalmente dà luogo a definizioni di categorie non oggettive e dunque non facilmente sfruttabili da altre persone. Questi problemi sono le principali ragioni per cui, nell’ambito del normale corso di sviluppo delle tecnologie per la gestione delle informazioni, si è iniziato a pensare ad applicazioni automatiche.

I primi sistemi di categorizzazione sono nati subito dopo i primi tentativi di implementare applicazioni per la ricerca, anche se l’interesse per la potenziale utilità della categorizzazione automatica è enormemente cresciuto con l’esplosione delle informazioni negli ultimi anni. Basta pensare alla quantità di dati oggi reperibili nel Web rispetto a qualche anno fa, alla nostra esperienza diretta nella gestione dei documenti sui nostri PC oppure al fenomeno della posta elettronica: in meno di 10 anni un utente medio si è trovato a dover trattare circa 30 mail al giorno da pochi mail alla settimana…

Come pare tipico nell’ambito delle tecnologie per il trattamento delle informazioni (almeno osservando ciò che succede da addetto ai lavori), quasi tutti i ricercatori hanno affrontato il problema con l’idea fissa di trovare un algoritmo che, con poco o nullo lavoro manuale, potesse categorizzare qualunque contenuto in automatico e con elevata qualità.

È iniziata così la corsa al silver bullet della categorizzazione automatica piuttosto che di una soluzione più pragmatica al problema:  una fuga in avanti che ha portato ad aspettative eccessive e risultati molto lontani da quanto desiderato. Nei prossimi post vedremo come, quando e perché.

Nova100 tags: , , , , , , , , ,

03/01/08

Ma quanto è attuale il Knowledge Management oggi?

Come mi capita di dire spesso, non esiste una definizione di Knowledge Management che metta tutti d’accordo e perciò forse non c’è un’unica risposta per la domanda del titolo, molto dipende dal punto di vista da cui si considera il problema e anche dal tipo di conoscenza cui ci si riferisce.

Negli ultimi 2-3 anni, ad esempio, si è sviluppato molto interesse nell’ambito della gestione della conoscenza utile ai processi decisionali più strategici: Marketing Intelligence e Competitive Intelligence (di cui ad esempio si parla in questo post).

Inoltre, se si considera la conoscenza in senso lato, le informazioni utili per un’azienda non si esauriscono nelle informazioni interne, già acquisite e assodate, ma coinvolgono anche tutto ciò che diventa via via disponibili nelle fonti più tradizionali, tipo la stampa, e nei nuovi siti Web.

Ancora una volta e comunque s’intenda il Knowledge Management, la tecnologia si pone tra i fattori di maggior criticità perché gli strumenti più comuni sono inadeguati e non servono a molto quando la mole di informazioni da trattare è considerevole e sempre in evoluzione (ad esempio a causa dell’estremo dinamismo tipico dei siti del Web 2.0).

C’è però da dire che le aziende, pur avendo maturato una discreta consapevolezza della situazione, hanno iniziato solo di recente a considerare con la giusta priorità il problema della gestione globale di tutte le informazioni (a maggior ragione quelle espresse nel Web spontaneamente, per esempio nei commenti dei post dei blog).

Forse perché la difficoltà a controllare tutti i dati potenzialmente interessanti induce ad accantonare il problema piuttosto che ad affrontarlo (è un paradosso, ma in molti casi sembra proprio che accada così).

Nova100 tags: , , , ,

Nova100