Marco Varone -

MITI e REALTÀ

13/06/08

MITI e REALTÀ: comunicazioni interrotte

Lo scambio e la condivisione delle informazioni sono sempre citati fra i principali vantaggi del social networking. Mantenersi aggiornati sui temi d'interesse scambiando dati di qualsiasi tipo con la propria cerchia di amici, infatti, pare essere uno dei motivi principali per cui tante persone usano quotidianamente i vari Facebook e MySpace.

Visto che il problema del recupero delle informazioni nel Web è un tema costante di questo blog e che abbiamo anche già rilevato quanto i siti tipici del Web 2.0 complichino la situazione, oggi poniamo l’attenzione su un altro aspetto: l’interruzione della comunicazione determinata proprio dalla proliferazione di blog e social network.

È un paradosso, se si pensa che l’obiettivo dei social media dovrebbe essere esattamente il contrario, eppure succede proprio così.

Si scrive un testo (un post di un blog ad esempio) che si condivide subito con Facebook, si salva in del.icio.us, magari si mette in forma ridotta e con una foto su Flickr, ecc.
Amici e colleghi aggiungono un commento oppure dicono qualcosa via Twitter o avvertono altri amici e colleghi scrivendo a loro volta un post citando quello di partenza.
Senza dubbio chi scrive per primo può entrare in contatto con un pubblico immenso e da questo punto di vista la potenza dei blog e dei vari siti per il social networking non è in discussione. Come risultato, però, c’è anche un’interruzione nella conversazione che può anche finire in niente.

Non è facile (spesso è impossibile) recuperare tutta la conoscenza che si genera attorno a un certo argomento e una volta tanto non si tratta solo di un fallimento delle tecnologie per il recupero delle informazioni. Anche se i problemi tecnologici ci sono (come abbiamo già sottolineato più volte, non è vero che oggi ci basta aprire il browser e usare un qualsiasi motore di ricerca per arrivare a tutte le informazioni che ci servono), in questo caso sono coperti da un altro fallimento: la frammentarietà di riferimenti e commenti fa sì che, con estrema facilità, una conversazione s’interrompa perché viene sparpagliata chissà dove, facendo fallire l’idea stessa alla base dei social media.

Non tutte le novità vengono per migliorare :-)

Nova100 tags: , , , , , , ,

06/06/08

Wikipedia è come il maiale

Per fortuna che esiste Wikipedia! Se già non ci fosse, bisognerebbe proprio inventarla perché senza di lei i tre quarti di coloro che BAZZICANO il mondo della semantica non saprebbero che cosa fare :-)

Non passa giorno che qualcuno non annunci  di aver lavorato con Wikipedia per la nascita di un nuovo sistema di categorizzazione, di un motore di ricerca oppure di una tecnologia per il riconoscimento delle entità (persone, aziende, prodotti, ecc.) o per un repository (ovviamente RDF) di fatti estratti in un qualche modo.

Ora, è vero che Wikipedia è un’importante, ricca fonte di conoscenza ma non bisogna dimenticare che la qualità e la profondità dei contenuti non sono omogenee. Molti la usano perché è più facile da analizzare e contiene informazioni parzialmente strutturate: quest’aspetto è tutt’altro che comune nel Web e perciò fa gola a tanti che pensano di trovare una scorciatoia per risolvere il problema della gestione e del recupero delle informazioni.

Il problema invece rimane, inoltre spesso Wikipedia si mostra più inaffidabile di altre fonti che magari non sono strutturate per niente ma almeno sono stabili. Provate ad esempio a guardare le categorie associate ad ogni articolo e a notare come la soggettività e l’imprevedibilità prendano spesso il sopravvento.

Viva Wikipedia allora (che è come il maiale di cui non si butta via niente) ma per quelli che sviluppano (o dicono di sviluppare) tecnologia semantica, è ora di passare a qualcosa di più complesso e di rendersi conto che esiste tutto un universo di conoscenze, problemi e opportunità che vanno ben oltre la più famosa enciclopedia Web.

Nova100 tags:

29/05/08

Niente più temi in salsa Wikipedia, un software debella il copia-incolla: siamo sicuri?

Chi mi segue da parecchio tempo, forse ricorderà uno dei miei primi post in cui "stroncavo" gli articoli di divulgazione riguardanti l'intelligenza artificiale, i motori di ricerca evoluti e altre tecnologie simili.

Non ho poi ripreso molto l'argomento perché mi sono reso conto che è praticamente impossibile fare qualcosa di utile affinché questi articoli siano un po' meno folkloristici e un po' più affidabili scientificamente.

Non posso però evitare di commentare un pezzo uscito ieri in cui si descrive come risolto un problema che, nella realtà, ha una complessità tale da renderlo quasi impossibile da affrontare con successo.

Consideriamo anche solo un testo di 1.000 parole: eliminando quelle meno significative (articoli, preposizioni, congiunzioni, ausiliari...) resterebbero almeno 300 parole.

Per vedere se questo insieme di 300 parole è stato copiato, pensiamo di iniziare una ricerca in Internet. Chiunque può capire che ci troveremmo già di fronte a un problema, visto che nessun motore consente di  fare una ricerca con un numero così alto di parole.
Ma ammettiamo di voler procedere: potremmo creare dei sottogruppi di parole, 10- 20 parole al massimo, e iniziare poi a provare tutte le combinazioni possibili e immaginabili, creando via via nuovi, “N” sottoinsiemi di parole: non serve essere esperti in matematica per capire che si tratterebbe di una quantità abnorme di sottoinsiemi, impossibile da gestire.

In alternativa, si potrebbero scegliere solo i termini più significativi e usare questi come chiave di ricerca. Il controllo diventerebbe così un poco più affrontabile ma servirebbe l’intervento umano e questo farebbe cadere la tesi dichiarata nell’articolo.

Quindi, provando a continuare il ragionamento (senza cioè arrendersi dinanzi alla crescita esponenziale che si avrebbe andando avanti per le ricerche in sottogruppi) vediamo di capire che cosa succederebbe ipotizzando di riuscire a trovare dei testi on-line da cui forse potrebbe essere stato copiato il testo di partenza.
Ci troveremmo di fronte a un altro problema, molto complesso: dover scaricare tutti i documenti e analizzarli e poi pensare ad incrociarli per stabilire se il nostro testo è copiato o no.

Il professore di cui si parla nell’articolo molto probabilmente ha ideato qualche miglioramento agli approcci di ricerca e analisi esistenti, sicuramente avrà sviluppato un software potenzialmente utile per fare ricerche su Internet (di brani copiati) in modo più facile e rapido ma senza dubbio non ha messo a punto nulla di neanche lontanamente paragonabile a quanto descritto.

Si tratta di un’ennesima occasione persa per fare divulgazione di qualità su questi temi legati alla gestione delle informazioni, ma forse per uno studente abituato a usare più il copia&incolla della propria testa è un bel sollievo sapere che non esiste ancora una tecnologia in grado di capire così facilmente se un testo è copiato oppure no ;-)

Nova100 tags: ,

08/05/08

MITI e REALTÀ: i 2 principali vantaggi nella ricerca con un motore semantico

Un motore di ricerca semantico consente (anche) di effettuare delle ricerche puntuali esprimendo delle domande nello stesso modo con cui si chiederebbe un’informazione ad una persona (anziché usare la solita sequenza di keyword).

In gergo tecnico si parla di ricerche in linguaggio naturale* che non significa altro che esprimersi così come siamo abituati a fare quando parliamo e comunichiamo fra noi.

Inoltre, grazie alla rete dei significati delle parole che rende possibile una corretta identificazione del senso del discorso (attraverso l’individuazione del giusto significato dei termini e delle frasi in base al contesto), il motore di ricerca semantico offre un grosso  vantaggio: estendere la capacità di restituire tutti i contenuti attinenti alla domanda di partenza.

Più la domanda è precisa e completa, più i benefici che si possono ottenere con la semantica aumentano (come ho già detto più volte, la semantica non può fare grandi cose per ricerche tipo “Jovanotti” mentre è molto potente quando si tratta di scovare risposte per domande molto precise).

Se pensiamo all’esempio della manualistica per auto di cui abbiamo parlato, per una richiesta tipo “come si sostituisce il fanalino posteriore?” verranno estratti tutti (e solo) i contenuti attinenti, compresi quelli in cui l’argomento viene trattato attraverso parole diverse da quelle presenti nella domanda di partenza:
non solo un contenuto tipo “istruzioni per cambiare il fanalino posteriore”
ma anche  “Sostituzione lampada dei fanali”.

Le parole sono diverse ma il significato è sempre lo stesso.

* Ho notato che per i non addetti ai lavori non è così facile capire subito il significato di “linguaggio naturale”. L’’espressione (che evidentemente non è cosi naturale ;-)) si è diffusa per indicare il nostro linguaggio, le cui regole evolvono con l’uso, in opposizione ai linguaggi artificiali, le cui regole invece sono definite a priori come i linguaggi di programmazione dei computer. Per Natural Language Processing (NLP), ‘gestione del linguaggio naturale’, si intende infatti un sistema in grado di elaborare la lingua degli esseri umani.

Nova100 tags: , , , ,

22/04/08

MITI e REALTÀ: i 5 passi nello sviluppo di un motore di ricerca semantico aziendale

I primi due passi necessari per implementare in azienda un motore di ricerca semantico (tipicamente fruibile via intranet) si svolgono in parallelo. Consistono nella valutazione del tipo di conoscenza da gestire e nella valutazione del modo secondo cui questa conoscenza verrà ricercata.

Per fare esempi concreti, possiamo prendere in considerazione due esigenze molto diverse:

  • rendere recuperabili le informazioni all'interno di un manuale d’uso, ad esempio di un'auto;
  • rendere fruibili le informazioni nel sito di una televisione (pur essendo ricercabili sul Web, sono comunque contenuti aziendali).

Quasi sempre le ricerche sulla manualistica saranno puntuali, molto precise (“come faccio a sostituire la lampadina del fanale posteriore?”) mentre quelle nella TV saranno in maggioranza generiche, probabilmente incentrate su nomi di personaggi, programmi o macro-argomenti (“Flavio Insinna”, “Matrix”, ecc. per cui anche una ricerca a keyword spesso può dare buoni risultati).

Il secondo passo consiste nell’analisi approfondita della conoscenza da gestire.

Con una tecnologia semantica, i concetti e le espressioni non noti possono essere facilmente individuati e inseriti all'interno della conoscenza del sistema.

Una parte di questo lavoro può essere fatta direttamente da chi implementa il motore di ricerca ma normalmente è sempre necessaria la collaborazione fra l’azienda-cliente e il fornitore: solo così, infatti, si possono fornire al sistema tutti gli elementi che servono per continuare a garantire un’analisi dei contenuti corretta ed efficiente.

Il terzo passo è la messa a punto del motore di ricerca. Consiste nel fare ricerche, cioè in pratica nel provare il motore e individuare rapidamente eventuali punti deboli che richiedono un intervento specifico.

Le ambiguità di significato delle parole, la specificità dei contenuti, l’uso di metafore non così comuni, ecc. possono creare dei problemi, per fortuna quasi sempre risolvibili in modo soddisfacente. Infatti, una delle prerogative più interessanti della tecnologia semantica è che la rete dei significati può essere arricchita di nuovi contenuti e di conseguenza possono aumentare anche i vari possibili legami fra le parole: con una piccola quantità di lavoro manuale (lasciando da parte il sogno di fare sempre e tutto in automatico), il motore può essere istruito in modo che “comprenda” bene e garantisca sempre un alto livello di precisione, correttezza e attendibilità.

Infine, c’è il rilascio all’azienda di una versione beta, cioè una versione di prova su cui si può iniziare a lavorare. Dopo alcuni giorni o settimane di test, i dati raccolti attraverso l’osservazione delle ricerche sottoposte al motore vengono analizzati in modo che si possano sistemare le ultime cose strettamente legate all'uso vero del motore visto che, piuttosto spesso, nell'utilizzo reale compaiono aspetti non ipotizzati in fase di analisi e primo test.

Nova100 tags: , , , ,

10/04/08

MITI e REALTÀ: la ricerca

La confusione legata ai tipi di motori di ricerca ha generato in ambito aziendale il mito che un motore vale l’altro e che il tipo di conoscenza (o di contenuti) da gestire non fa molta differenza.

Poiché il motore di ricerca per definizione (quello per il Web) deve trattare bene un po' tutti i contenuti (come abbiamo detto più volte, anche questa insieme con la velocità di implementazione in qualsiasi lingua è una ragione per cui nel Web prevale ancor oggi l’indicizzazione e il recupero dei contenuti per keyword), per molti diventa naturale estendere il ragionamento anche quando così non è.

La conoscenza aziendale, infatti, è un tipo di conoscenza e quindi non è vero che per qualsiasi azienda un motore vale l’altro. Questo non vuol dire che i motori tipici di Internet siano sempre sbagliati per le aziende (chi sostiene incondizionatamente questa tesi non dà una visione corretta del problema) ma che dipende dai casi, dalle necessità di lavoro, dalla quantità dei contenuti e dall’importanza che si dà (o si è costretti a dare) alle attività di ricerca.

Visto che abbiamo già parlato delle differenze tra i motori di ricerca per Internet e quelli per le aziende, ci soffermeremo sulle fasi che si attraversano quando si decide di sviluppare un motore di ricerca semantico per contenuti aziendali.

Anche in questo caso, si può partire da un mito e cioè che per implementare un motore semantico aziendale servono più o meno il tempo e le risorse necessari a costruire la Basilica di San Pietro ;-)

Si tratta di un falso mito perché anche se l'implementazione richiede più lavoro di quello necessario per installare un motore a keyword (spesso pochissimo di più), la qualità dei risultati ripaga abbondantemente il maggior costo iniziale già dopo poche settimane o mesi di utilizzo, rendendo conveniente l'operazione anche dal punto di vista economico. L'unica condizione da rispettare è quella di affidarsi a fornitori esperti della materia che abbiano fatto parecchie implementazioni in precedenza e che utilizzino una tecnologia di qualità.

Parleremo delle fasi di implementazione nei prossimi post.

Nova100 tags: , , , ,

20/03/08

MITI e REALTÀ: semantica e Semantic Web

La semantica è un tipo di tecnologia e non è il Semantic Web o Web semantico.

Il falso mito che siano la stessa cosa è nato perché la semantica è la tecnologia più promettente per dare concretezza al sogno del Semantic Web: con la semantica, infatti, si sta passando dalla teoria del Semantic Web (2001) alla pratica, anche se sarebbe più corretto parlare di forme di sperimentazione e non di Semantic Web in assoluto (l’implementazione non sta avvenendo su larga scala, vera utopia, ma attraverso determinati tool o servizi/siti particolari).

Il Semantic Web è dunque UNA delle possibili applicazioni della tecnologia semantica. Riguarda sempre la gestione automatica delle informazioni (i contenuti on-line) di cui potrebbe sfruttare tutti e tre i processi fondamentali: ricerca, categorizzazione, estrazione.

La tecnologia semantica abilita sia l’identificazione e il processo di estrazione dei concetti presenti nei contenuti sia la categorizzazione per argomenti. Per concetti s’intende il significato espresso attraverso le frasi a partire da una corretta comprensione del senso di ciascuna parola. Ogni concetto estratto viene etichettato, sempre in automatico: non è l’utente che sceglie le tag (come capita adesso nella maggior parte dei casi sul Web) ma il sistema stesso.

Detta così, sembra una cosa facile, anzi per noi persone è davvero un’operazione banale ma per un computer è un traguardo complesso, impossibile da raggiungere senza la semantica.

Nova100 tags: , , , , , , , ,

18/03/08

MITI e REALTÀ: la semantica per la categorizzazione automatica

Come detto, il metodo di lavoro è l’elemento più importante nello sviluppo di un progetto di categorizzazione automatica di successo ma, subito dopo, a fare la differenza interviene la tecnologia.

Ciò che può rendere tutto economicamente realizzabile, infatti, è l’uso di una tecnologia sufficientemente evoluta.

In teoria, si potrebbero implementare progetti complessi anche usando tecniche molto elementari (come ad esempio l’analisi incentrata sull’identificazione di keyword), ma la quantità di lavoro necessaria per arrivare a un buon grado di efficienza tenderebbe rapidamente all’infinito, con un aumento proporzionale anche dei costi: per ottenere il massimo da una tecnologia di base sono indispensabili persone estremamente esperte e capaci, in altre parole… molto rare e molto costose.

Con la comprensione del significato delle parole e delle frasi (la semantica), invece, la realizzazione del progetto diventa sostenibile perché si possono scrivere le regole di categorizzazione svincolandosi dai minuti dettagli che compongono i testi, lavorando in modo più astratto e generalizzato.

Un esempio può chiarire meglio questo punto.

Immaginiamo di voler analizzare tutte le mail che vengono inviate a un’azienda, ad esempio a una banca. Ci saranno diversi tipi di messaggi, ad esempio richieste di informazioni oppure lamentele per problemi di varia natura. Nei vari messaggi compariranno comunque gli stessi termini: conto corrente, acquisto titoli, libretto degli assegni, carta di credito, ecc.

Siccome non è la parola in sé che fa il senso ma l’ordine e l’insieme delle parole, è chiaro che non basta individuare delle keyword per capire dove si chiedono informazioni e dove invece ci si lamenta, ma occorre comprendere la struttura delle frasi.

Con la giusta tecnologia, il progetto può essere realizzato da persone moderatamente esperte (perciò non difficili da trovare) e in tempi accettabili (da qualche giorno a qualche mese al massimo).

Riassumendo, per un progetto di categorizzazione di successo non esistono formule (o automatismi ) magiche ma servono il giusto metodo e una tecnologia semantica di qualità.

Nova100 tags: , , , , , , , , ,

14/02/08

MITI e REALTÀ: categorizzazione automatica - niente magia, solo un segreto

Il segreto di un progetto di categorizzazione automatica di successo non è tanto nella scelta di una tecnologia sufficientemente potente, ma piuttosto nella metodologia utilizzata per realizzare il progetto: se il metodo è giusto, per ottenere il successo sarà poi indispensabile usare la tecnologia giusta ma se il metodo è sbagliato, non c’è tecnologia che tenga.

L’elemento più importante è la fase di analisi iniziale in cui è necessario sforzarsi di descrivere in modo chiaro, oggettivo e replicabile l’essenza del problema. È fondamentale che il cliente, tipicamente un’azienda con la necessità di gestire una considerevole mole di conoscenza (in genere, vari tipi di documenti prodotti o acquisiti per lavoro), spieghi al fornitore le proprie, reali esigenze.
Quest’ultimo, naturalmente, si deve impegnare per soddisfarle nel modo migliore.

Detta così, la situazione non sembra poi tanto diversa da quella di qualsiasi altro progetto di sviluppo di software ma qui si tratta di capire come gestire una conoscenza complessa, cosa tutt’altro che banale e che non si può in alcun modo improvvisare.

Il primo passo è quello più importante e richiede un impegno speciale da parte del cliente che, in modo ragionato, dovrebbe dare al fornitore le risposte per le seguenti domande:

  • per quale motivo voglio categorizzare i miei contenuti?
  • qual è la persona o quali sono le persone che conoscono bene la conoscenza che voglio categorizzare?
  • se l’attività di categorizzazione attualmente viene fatta manualmente, quali sono nel dettaglio i processi seguiti?
  • quali sono le categorie veramente importanti e significative, in grado di rendere il contenuto più utile e di maggior valore?
  • se l’insieme delle categorie esiste già, sono veramente necessarie tutte le categorie?
  • quali sono le logiche il più possibile oggettive che fanno sì che un determinato documento debba appartenere a una categoria piuttosto che a un’altra?

Anche se le domande sopra sono tutte semplici, non è così facile trovare subito le risposte ed ecco che entra in gioco l’esperienza del fornitore, che è coinvolto nel progetto di analisi sotto diversi punti di vista.

Intanto non deve solo offrire una soluzione ma condividere il problema del cliente.  Poi, deve avere competenze che vanno ben oltre gli aspetti tecnici o puramente legati alla tecnologia: in genere, infatti, il cliente non è un esperto di conoscenza e perciò non è semplice per lui individuare subito le categorie (o domini del sapere) basilari per la riuscita del progetto.

Se si riesce a realizzare la fase di analisi iniziale nel modo giusto, il passo più importante per il successo del progetto è fatto: questa, infatti, è l’unica, stretta via attraverso cui occorre passare per ottenere un sistema efficace, in grado di garantire efficienza e vantaggi in termini di costi e valore.

Nova100 tags: , , , , , , , , ,

08/02/08

MITI e REALTÀ: le ricerche in Internet

Esiste una lunga serie di false nozioni su Internet che ha dato vita a un macro-mito: on-line si può trovare tutto, basta “saper cercare”.

Invece non c’è proprio niente di speciale da sapere perché non è una questione di trucchi se non si trovano ad esempio libri reperibili in biblioteca: semplicemente non ci sono. Infatti, solo una piccolissima parte della conoscenza da cui siamo circondati è anche on-line e non per magia, ma perché qualcuno ha deciso di renderla disponibile via Web (e disponibile non significa “gratis” perché non è vero che tutte le informazioni del web sono gratuite… ma questo è un altro MITO ;-)).

Bisogna inoltre considerare l’esplosione delle pagine dinamiche (anche se tutti i motori di ricerca hanno sviluppato crawler apposta per indicizzare più contenuti possibili sottraendoli così alla parte nascosta del Web) e che i motori di ricerca riescono a classificare solo una minima parte di tutti i dati accessibili (nessuno sa indicare una percentuale precisa ma mi stupirei molto se fosse più del 4 o 5%). Quindi potrebbe anche essere che il contenuto sia on-line, ma rimarrebbe lo stesso il problema perché non esiste una tecnica speciale per recuperare ciò che non viene indicizzato.

Ma anche senza scomodare il Web nascosto: poniamo come certo che il contenuto d’interesse sia stato indicizzato, si può davvero trovare quello che serve in pochissimo tempo (e senza fare fatica… altro MITO)?

Senza le keyword giuste no, potremmo anche cercare anche per una settimana intera ma non cambierebbe nulla.

La realtà è che ancora non possiamo sfruttare al meglio quello che abbiamo a disposizione.

C’è chi dice che sarebbe bello avere in Internet qualsiasi documento originale (come i libri di cui parlavamo all’inizio del post), ma sarebbe bello anche solo riuscire a sfruttare la miriade di informazioni secondarie che possono comunque fornirci un supporto utilissimo, soprattutto perché sono fatte per la maggior dalle persone secondo diverse competenze, punti di vista, sensibilità, ecc.

Nova100 tags: , , , , , , ,

04/02/08

A volte ritornano…

Pensavo che avessimo superato da molto tempo l’idea di un’Intelligenza Artificiale così intelligente da sfuggire a qualsiasi controllo e di macchine tanto evolute da non sentirsi più solo macchine (ma, anzi, da non desiderare altro che la sottomissione dell’umanità).

Mi sbagliavo invece: su Nova di qualche tempo fa ho letto “L’esplosione delle macchine con troppa intelligenza” e in evidenza c’era questo paragrafo:

"L’uomo sta iniziando a produrre tecnologie che non riesce a capire. Ma deve fare attenzione a non inimicarsele."

Pare che al massimo fra 25 anni sapremo davvero di che cosa saranno capaci le intelligenze artificiali che produciamo oggi e addirittura c’è chi ha annunciato l’imminente lancio sul mercato di un prodotto che nel giro di 5 anni ci eguaglierà in fatto di intelligenza.

Anche se sono passati più di 50 anni dalle prime visioni catastrofiche legate alla nascita dell’Artificial Intelligence, evidentemente "tira" ancora parlare  dell’oscura minaccia della tecnologia amica/nemica...

Mi stupisce sempre il grande interesse che si crea nei confronti di progetti irrealizzabili che fanno perdere di vista i problemi reali e mi sfugge la ragione per cui si mostra tanto interesse per la ricerca di un’intelligenza uguale alla nostra piuttosto che per la realizzazione di strumenti furbi, davvero utili e in grado di affiancarci nelle nostre attività.

Alla fine, sono solo manovre pubblicitarie ma mi dispiace leggere cose che creano confusione e perplessità tra le tante persone che sono esperte del settore e che non hanno le conoscenze per farsi un'opinione ponderata.

Nova100 tags: , , ,

16/01/08

MITI e REALTÀ: la categorizzazione automatica…

... ovvero: programmi che “imparano” a categorizzare da soli e programmi che invece categorizzano e basta

A partire dalla fine degli anni Settanta, molti ricercatori hanno iniziato a investire tempo e risorse nell’individuazione di algoritmi in grado di analizzare dei testi già categorizzati a mano da altre persone per poi estrarne, questa volta autonomamente (o forse sarebbe meglio dire magicamente…), l’essenza della conoscenza necessaria a categorizzare altri testi dello stesso tipo.

In sostanza, l’idea era (anzi è perché nessuno ha trovato una soluzione reale) la seguente:

  • prendere l’elenco di categorie desiderate (o albero, spesso gerarchico) direttamente dalle persone che vogliono ottenere un sistema di categorizzazione automatica;
  • farsi fornire sempre dalle stesse persone un certo numero di documenti (etichettati manualmente) per ogni categoria partendo dall’insieme molto più ampio di tutti i testi disponibili;
  • servirsi dell’albero di categorie e dell’insieme dei documenti per insegnare al programma a “riconoscere gli stilemi” di ciascuna categoria. Quest’ultima fase è quella più magica ;-) ed è normalmente definita di addestramento (o training).

Da questo approccio è nato uno dei miti più longevi e persistenti del Knowledge Management.

Infatti, nonostante l’intento perseguito si sia dimostrato subito aleatorio, la voglia di renderlo attuabile è stata tale che ancor oggi si insiste sulla possibilità di poter ottenere un programma, adatto per qualsiasi ambito, che partendo da pochi esempi possa fare in automatico qualcosa che spesso nemmeno le persone riescono a fare.

L’idea di un sistema del genere è comprensibile e desiderabile (forse è il sogno di chiunque abbia a che fare con la gestione delle informazioni…) ma ha creato aspettative esagerate, assolutamente irrealistiche e, ancor peggio, molto dannose perché continuano a rendere più difficile l’avanzare dello stato dell’arte.

Sistemi di questo tipo NON esistono e, come mi capita spesso di sottolineare, non esistono nemmeno facili scorciatoie per la risoluzioni dei complessi problemi legati alla gestione delle informazioni.

Nel caso della categorizzazione, però, è vero che oltre al mito c’è anche la realtà e questa spesso è migliore di quella che ci si immagina.

Sebbene infatti la categorizzazione di contenuti ad uso personale sia ancora oggi piuttosto lontana dall’essere economicamente realizzabile (è ancora troppo costosa perché si tratta di un ambito difficile da circoscrivere e troppo vincolato alla soggettività), già da alcuni anni, in ambito aziendale, si possono implementare sistemi di categorizzazione automatica in modo economico ed efficace, purché fra tutte le parti in gioco (azienda e fornitore di tecnologia, cliente e venditore, ecc.) siano chiari gli obiettivi da raggiungere e anche le trappole da evitare.

Vedremo come nel prossimo post su questo argomento.

Nova100 tags: , , , , , , , , ,

11/01/08

MITI e REALTÀ: la categorizzazione

Anche la gestione delle informazioni (Knowledge Management in senso lato) ha i propri miti e le proprie leggende e penso che sia interessante parlarne  in una collana di post dedicata alla spiegazione di che cosa è reale e fattibile e che cosa è mito. È la prima collana del blog ;-)

Spero di riuscire a scrivere degli approfondimenti semplici e comprensibili, interessanti, anche se non sono in grado offrire troppe garanzie sulla regolarità della pubblicazione (ogni tanto devo anche lavorare). Confido piuttosto nella pazienza di voi lettori...

La categorizzazione

Partiamo con la categorizzazione, di cui ho già parlato di recente, non solo perché è un’attività centrale nella gestione efficiente della conoscenza contenuta nei testi (o, per dirla in termini più tecnici, delle cosiddette informazioni non strutturate), ma anche perché avvolta nei miti più pervicaci nell’ambito dell’organizzazione dei documenti.

Che cos’è la categorizzazione? La domanda non è così banale perché esistono diversi modi per indicare questa attività che, evidentemente, ha ereditato la confusionaria ecletticità tipica del Knowledge Management, compresa l’ampia varietà delle etichette… Limitandoci alle parole italiane, si usano comunemente “classificazione” e “clusterizzazione” (quest’ultimo è un brutto neologismo, ma purtroppo non esiste un corrispondente migliore) fino ad arrivare anche a veri e propri obbrobri linguistici tipo “tassonomizzazione”.

Personalmente preferisco “categorizzazione” perché mi pare che sia il termine in grado di rispecchiare nel modo più semplice il processo che sta dietro i vari nomi: distinguere secondo diverse categorie le informazioni di cui si dispone per poi renderne il reperimento facile e immediato.

Si tratta di un’attività eminentemente manuale e perciò vincolata a una visione soggettiva, a scelte individuali che dipendono dal modo di pensare, dalle necessità, ecc. e magari anche dal tipo di contenuti (documenti, mail, siti, ecc.).

Non c’è bisogno di sottolineare che, in quanto attività manuale, la categorizzazione presenta due grossi problemi: richiede moltissimo tempo per essere eseguita e normalmente dà luogo a definizioni di categorie non oggettive e dunque non facilmente sfruttabili da altre persone. Questi problemi sono le principali ragioni per cui, nell’ambito del normale corso di sviluppo delle tecnologie per la gestione delle informazioni, si è iniziato a pensare ad applicazioni automatiche.

I primi sistemi di categorizzazione sono nati subito dopo i primi tentativi di implementare applicazioni per la ricerca, anche se l’interesse per la potenziale utilità della categorizzazione automatica è enormemente cresciuto con l’esplosione delle informazioni negli ultimi anni. Basta pensare alla quantità di dati oggi reperibili nel Web rispetto a qualche anno fa, alla nostra esperienza diretta nella gestione dei documenti sui nostri PC oppure al fenomeno della posta elettronica: in meno di 10 anni un utente medio si è trovato a dover trattare circa 30 mail al giorno da pochi mail alla settimana…

Come pare tipico nell’ambito delle tecnologie per il trattamento delle informazioni (almeno osservando ciò che succede da addetto ai lavori), quasi tutti i ricercatori hanno affrontato il problema con l’idea fissa di trovare un algoritmo che, con poco o nullo lavoro manuale, potesse categorizzare qualunque contenuto in automatico e con elevata qualità.

È iniziata così la corsa al silver bullet della categorizzazione automatica piuttosto che di una soluzione più pragmatica al problema:  una fuga in avanti che ha portato ad aspettative eccessive e risultati molto lontani da quanto desiderato. Nei prossimi post vedremo come, quando e perché.

Nova100 tags: , , , , , , , , ,

Nova100