... ovvero: programmi che “imparano” a categorizzare da soli e programmi che invece categorizzano e basta
A partire dalla fine degli anni Settanta, molti ricercatori hanno iniziato a investire tempo e risorse nell’individuazione di algoritmi in grado di analizzare dei testi già categorizzati a mano da altre persone per poi estrarne, questa volta autonomamente (o forse sarebbe meglio dire magicamente…), l’essenza della conoscenza necessaria a categorizzare altri testi dello stesso tipo.
In sostanza, l’idea era (anzi è perché nessuno ha trovato una soluzione reale) la seguente:
- prendere l’elenco di categorie desiderate (o albero, spesso gerarchico) direttamente dalle persone che vogliono ottenere un sistema di categorizzazione automatica;
- farsi fornire sempre dalle stesse persone un certo numero di documenti (etichettati manualmente) per ogni categoria partendo dall’insieme molto più ampio di tutti i testi disponibili;
- servirsi dell’albero di categorie e dell’insieme dei documenti per insegnare al programma a “riconoscere gli stilemi” di ciascuna categoria. Quest’ultima fase è quella più magica ;-) ed è normalmente definita di addestramento (o training).
Da questo approccio è nato uno dei miti più longevi e persistenti del Knowledge Management.
Infatti, nonostante l’intento perseguito si sia dimostrato subito aleatorio, la voglia di renderlo attuabile è stata tale che ancor oggi si insiste sulla possibilità di poter ottenere un programma, adatto per qualsiasi ambito, che partendo da pochi esempi possa fare in automatico qualcosa che spesso nemmeno le persone riescono a fare.
L’idea di un sistema del genere è comprensibile e desiderabile (forse è il sogno di chiunque abbia a che fare con la gestione delle informazioni…) ma ha creato aspettative esagerate, assolutamente irrealistiche e, ancor peggio, molto dannose perché continuano a rendere più difficile l’avanzare dello stato dell’arte.
Sistemi di questo tipo NON esistono e, come mi capita spesso di sottolineare, non esistono nemmeno facili scorciatoie per la risoluzioni dei complessi problemi legati alla gestione delle informazioni.
Nel caso della categorizzazione, però, è vero che oltre al mito c’è anche la realtà e questa spesso è migliore di quella che ci si immagina.
Sebbene infatti la categorizzazione di contenuti ad uso personale sia ancora oggi piuttosto lontana dall’essere economicamente realizzabile (è ancora troppo costosa perché si tratta di un ambito difficile da circoscrivere e troppo vincolato alla soggettività), già da alcuni anni, in ambito aziendale, si possono implementare sistemi di categorizzazione automatica in modo economico ed efficace, purché fra tutte le parti in gioco (azienda e fornitore di tecnologia, cliente e venditore, ecc.) siano chiari gli obiettivi da raggiungere e anche le trappole da evitare.
Vedremo come nel prossimo post su questo argomento.
CATEGORIE: MITI e REALTÀ, Tecnologia
TAGS: categorizzare, categorizzazione, classificare, classificazione, clusterizzare, clusterizzazione, gestione della conoscenza, Knowledge Management, tassonomizzare, tassonomizzazione
©RIPRODUZIONE RISERVATA

Commenti
Scrivi un commento