Indica un intervallo di date:
  • Dal Al

Non tutte le tecnologie sono uguali

Come scritto nella puntata precedente (e in molti altri post negli anni scorsi :-), l'esplosione dell'informazione non strutturata degli ultimi 10-15 anni ha portato allo sviluppo di tecnologie complementari o alternative a quella inizialmente sviluppata per la ricerca di documenti (tecnologia a keyword).

La tecnologia complementare di maggiore diffusione è sicuramente quella statistica perché non è molto complessa da sviluppare e sostanzialmente simile per la maggior parte delle lingue. In realtà, non esiste UNA tecnologia statistica ma una serie di algoritmi e metodi che hanno una base statistica e che vengono applicati per migliorare la rilevanza dei risultati dei motori di ricerca e/o, più di recente, per addestrare un sistema di categorizzazione o di text mining.

Anche per questi algoritmi statistici, il testo rimane una sequenza di simboli e tutte le elaborazioni vengono fatte a questo livello: l'obiettivo è individuare i simboli più significativi (perché presenti solo in un sottoinsieme dei documenti) oppure i pattern (o sequenze) che si ripetono con una certa frequenza e che possono perciò indicare simboli più lunghi e selettivi. È evidente che, parlando di statistica, restiamo nell'ambito di "eccellenza" dei computer: si tratta sempre di un sacco di calcoli fatti velocemente senza che sia necessario cercare di implementare una qualche forma di comprensione della comunicazione linguistica.

Unicità

All'estremo opposto, si pongono invece le tecnologie che fanno un massiccio uso di metodi e tecniche di analisi più profonde, capaci di "comprendere" il significato di parole, concetti e frasi che costituiscono un testo. Pur non trattandosi dello stesso tipo di comprensione di noi esseri umani… tuttavia, è l'unico approccio in grado di andare oltre il livello simbolico/matematico, superandone i limiti.

Questo è l’approccio semantico, sicuramente il più potente ed efficace, ma anche il più complesso da implementare. Le tecnologie semantiche, infatti, riconoscono il testo come un'entità sistemica e non come una semplice sequenza di simboli e neppure come un insieme strutturato di elementi, che sono i modelli in cui il testo viene ridotto rispettivamente dall'approccio a keyword e da quello statistico.

Anche per la semantica, vale la considerazione fatta prima per la tecnologia statistica: non ne esiste UNA sola ma si tratta di una serie di algoritmi e di conoscenze che vengono applicati per analizzare un testo e individuare la maggiore quantità possibile di conoscenza e strutture sfruttabili da parte delle persone interessate.

Nel prossimo post, inizieremo ad analizzare in modo più approfondito che cosa può fare (e cosa non può fare) la tecnologia semantica.