Perché è così importante strutturare (bene) le informazioni?
Il problema più difficile nel trattamento automatico del linguaggio o delle informazioni è l’analisi delle frasi e l’identificazione del significato giusto delle parole (disambiguare).
La lingua, infatti, è ricca di omografi, di termini che hanno più di un significato e di locuzioni o fraseologie che oltre a un senso letterale assumono anche un valore metaforico.
Qualche esempio:
“canzoni” sostantivo e “canzoni” forma del verbo canzonare, “lotto” sostantivo e “lotto” verbo, “colle” plurale di “colla” e “colle” nel senso di monticello;
“calcio” che indica sia uno sport sia un’azione sia una parte della pistola sia un elemento chimico, ecc., “polo” che indica un tipo di maglietta o maglione, ma anche uno sport e un tipo di macchina (la stessa cosa vale per “golf”!), “radio” che al femminile significa una cosa e al maschile ne indica altre, “giallo” che può essere inteso come colore oppure come genere di libri, film, ecc.;
“testa di legno” che assume un senso diverso secondo la frase: questa bambola ha la “testa di legno” - tuo fratello è una “testa di legno”, la mamma “ha tagliato la corda” del pacco - il ladro “ha tagliato la corda”.
La comprensione per noi è naturale (lo diventa attraverso le esperienze che maturiamo crescendo e anche studiando, approfondendo, ecc.), ma trasferire a un software l’esperienza necessaria perché capisca è faticoso e complesso.
Oggi, però, si riescono a fare cose che in un passato neanche troppo lontano erano davvero impensabili.
Grazie ai progressi della tecnologia, è possibile in tempi rapidissimi trasformare i testi in modo che possano essere poi elaborati con il computer. Nei testi (qualsiasi comunicazione scritta in generale) normalmente non ci sono elementi organizzati a priori in database ma frasi espresse nel linguaggio comune. Per questo in gergo si parla di “informazioni non strutturate” per la cui strutturazione la semantica si profila come la tecnologia più appropriata: saper riconoscere una parola in un testo è un’operazione semplicissima, che non richiede l’impiego di tecnologie sofisticate (e perciò si presta bene per attività di ricerca basate sull’uso di keyword), mentre il discorso cambia se si tratta di individuare il concetto che questa parola esprime. In questo caso, è necessaria un’analisi linguistica approfondita. Una volta strutturate e organizzate in database, le informazioni diventano “leggibili” con il computer e dunque possono essere elaborate in automatico per diverse attività: ricerca, classificazioni automatiche di documenti, e-mail, ecc., organizzazione e raccolta di dati per valutazioni aziendali strategiche e sistemi di reportistica (business intelligence in generale), ma anche traduzioni e ricerche multilingua (forse avrete già sentito parlare di cross-linguistic search).
È chiaro che la qualità dei risultati di tutte queste possibili attività aumenta molto se le informazioni non perdono la propria, vera natura (cioè il significato che hanno) passando da non strutturate a strutturate.
