Marco Varone -

« aprile 2008 | Principale | giugno 2008 »

maggio 2008

29/05/08

Niente più temi in salsa Wikipedia, un software debella il copia-incolla: siamo sicuri?

Chi mi segue da parecchio tempo, forse ricorderà uno dei miei primi post in cui "stroncavo" gli articoli di divulgazione riguardanti l'intelligenza artificiale, i motori di ricerca evoluti e altre tecnologie simili.

Non ho poi ripreso molto l'argomento perché mi sono reso conto che è praticamente impossibile fare qualcosa di utile affinché questi articoli siano un po' meno folkloristici e un po' più affidabili scientificamente.

Non posso però evitare di commentare un pezzo uscito ieri in cui si descrive come risolto un problema che, nella realtà, ha una complessità tale da renderlo quasi impossibile da affrontare con successo.

Consideriamo anche solo un testo di 1.000 parole: eliminando quelle meno significative (articoli, preposizioni, congiunzioni, ausiliari...) resterebbero almeno 300 parole.

Per vedere se questo insieme di 300 parole è stato copiato, pensiamo di iniziare una ricerca in Internet. Chiunque può capire che ci troveremmo già di fronte a un problema, visto che nessun motore consente di  fare una ricerca con un numero così alto di parole.
Ma ammettiamo di voler procedere: potremmo creare dei sottogruppi di parole, 10- 20 parole al massimo, e iniziare poi a provare tutte le combinazioni possibili e immaginabili, creando via via nuovi, “N” sottoinsiemi di parole: non serve essere esperti in matematica per capire che si tratterebbe di una quantità abnorme di sottoinsiemi, impossibile da gestire.

In alternativa, si potrebbero scegliere solo i termini più significativi e usare questi come chiave di ricerca. Il controllo diventerebbe così un poco più affrontabile ma servirebbe l’intervento umano e questo farebbe cadere la tesi dichiarata nell’articolo.

Quindi, provando a continuare il ragionamento (senza cioè arrendersi dinanzi alla crescita esponenziale che si avrebbe andando avanti per le ricerche in sottogruppi) vediamo di capire che cosa succederebbe ipotizzando di riuscire a trovare dei testi on-line da cui forse potrebbe essere stato copiato il testo di partenza.
Ci troveremmo di fronte a un altro problema, molto complesso: dover scaricare tutti i documenti e analizzarli e poi pensare ad incrociarli per stabilire se il nostro testo è copiato o no.

Il professore di cui si parla nell’articolo molto probabilmente ha ideato qualche miglioramento agli approcci di ricerca e analisi esistenti, sicuramente avrà sviluppato un software potenzialmente utile per fare ricerche su Internet (di brani copiati) in modo più facile e rapido ma senza dubbio non ha messo a punto nulla di neanche lontanamente paragonabile a quanto descritto.

Si tratta di un’ennesima occasione persa per fare divulgazione di qualità su questi temi legati alla gestione delle informazioni, ma forse per uno studente abituato a usare più il copia&incolla della propria testa è un bel sollievo sapere che non esiste ancora una tecnologia in grado di capire così facilmente se un testo è copiato oppure no ;-)

Nova100 tags: ,

27/05/08

A caccia di informazioni

Qualche giorno fa un nostro cliente ci ha contattato per commissionarci un software per l’identificazione e la gestione delle informazioni relative ai suoi prodotti. In particolare, è interessato all’analisi delle notizie presenti nelle cosiddette fonti aperte, vale a dire le varie risorse informative liberamente accessibili (molte delle quali sono pubbliche e quindi alla portata di tutti, come ad esempio la stragrande maggioranza dei siti Internet) per sapere come si parla dei propri prodotti e come sfruttare questa conoscenza per migliorare la propria offerta.

In passato, abbiamo realizzato diversi progetti di questo tipo ed eravamo perciò tranquilli. Invece, ci siamo trovati di fronte ad un problema che ho già citato alcune volte in passato.

Pur trattandosi di un cliente importante (fatturato superiore al mezzo miliardo di Euro, quotato in Borsa, con prodotti e servizi usati da milioni di persone) non ci è stato possibile individuare informazioni di qualità che lo riguardassero.

Siamo partiti concentrandoci sul Web, cioè la fonte aperta per eccellenza, ma a parte brevi citazioni non esistono veri contenuti continui ed affidabili su cui implementare il servizio. Non si tratta di un’esperienza nuova ma anzi di un’ulteriore conferma che non è affatto vero che il Web contiene tutto ma sono comunque rimasto stupito perché non stiamo parlando di un’azienda di nicchia.

Divagazione…

Se il Web non contiene tutto, allora che cosa contiene?

Forse ve lo siete già chiesto e per la risposta bisogna considerare diversi aspetti. Limitandoci alla vicenda del cliente sopra, aggiungo qualche dettaglio e alcune considerazioni.

Per curiosità, abbiamo pensato di fare un paragone fra la nostra azienda cliente e un’azienda simile americana. Abbiamo così scoperto una differenza sostanziale: pur non essendoci per l’azienda americana ricchissimo materiale a disposizione (comunque la quantità è maggiore), esistono contenuti di qualità sufficienti per implementare una nostra soluzione in grado di garantire un valore aggiunto.

Fra le possibili considerazioni che si possono trarre, c’è l’arretratezza che persiste in Italia nell’uso di Internet. È vero che gli utenti sono cresciuti molto negli ultimi anni, ma forse non sono così tanti quelli che s’impegnano a far circolare osservazioni, spunti e idee nuove che non siano sempre e solo strettamente connesse ad aspetti tipici del consumismo.

Nova100 tags: , , ,

20/05/08

Balene e pelliccia di gatto

Domenica è iniziata la quarta edizione della Semantic Technology Conference, il più importante evento mondiale dedicato alle tecnologie semantiche.

Quest’anno non posso partecipare per altri impegni e sono perciò in attesa di valutare i contenuti e la qualità degli interventi a conferenza conclusa. Mi sono già fatto un’idea, però, e penso sia interessante condividere un paio di riflessioni in merito.

A una prima occhiata, l’evento sembra di dimensioni più ampie rispetto alla scorsa edizione, a dimostrazione dell’interesse continuo per la tecnologia semantica. Basta però scorrere il programma con più attenzione, senza neanche troppo sforzarsi di leggere fra le righe, per avere l’impressione che sia passato un anno inutilmente: non s’intravedono novità di rilievo fra i partecipanti, gli speaker e i vari interventi.

L’impressione è che, in generale, le grandi promesse dell’anno scorso non abbiano portato a risultati commisurati con le aspettative. Forse dipende dal forte e quasi globale rallentamento dell’economia (che negli Stati Uniti sembra avere colpito molto duro) oppure dal fatto che erano state create aspettative eccessive ma mi pare che tutti si siano concentrarti su dettagli e cose già viste piuttosto che sul quadro generale e su vere e proprie novità.

Non voglio procedere oltre con queste considerazioni perché l’evento è appena iniziato e si concluderà solo il 22 maggio. Mi auguro di potermi ricredere e, soprattutto, di trovare una smentita alla sensazione che con questa quarta edizione si sia innescato un meccanismo autoreferenziale: si parla molto, si lanciano sfide insistendo che siamo nell’anno giusto… ma poi nessuno indica una direzione precisa da seguire per rendere davvero efficaci tutte le potenzialità della semantica.

P.S. se vi chiedete il perché dello strano titolo, deriva dal fatto che oggi presenteremo al Semtech in anteprima un nuovo software, che cerca di indicare nuove direzioni :-),  nel corso di una sessione di lavoro intitolata “Whales & Cat Fur –Using a Semantic Network to Improve Precision & Recall”

Nova100 tags: , ,

15/05/08

Semplicità ed efficienza: la tecnologia semantica nella vita di tutti i giorni. Un esempio

Un buon esempio di applicazione della tecnologia semantica ai problemi di tutti i giorni è l’assistenza tecnica per i prodotti di uso comune.

I telefonini rappresentano un caso di studio interessante: sono strumenti ampiamente diffusi, il cui uso è consolidato e quotidiano, ma spesso sono così complessi da non essere sfruttati che al 30-40%.

Un progetto su cui stiamo lavorando consente agli utenti che hanno acquistato una certa marca di telefonini di inviare via SMS una richiesta di aiuto. In pratica, il funzionamento è lo stesso di qualsiasi SMS: si digita quello che si vuole e si invia. Il messaggio non è destinato però a una persona ma a un numero di assistenza automatica che fa partire questo processo:

  • la domanda o la richiesta dell’utente, che può scrivere esattamente come se stesse comunicando con una persona, viene analizzata in automatico in modo che sia capito il significato del messaggio (con la semantica); 
  • una volta individuato il problema, sempre in automatico viene recuperata l’informazione giusta per risolverlo. Le informazioni pertinenti possono essere subito recuperate perché in precedenza è già stata elaborata la base di conoscenza: tutti i contenuti del manuale d’uso del telefonino vengono cioè indicizzati e categorizzati (sempre con la semantica) in modo che possano così esser poi ricercati e trovati; 
  • identificato il contenuto giusto, sempre via SMS parte in automatico la risposta per l’utente.

Tutto questo nel giro di qualche secondo dal primo SMS: un’applicazione concreta della tecnologia semantica che non richiede nessun apprendimento da parte dell’utente e che è sempre a disposizione in modo semplice e naturale.

Nova100 tags: , , , ,

08/05/08

MITI e REALTÀ: i 2 principali vantaggi nella ricerca con un motore semantico

Un motore di ricerca semantico consente (anche) di effettuare delle ricerche puntuali esprimendo delle domande nello stesso modo con cui si chiederebbe un’informazione ad una persona (anziché usare la solita sequenza di keyword).

In gergo tecnico si parla di ricerche in linguaggio naturale* che non significa altro che esprimersi così come siamo abituati a fare quando parliamo e comunichiamo fra noi.

Inoltre, grazie alla rete dei significati delle parole che rende possibile una corretta identificazione del senso del discorso (attraverso l’individuazione del giusto significato dei termini e delle frasi in base al contesto), il motore di ricerca semantico offre un grosso  vantaggio: estendere la capacità di restituire tutti i contenuti attinenti alla domanda di partenza.

Più la domanda è precisa e completa, più i benefici che si possono ottenere con la semantica aumentano (come ho già detto più volte, la semantica non può fare grandi cose per ricerche tipo “Jovanotti” mentre è molto potente quando si tratta di scovare risposte per domande molto precise).

Se pensiamo all’esempio della manualistica per auto di cui abbiamo parlato, per una richiesta tipo “come si sostituisce il fanalino posteriore?” verranno estratti tutti (e solo) i contenuti attinenti, compresi quelli in cui l’argomento viene trattato attraverso parole diverse da quelle presenti nella domanda di partenza:
non solo un contenuto tipo “istruzioni per cambiare il fanalino posteriore”
ma anche  “Sostituzione lampada dei fanali”.

Le parole sono diverse ma il significato è sempre lo stesso.

* Ho notato che per i non addetti ai lavori non è così facile capire subito il significato di “linguaggio naturale”. L’’espressione (che evidentemente non è cosi naturale ;-)) si è diffusa per indicare il nostro linguaggio, le cui regole evolvono con l’uso, in opposizione ai linguaggi artificiali, le cui regole invece sono definite a priori come i linguaggi di programmazione dei computer. Per Natural Language Processing (NLP), ‘gestione del linguaggio naturale’, si intende infatti un sistema in grado di elaborare la lingua degli esseri umani.

Nova100 tags: , , , ,

Nova100