Marco Varone -

15/07/08

La Semantica per il Semantic Web

Come ho già detto la tecnologia semantica non è il Semantic Web ma il Semantic Web non potrà mai esistere senza questa tecnologia.

Ci sono diversi casi di successo REALI legati all’implementazione in aziende di motori di ricerca semantici mentre (escludendo qualche esperimento) non si può dire altrettanto del Web semantico, dove  la questione rimane estremamente complessa.

La tecnologia semantica è l’unica che dà speranze di automatizzare l’idea di base del Semantic Web, cioè l’organizzazione concettuale delle informazioni on-line.

Per tutto quello che oggi è presente in rete non è ipotizzabile una sistemazione manuale:  è utopico pensare anche a un mondo di utenti che dopo che scrive pensa subito anche a far emergere le relazioni semantiche fra i concetti espressi, ad esempio usando le tag. Fra l’altro ogni utente userebbe le proprie etichette, come già accade, e questo porterebbe a taggare documenti affini in modo diverso, rendendo così difficile il recupero delle informazioni.

Con un sistema automatico basato sulla semantica sarà possibile sistematizzare i concetti di tutte le informazioni (entità, relazioni fra queste entità) garantendo un trattamento standard a tutti i contenuti.

Naturalmente non sarà possibile eliminare completamente l’attività manuale: innanzi tutto sarà necessario lavorare a monte ad una configurazione ragionata e intelligente (quindi umana) e, poi, verificare i risultati ottenuti con il sistema.

L’attività manuale potrà focalizzarsi solo e semplicemente sul controllo (ma in molti insistono sulla visione di un’attività automatica e manuale sempre integrate).

Probabilmente saranno diversi i casi in cui intervenire per mettere a punto le cose, ma intanto il grosso sarà fatto.

Inoltre, non sarà così complicato perfezionare il sistema perché si comporterà sempre allo stesso modo senza lasciarsi influenzare da fattori soggettivi (tipici delle persone :-)).

Nova100 tags: , , , , , ,

08/07/08

Quo vadis, Microsoft?

Dopo l’acquisto di Fast per l’enterprise search (ricerca in azienda) e il fallimento del tentativo  di acquisto di  Yahoo!, Microsoft ha appena annunciato un’altra acquisizione, sempre nel campo della ricerca ma questa volta per il mondo consumer: come qualcuno avrà letto, la “fortunata” è ora una piccola start-up americana di nome Powerset.

Evidentemente non è bastata la “fregatura” di Fast e così, dopo aver acquistato un’azienda con i bilanci più falsi di una banconota da 35 euro e il cui management è oggi sotto inchiesta penale in Norvegia (alla faccia della tanto decantata serietà e cristallina onestà dei popoli nordici… e poi dicono di noi italiani ;-)), Microsoft compie questa mossa di mercato come minimo poco comprensibile.

In questo caso non ci sono bilanci falsificati o problemi legati al management, soprattutto perché Powerset è un’azienda che ha zero vendite e da tempo non aveva neanche più un amministratore delegato in carica. Ma l’operazione, indipendentemente da dove la si guardi, sembra comunque uno significativo spreco di soldi e di tempo.

Si ha l’impressione che l’unica ragione per cui Microsoft compia queste operazioni sia una tremenda paura di Google: provando infatti quello che Powerset è riuscito a implementare spendendo 15 milioni di dollari (basta andare solo sul loro sito), si fa fatica a intravedere una ragione di acquisto. Il motore di ricerca semantico (o pseudo tale) realizzato da Powerset fornisce risultati che non si discostano da quanto ottenuto in passato con altri motori un po’ furbetti  o da quanto si può ottenere con poco sforzo mirato: fra l’altro Powerset non possiede nemmeno una tecnologia linguistica propria ma la prende in licenza da Xerox.

Se queste sono le armi con cui Microsoft vuole contrastare Google, allora Brin e Page possono dormire sonni tranquillissimi almeno per i prossimi 20 anni! Va però detto che il controvalore dell’offerta non è noto. Sono girate delle cifre ma… si sa, l’ufficiosità spesso è molto distante dalla realtà. Si può allora pensare che se Microsoft è riuscita a comprare il tutto a prezzi di saldo (Powerset era sul mercato da diversi mesi perché non aveva più soldi per continuare) allora ci può essere qualche logica: acquistare un po’ di tecnologia, assumere una cinquantina di persone che già lavorano da qualche anno nel campo della ricerca e muovere così un po’ il mercato della semantica che non era mai stato associato a Microsoft prima.

In ogni caso, non si tratta sicuramente di un buon inizio per la Microsoft post-Gates: c’è sicuramente bisogno di un concorrente per Google (così come ci sarebbe bisogno di un concorrente vero anche per Microsoft) ma sembra proprio che la stessa sindrome che in passato colpiva e accecava i concorrenti del gigante di Redmond stia colpendo adesso Ballmer e compagnia.

Nova100 tags: , , , , , , ,

02/07/08

Navigare prima di comprare

Qualche giorno fa è uscito un articolo in cui si dice che il metodo preferito per recuperare informazioni sui prodotti che si pensa di acquistare è l’uso dei motori di ricerca.

Si vede che si fa prima a navigare Internet piuttosto che andare nei negozi :-)

A parte le battute, che la gente prima di comprare s’informi su qualità e prezzi non è una novità, ma che lo faccia on-line sì, è una novità interessante soprattutto per chi vende.

La percentuale di chi rimane influenzato leggendo i pareri espressi nei vari siti è molto alta: 83%.
È impossibile per un’azienda sfuggire a un esame critico (praticamente giornaliero, incessante) sui prodotti e i servizi che offre.

Le voci negative corrono molto velocemente (abbiamo già parlato del monitoraggio della reputazione on-line come nuova esigenza aziendale, per non dire emergenza) ma per fortuna quelle positive hanno lo stesso passo.

Il fenomeno del tam-tam del Web 2.0 rappresenta infatti una grande opportunità (oltre che un rischio).

Le aziende chiedono strumenti in grado di tenere il passo perché è impossibile cavalcare a mano tutte le onde: bisognerebbe avere risorse dedicate probabilmente solo alla lettura delle fonti (ma anche in grado di compiere analisi o comunque di iniziare a organizzare/strutturare i dati in modo da renderli poi gestibili con gli strumenti automatici).

Tra i fornitori di tecnologia, invece, c’è molto fermento: l’ambito applicativo è estremamente interessante e promettente.

In questo contesto la semantica sta assumendo un ruolo di rilievo perché può esprimere appieno le proprie potenzialità. Il motivo è molto semplice: è l’unica tecnologia che non consente solo di rilevare di che cosa parlano gli utenti ma di COME ne parlano.

Perciò anche per un’azienda che sta pensando a un software per la Competitive/Marketing Intelligence vale la regola del... “navigare prima di comprare” :-)

Nova100 tags: , , , ,

19/06/08

L'informatica all'università

Nei primi anni di lavoro, ho dedicato parecchio tempo alla selezione del personale.

Allora, stiamo parlando dei primi anni Novanta, l’azienda era agli inizi, le risorse si potevano contare sulle dita di una mano e di certo non potevamo permetterci un ufficio con un responsabile delle risorse umane (tanto per la cronaca: in realtà, quello che a quei tempi non potevamo permetterci era un ufficio in generale… tant’è che la nostra prima sede è stata un garage come nella migliore tradizione delle start-up americane).

Adesso ho una bravissima responsabile del personale ma continuo a fare i colloqui chiave per decidere quali tecnici assumere (sviluppatori, analisti, PM...) perché sono queste persone che in una software house possono fare la differenza.

Fra il 1990 e il 1995 il nostro settore attirava veri e propri talenti: chi sceglieva certi indirizzi di studio e poi certe professioni di solito era molto motivato e la formazione universitaria era ancora di buon livello (e quando non lo era, le persone compensavano per proprio conto).  L’informatica e la programmazione avevano qualcosa di magico e non sembravano esserci limiti alle potenzialità di quest'area.

Pian piano, però, a partire dagli ultimi anni ’90 la qualità dei neolaureati ha iniziato a peggiorare nonostante sia cresciuto tantissimo il numero degli atenei che propongono percorsi attinenti all’informatica e siano esplosi facoltà, indirizzi di studio e immatricolazioni (aumentando la quantità dell’offerta ma peggiorando sempre più la qualità della stessa).

La situazione attuale è decisamente deprimente:  i neolaureati che si rivolgono a noi per cercare un primo lavoro sono pochissimo preparati, poco coinvolti e decisamente di livello molto inferiore rispetto al passato (ovviamente ci sono eccezioni a questa regola ma sempre meno).

È triste vedere che qualcosa che in passato funzionava abbastanza bene (la formazione universitaria su questi argomenti) sia così peggiorata: speriamo che si tocchi presto il fondo così almeno l’unica cosa possibile sarà risalire.

Nova100 tags: , ,

13/06/08

MITI e REALTÀ: comunicazioni interrotte

Lo scambio e la condivisione delle informazioni sono sempre citati fra i principali vantaggi del social networking. Mantenersi aggiornati sui temi d'interesse scambiando dati di qualsiasi tipo con la propria cerchia di amici, infatti, pare essere uno dei motivi principali per cui tante persone usano quotidianamente i vari Facebook e MySpace.

Visto che il problema del recupero delle informazioni nel Web è un tema costante di questo blog e che abbiamo anche già rilevato quanto i siti tipici del Web 2.0 complichino la situazione, oggi poniamo l’attenzione su un altro aspetto: l’interruzione della comunicazione determinata proprio dalla proliferazione di blog e social network.

È un paradosso, se si pensa che l’obiettivo dei social media dovrebbe essere esattamente il contrario, eppure succede proprio così.

Si scrive un testo (un post di un blog ad esempio) che si condivide subito con Facebook, si salva in del.icio.us, magari si mette in forma ridotta e con una foto su Flickr, ecc.
Amici e colleghi aggiungono un commento oppure dicono qualcosa via Twitter o avvertono altri amici e colleghi scrivendo a loro volta un post citando quello di partenza.
Senza dubbio chi scrive per primo può entrare in contatto con un pubblico immenso e da questo punto di vista la potenza dei blog e dei vari siti per il social networking non è in discussione. Come risultato, però, c’è anche un’interruzione nella conversazione che può anche finire in niente.

Non è facile (spesso è impossibile) recuperare tutta la conoscenza che si genera attorno a un certo argomento e una volta tanto non si tratta solo di un fallimento delle tecnologie per il recupero delle informazioni. Anche se i problemi tecnologici ci sono (come abbiamo già sottolineato più volte, non è vero che oggi ci basta aprire il browser e usare un qualsiasi motore di ricerca per arrivare a tutte le informazioni che ci servono), in questo caso sono coperti da un altro fallimento: la frammentarietà di riferimenti e commenti fa sì che, con estrema facilità, una conversazione s’interrompa perché viene sparpagliata chissà dove, facendo fallire l’idea stessa alla base dei social media.

Non tutte le novità vengono per migliorare :-)

Nova100 tags: , , , , , , ,

06/06/08

Wikipedia è come il maiale

Per fortuna che esiste Wikipedia! Se già non ci fosse, bisognerebbe proprio inventarla perché senza di lei i tre quarti di coloro che BAZZICANO il mondo della semantica non saprebbero che cosa fare :-)

Non passa giorno che qualcuno non annunci  di aver lavorato con Wikipedia per la nascita di un nuovo sistema di categorizzazione, di un motore di ricerca oppure di una tecnologia per il riconoscimento delle entità (persone, aziende, prodotti, ecc.) o per un repository (ovviamente RDF) di fatti estratti in un qualche modo.

Ora, è vero che Wikipedia è un’importante, ricca fonte di conoscenza ma non bisogna dimenticare che la qualità e la profondità dei contenuti non sono omogenee. Molti la usano perché è più facile da analizzare e contiene informazioni parzialmente strutturate: quest’aspetto è tutt’altro che comune nel Web e perciò fa gola a tanti che pensano di trovare una scorciatoia per risolvere il problema della gestione e del recupero delle informazioni.

Il problema invece rimane, inoltre spesso Wikipedia si mostra più inaffidabile di altre fonti che magari non sono strutturate per niente ma almeno sono stabili. Provate ad esempio a guardare le categorie associate ad ogni articolo e a notare come la soggettività e l’imprevedibilità prendano spesso il sopravvento.

Viva Wikipedia allora (che è come il maiale di cui non si butta via niente) ma per quelli che sviluppano (o dicono di sviluppare) tecnologia semantica, è ora di passare a qualcosa di più complesso e di rendersi conto che esiste tutto un universo di conoscenze, problemi e opportunità che vanno ben oltre la più famosa enciclopedia Web.

Nova100 tags:

29/05/08

Niente più temi in salsa Wikipedia, un software debella il copia-incolla: siamo sicuri?

Chi mi segue da parecchio tempo, forse ricorderà uno dei miei primi post in cui "stroncavo" gli articoli di divulgazione riguardanti l'intelligenza artificiale, i motori di ricerca evoluti e altre tecnologie simili.

Non ho poi ripreso molto l'argomento perché mi sono reso conto che è praticamente impossibile fare qualcosa di utile affinché questi articoli siano un po' meno folkloristici e un po' più affidabili scientificamente.

Non posso però evitare di commentare un pezzo uscito ieri in cui si descrive come risolto un problema che, nella realtà, ha una complessità tale da renderlo quasi impossibile da affrontare con successo.

Consideriamo anche solo un testo di 1.000 parole: eliminando quelle meno significative (articoli, preposizioni, congiunzioni, ausiliari...) resterebbero almeno 300 parole.

Per vedere se questo insieme di 300 parole è stato copiato, pensiamo di iniziare una ricerca in Internet. Chiunque può capire che ci troveremmo già di fronte a un problema, visto che nessun motore consente di  fare una ricerca con un numero così alto di parole.
Ma ammettiamo di voler procedere: potremmo creare dei sottogruppi di parole, 10- 20 parole al massimo, e iniziare poi a provare tutte le combinazioni possibili e immaginabili, creando via via nuovi, “N” sottoinsiemi di parole: non serve essere esperti in matematica per capire che si tratterebbe di una quantità abnorme di sottoinsiemi, impossibile da gestire.

In alternativa, si potrebbero scegliere solo i termini più significativi e usare questi come chiave di ricerca. Il controllo diventerebbe così un poco più affrontabile ma servirebbe l’intervento umano e questo farebbe cadere la tesi dichiarata nell’articolo.

Quindi, provando a continuare il ragionamento (senza cioè arrendersi dinanzi alla crescita esponenziale che si avrebbe andando avanti per le ricerche in sottogruppi) vediamo di capire che cosa succederebbe ipotizzando di riuscire a trovare dei testi on-line da cui forse potrebbe essere stato copiato il testo di partenza.
Ci troveremmo di fronte a un altro problema, molto complesso: dover scaricare tutti i documenti e analizzarli e poi pensare ad incrociarli per stabilire se il nostro testo è copiato o no.

Il professore di cui si parla nell’articolo molto probabilmente ha ideato qualche miglioramento agli approcci di ricerca e analisi esistenti, sicuramente avrà sviluppato un software potenzialmente utile per fare ricerche su Internet (di brani copiati) in modo più facile e rapido ma senza dubbio non ha messo a punto nulla di neanche lontanamente paragonabile a quanto descritto.

Si tratta di un’ennesima occasione persa per fare divulgazione di qualità su questi temi legati alla gestione delle informazioni, ma forse per uno studente abituato a usare più il copia&incolla della propria testa è un bel sollievo sapere che non esiste ancora una tecnologia in grado di capire così facilmente se un testo è copiato oppure no ;-)

Nova100 tags: ,

27/05/08

A caccia di informazioni

Qualche giorno fa un nostro cliente ci ha contattato per commissionarci un software per l’identificazione e la gestione delle informazioni relative ai suoi prodotti. In particolare, è interessato all’analisi delle notizie presenti nelle cosiddette fonti aperte, vale a dire le varie risorse informative liberamente accessibili (molte delle quali sono pubbliche e quindi alla portata di tutti, come ad esempio la stragrande maggioranza dei siti Internet) per sapere come si parla dei propri prodotti e come sfruttare questa conoscenza per migliorare la propria offerta.

In passato, abbiamo realizzato diversi progetti di questo tipo ed eravamo perciò tranquilli. Invece, ci siamo trovati di fronte ad un problema che ho già citato alcune volte in passato.

Pur trattandosi di un cliente importante (fatturato superiore al mezzo miliardo di Euro, quotato in Borsa, con prodotti e servizi usati da milioni di persone) non ci è stato possibile individuare informazioni di qualità che lo riguardassero.

Siamo partiti concentrandoci sul Web, cioè la fonte aperta per eccellenza, ma a parte brevi citazioni non esistono veri contenuti continui ed affidabili su cui implementare il servizio. Non si tratta di un’esperienza nuova ma anzi di un’ulteriore conferma che non è affatto vero che il Web contiene tutto ma sono comunque rimasto stupito perché non stiamo parlando di un’azienda di nicchia.

Divagazione…

Se il Web non contiene tutto, allora che cosa contiene?

Forse ve lo siete già chiesto e per la risposta bisogna considerare diversi aspetti. Limitandoci alla vicenda del cliente sopra, aggiungo qualche dettaglio e alcune considerazioni.

Per curiosità, abbiamo pensato di fare un paragone fra la nostra azienda cliente e un’azienda simile americana. Abbiamo così scoperto una differenza sostanziale: pur non essendoci per l’azienda americana ricchissimo materiale a disposizione (comunque la quantità è maggiore), esistono contenuti di qualità sufficienti per implementare una nostra soluzione in grado di garantire un valore aggiunto.

Fra le possibili considerazioni che si possono trarre, c’è l’arretratezza che persiste in Italia nell’uso di Internet. È vero che gli utenti sono cresciuti molto negli ultimi anni, ma forse non sono così tanti quelli che s’impegnano a far circolare osservazioni, spunti e idee nuove che non siano sempre e solo strettamente connesse ad aspetti tipici del consumismo.

Nova100 tags: , , ,

20/05/08

Balene e pelliccia di gatto

Domenica è iniziata la quarta edizione della Semantic Technology Conference, il più importante evento mondiale dedicato alle tecnologie semantiche.

Quest’anno non posso partecipare per altri impegni e sono perciò in attesa di valutare i contenuti e la qualità degli interventi a conferenza conclusa. Mi sono già fatto un’idea, però, e penso sia interessante condividere un paio di riflessioni in merito.

A una prima occhiata, l’evento sembra di dimensioni più ampie rispetto alla scorsa edizione, a dimostrazione dell’interesse continuo per la tecnologia semantica. Basta però scorrere il programma con più attenzione, senza neanche troppo sforzarsi di leggere fra le righe, per avere l’impressione che sia passato un anno inutilmente: non s’intravedono novità di rilievo fra i partecipanti, gli speaker e i vari interventi.

L’impressione è che, in generale, le grandi promesse dell’anno scorso non abbiano portato a risultati commisurati con le aspettative. Forse dipende dal forte e quasi globale rallentamento dell’economia (che negli Stati Uniti sembra avere colpito molto duro) oppure dal fatto che erano state create aspettative eccessive ma mi pare che tutti si siano concentrarti su dettagli e cose già viste piuttosto che sul quadro generale e su vere e proprie novità.

Non voglio procedere oltre con queste considerazioni perché l’evento è appena iniziato e si concluderà solo il 22 maggio. Mi auguro di potermi ricredere e, soprattutto, di trovare una smentita alla sensazione che con questa quarta edizione si sia innescato un meccanismo autoreferenziale: si parla molto, si lanciano sfide insistendo che siamo nell’anno giusto… ma poi nessuno indica una direzione precisa da seguire per rendere davvero efficaci tutte le potenzialità della semantica.

P.S. se vi chiedete il perché dello strano titolo, deriva dal fatto che oggi presenteremo al Semtech in anteprima un nuovo software, che cerca di indicare nuove direzioni :-),  nel corso di una sessione di lavoro intitolata “Whales & Cat Fur –Using a Semantic Network to Improve Precision & Recall”

Nova100 tags: , ,

15/05/08

Semplicità ed efficienza: la tecnologia semantica nella vita di tutti i giorni. Un esempio

Un buon esempio di applicazione della tecnologia semantica ai problemi di tutti i giorni è l’assistenza tecnica per i prodotti di uso comune.

I telefonini rappresentano un caso di studio interessante: sono strumenti ampiamente diffusi, il cui uso è consolidato e quotidiano, ma spesso sono così complessi da non essere sfruttati che al 30-40%.

Un progetto su cui stiamo lavorando consente agli utenti che hanno acquistato una certa marca di telefonini di inviare via SMS una richiesta di aiuto. In pratica, il funzionamento è lo stesso di qualsiasi SMS: si digita quello che si vuole e si invia. Il messaggio non è destinato però a una persona ma a un numero di assistenza automatica che fa partire questo processo:

  • la domanda o la richiesta dell’utente, che può scrivere esattamente come se stesse comunicando con una persona, viene analizzata in automatico in modo che sia capito il significato del messaggio (con la semantica); 
  • una volta individuato il problema, sempre in automatico viene recuperata l’informazione giusta per risolverlo. Le informazioni pertinenti possono essere subito recuperate perché in precedenza è già stata elaborata la base di conoscenza: tutti i contenuti del manuale d’uso del telefonino vengono cioè indicizzati e categorizzati (sempre con la semantica) in modo che possano così esser poi ricercati e trovati; 
  • identificato il contenuto giusto, sempre via SMS parte in automatico la risposta per l’utente.

Tutto questo nel giro di qualche secondo dal primo SMS: un’applicazione concreta della tecnologia semantica che non richiede nessun apprendimento da parte dell’utente e che è sempre a disposizione in modo semplice e naturale.

Nova100 tags: , , , ,

Nova100