NOVA
in

SematicaMente -

09/07/09

Bing

Microsoft ha reso disponibile da un po’ di settimane “Bing”, il nuovo motore di ricerca per Internet il cui lancio ufficiale è stato preceduto da un battage pubblicitario molto inferiore al previsto (anche Microsoft ha imparato da Google che conviene fare prima un rilascio soft e poi, dopo qualche mese di messa a punto, una vera e propria campagna pubblicitaria).  Tralasciando qualsiasi considerazione sul nome (che non mi sembra il migliore possibile), stando a quello che si legge dovrebbe trattarsi di un motore di ricerca per Internet basato su nuovi approcci e algoritmi.

Ho fatto alcune prove di funzionamento per capire miglioramenti e novità, ma dopo circa due minuti ho rischiato di interrompermi: per riuscire a sperimentare le nuove caratteristiche annunciate per Bing, occorre prima di tutto indicare gli Stati Uniti come paese di provenienza (cioè non basta cercare in modalità “cerca tutto”, chiedere di estendere la query a tutto il Web). Di conseguenza, è necessario conoscere l’inglese e, naturalmente, fare ricerche relative al mondo americano (probabilmente, se questi primi mesi saranno positivi, Microsoft espanderà progressivamente queste funzioni ad altre lingue, altri mercati). Comunque, risolti i problemi di inglese e provenienza, ho fatto le solite prove e devo dire che la cosa migliore da fare è sospendere il giudizio: ci sono elmenti interessanti ma serve che il sistema sia usato per qualche mese dagli utenti in modo da consentire a Microsoft di migliorare molte cose.

Mi sento però già di dire che non vedo nessuna funzione rivoluzionaria o semantica: sicuramente, la focalizzazione su determinati contesti (acquisti, viaggi, salute e commercio locale) è sensata e può garantire risultati migliori a parità di investimenti (non a caso, sostengo questo da diversi anni)  ma il tutto pare sostanzialmente un’evoluzione di quanto già realizzato in passato.

 

Va detto che per la prima volta, sembra che le acque si stiano muovendo attorno a Google grazie all’arrivo di Bing (e questo è positivo) ma vedremo solo nei prossimi mesi se la cosa avrà un vera ricaduta concreta e duratura.

tags:

24/06/09

Le trappole della categorizzazione

Ho già scritto diverse volte sulla categorizzazione automatica ma è un tema talmente complesso e ricco di sfaccettature, pur apparendo semplice ai non addetti ai lavori, che penso valga la pena parlarne ancora una volta (e poi ancora in futuro :-).

In questo caso, mi voglio concentrare su quei problemi di classificazione di contenuti che riguardano argomenti abbastanza generici e orizzontali, per intenderci le classiche categorie di tipo giornalistico: cronaca, sport, economia, politica e così via. Per noi che sviluppiamo già da tempo software per la categorizzazione, la ricchezza di contenuti non istituzionali sul Web (principalmente blog e simili) offre molte più opportunità che in passato di applicare con successo le nostre soluzioni. In teoria, si tratta di una soluzione vincente non solo per chi sviluppa la tecnologia ma anche per chi fornisce i contenuti, perché non servono particolari lavori di personalizzazione delle regole di categorizzazione e l’arricchimento di contenuti con informazioni di qualità risulta veloce ed efficace.

Ci sono però due aspetti non banali che devono essere valutati con molta attenzione per evitare significativi problemi in fase di implementazione.

Il primo aspetto è in qualche modo connaturato nella natura personale e soggettiva di queste fonti di informazione. Nei blog, infatti, è abbastanza frequente (se non obbligatorio :-) mischiare post sull’argomento o sugli argomenti di cui la persona è esperta o appassionata (cinema, sport, tecnologia…) con altri più intimi e personali, che alla fine non parlano di niente in particolare. Quando si cerca di categorizzare questo tipo di contenuti con un sistema normalmente usato da periodici e quotidiani per articoli che hanno uno o più temi forti, è molto facile che questi post creino una grossa quantità di rumore, tale da rischiare di compromettere l’utilità dell’intero progetto. Per minimizzare questo rumore, occorre essere consci del problema e utilizzare in modo esperto la tecnologia semantica: così facendo, il risultato finale è solitamente di buon livello e in grado di dare un vero valore aggiunto agli utenti.

Il secondo aspetto è lunghezza media di questi contenuti. Molto spesso il post è breve e non supera i 500-600 caratteri, rendendo molto difficile il raggiungimento di una soglia di confidenza accettabile per le categorie individuate. Chi legge un blog sa già di cosa si parlerà perché ha letto i post precedenti e non ha bisogno di un particolare contesto per individuare il tema principale. Per un programma la cosa è decisamente più complicata anche perché, molto spesso, il programma non analizza uno dopo l’altro i post di un blog o di una stessa fonte di informazioni ma li riceve in ordine casuale o singolarmente. Per gestire correttamente questo aspetto, occorre saper accettare qualche compromesso e modificare il bilanciamento del sistema in modo progressivo fino a raggiungere un buon equilibrio.

In questi progetti, la tecnologia è molto importante ma ugualmente fondamentale è l’esperienza di chi da anni lavora su problemi di questo tipo: come si dice a Napoli, nessuno nasce imparato :-)

tags: , , , , ,

16/06/09

Google Squared

Sembra proprio che in queste settimane il fermento attorno al mondo dei motori di ricerca non accenni a diminuire (fra l’altro quelli di WolframAlpha hanno rilasciato un insieme di aggiornamenti definendoli molto significativi, anche se in realtà non mi sembra che pur così ci siano vantaggi reali per gli utenti comuni). Forse per non lasciare il palcoscenico solo alle new entry e a Microsoft, che nel frattempo ha rilasciato Bing, anche Google ha annunciato una serie di novità che pur non essendo particolarmente rilevanti sono comunque servite a fare in modo che i giornalisti scrivessero anche di loro.

Oltre a quanto citato in un post precedente, Google ha reso disponibile a tutti Google Squared dopo qualche settimana dall’annuncio (in singolare coincidenza con il lancio di Bing ;-)). Squared per ora è semplicemente un’applicazione disponibile nei Google Labs ma dall’enfasi con cui è stato presentato sembra essere un servizio su cui Google sta investendo cifre significative.

Che cosa sia Google Squared probabilmente non lo sanno nemmeno quelli di Google e non sarò certo io a sciogliere l’enigma ;-) anche dopo averlo provato e condiviso pareri con altri colleghi.

L’idea di massima sembra essere quella di far capire che è possibile trasformare informazioni non strutturate (cioè non ancora organizzate in database) in conoscenza strutturata e più facilmente accessibile (in pratica, il Sacro Graal del Semantic Web) ma il risultato è come minimo immaturo e molto spesso sostanzialmente inutile (sembra quasi che abbiano accelerato la disponibilità del servizio per motivi di marketing... ). È vero che ci sono alcuni casi in cui inserendo 4 o 5 elementi simili il sistema è in grado di restituire delle tabelle di attributi specifici ma è altrettanto vero che facendo delle prove meno vicine agli esempi forniti il risultato è imprevedibile. Fra l’altro, sembra che molto spesso in caso di risultati sensati Google Squared peschi principalmente da Wikipedia, fonte di informazioni che di per sé è già parzialmente strutturata (vedi DBpedia), facendo così dubitare della possibilità di applicare questo approccio a contenuti veramente generali.

Dal punto di vista puramente tecnico, si notano qua e là sviluppi interessanti e non banali ma, almeno per ora, non si capisce se potranno portare a qualcosa di veramente utile nei prossimi mesi o anni: allo stato attuale, sembra si tratti più di un simpatico progetto di ricerca che di qualcosa che possa diventare un vero prodotto.

tags: , , , ,

27/05/09

Bastava dirlo…

Sicuramente non c’entra nulla ma mi fa piacere pensare che il mio piccolo post sull’auto-completamento di Google sia stato letto da qualcuno del gigante di Mountain View :-), e che abbia ottenuto l’effetto desiderato: infatti, se provate adesso a fare una ricerca, vedrete che il numero dei risultati non è più mostrato. Io avevo suggerito di mettere un numero tipo “ordine di grandezza”, ma si vede che hanno problemi anche con quello e hanno deciso di non mettere nulla.

La mia era più che altro una provocazione scherzosa ma fa comunque piacere vedere che l’attenzione nei confronti degli utenti rimane un elemento importante per Google. Il fatto di aver eliminato in toto il numero di risultati mi fa però pensare che abbiano qualche problema di traffico o di volumi (i numeri erano comunque indicatori utili della ricchezza della query ed è perciò strano averli tolti se non ci sono problemi più grossi sottostanti).

Visto che mi ascoltano mi permetto di fare un altro suggerimento: perché non sistemate anche i problemi di numeri che non tornano anche su Google News? :-)

CATEGORIE:

tags: ,

20/05/09

WolframAlpha: tanto rumore per nulla?

Sono finalmente riuscito a trovare un po’ di tempo per provare il nuovo arrivato in Internet: WolframAlpha (rilasciato ufficialmente solo venerdì scorso).

Come anticipato qualche tempo fa, prima di esprimere un’opinione ho voluto provare il sistema, basandomi così su prove reali e concrete anziché speculazioni e teorie. Pensavo che mi sarebbero servite almeno tre o quattro ore per valutare con l’occhio clinico dell’esperto ;-) pregi e limiti del servizio (sì, “servizio”: nemmeno Stephen Wolfram l’ha mai chiamato motore di ricerca anche se poi tutti lo definiscono così) ma in realtà alla fine è bastato meno tempo per capire che, almeno per ora, non c’è nulla di rivoluzionario in questo “computational knowledge engine”.

Si tratta sostanzialmente di un sistema volto a ottenere in maniera più semplice e veloce del solito informazioni di natura matematica, scientifica o statistica in buona parte già disponibili nel Web, rendendole accessibili da un unico punto di entrata. Almeno per ora, il tutto però funziona così così, ma questo è abbastanza normale trattandosi di una primissima versione. Non essendo poi io appassionato né particolarmente esperto dei contenuti che il sistema rende più fruibili, sinceramente non so dire quali vantaggi WolframAlpha potrà portare a chi si occupa di questi temi per lavoro o per divertimento. La mia impressione è che per l’utente comune si tratti sostanzialmente di un servizio poco rilevante. Ho provato a fare qualche domanda su quei domini più generalisti (come sport e giochi per gli anagrammi), e ho visto che copertura e comprensione sono decisamente ridotte. Fra l’altro, il modulo che si occupa dell’elaborazione del linguaggio naturale è decisamente rudimentale:  su questo aspetto, visto che al progetto hanno lavorato più di 200 persone per oltre due anni, si poteva fare sicuramente di meglio (e so anche come :-).

Probabilmente anche questo servizio è stato vittima dell’eccesso di aspettative create da tutti coloro che gravitano attorno all’universo dei motori di ricerca. La spasmodica, quasi messianica attesa del nuovo unto del Web, il Google Killer, fa spesso perdere di vista a (quasi) tutti il fatto che realizzare qualcosa di veramente innovativo e allo stesso tempo utile per un numero elevato di utenti è estremamente difficile e complesso. Il fatto che lo stesso Google da anni non presenti novità sostanziali nella parte di ricerca (a parte qualche ritocco estetico, gli abstract più lunghi o le keyword correlate), fa capire che la strada verso effettivi miglioramenti è tutta in salita.

Facendo pulizia di tutta l’hype gonfiatasi a dismisura negli ultimi due mesi, rimangono alcune considerazioni finali: innanzi tutto, è comunque molto positivo che qualcuno stia provando a fare qualcosa di nuovo (e per questo è da apprezzare l’impegno di Wolfram e di tutte le persone che hanno lavorato con lui); secondariamente, è forse sensato aspettare ancora qualche mese prima di emettere giudizi definitivi. Il mondo è così grande che c’è spazio per servizi di successo anche solo in nicchie più o meno specifiche (e alla fine il mercato non è altro che un insieme di nicchie più o meno grandi... ).

L’unica cosa che si può già dire è che la caccia al nuovo Google killer rimane aperta e questo darà da scrivere ai giornalisti (e a me) ancora a lungo :-)

tags: , ,

13/05/09

MITI e REALTÀ: Google dà i numeri

Google continua giustamente a lanciare nuove (piccole) funzioni e a rifinire quelle esistenti ma forse sarebbe il caso che dedicasse anche un poco di tempo a far tornare i conti sulle cose che ha in linea da anni: ho già scritto qualcosa in passato sui numeri che non tornano in Google News ma penso che sia ancora più interessante far notare i problemi sulla ricerca Web, che è sicuramente usata molto più spesso (e poi è divertente ogni tanto mostrare che il re è nudo :-)

In teoria, quando si fa una ricerca in Google usando un paio di parole senza virgolette, l'ordine non è importante e il sistema dovrebbe applicare una sorta di AND fra le due parole (che poi degrada in OR in base alle formule alchemiche applicate). Invece, pare proprio che non sia così e che ci sia una certa approssimazione nel restituire il numero dei risultati.

Infatti, se ad esempio cerco Francesco Totti, Google mi dice che ci sono circa 1.480.000 risultati mentre se cerco Totti Francesco i risultati si riducono a soli 424.000 senza che si capisca il motivo. Forse, il fatto che la maggior parte delle persone cerchi nel primo modo (nome e poi cognome) c'entra qualcosa. Ma qualcosa non torna comunque: se cerco Maldini Totti, ottengo circa 450.00 risultati mentre con Totti Maldini ne ricevo più di 550.000... Non è finita qui: se cerco Francesco AND Totti i risultati addirittura crescono fino a 2.390.000, il che non è proprio logico e intuitivo (anche se è possibile inferire cosa combina Google dietro le quinte...) mentre se provo "Francesco Totti" torniamo verso un numero simile alla prima ricerca.

Sempre sui numeri, degna di nota anche l'approssimazione eccessiva dei risultati nella tendina dell'auto-completamento: provate a scrivere "Aram Quartet" con l'auto-completamento attivato e vedrete che vi dice che ci sono circa 335.000 risultati: se però eseguite la query, i risultati che escono sono 769.000 (o anche di più, una volta ha indicato 1.280.000 risultati...).

Un consiglio a Google: visto che praticamente nessuno va oltre le prime due pagine di risultati, perché non tagliare la testa al toro e scrivere semplicemente più di mille (diecimila) risultati in questi casi? In alternativa, si potrebbe anche copiare una volta tanto Yahoo!, dove i numeri sono congruenti per le diverse varianti :-)

tags: , ,

21/04/09

La semantica delle immagini

Mi capita sempre più spesso che qualche cliente (o potenziale tale) mi chieda se il nostro motore di ricerca semantico è in grado di cercare anche le immagini. Le prime volte restavo stupito e non capivo bene il perché della domanda ma adesso la mia risposta è sempre immediata, e cioè: no, non lo fa perché in un'immagine c'è ben poco testo a cui applicare la tecnologia semantica  :-)

 

Col tempo, ho anche capito che la domanda nasce in qualche modo spontanea, perché le persone capiscono quanto sia difficile analizzare semanticamente un testo e pensano che se noi siamo riusciti a risolvere un problema così complesso, forse siamo in grado anche di affrontare quello del riconoscimento dell'immagine. Purtroppo, però, l'unica cosa che i due problemi hanno in comune è l'estrema complessità e niente altro.

 

Il tema è comunque molto interessante e quando oggi ho letto che Google ha reso disponibile, nel suo Labs, uno strumento per cercare immagini simili a un'altra immagine scelta dall'utente, non ho resistito e sono andato a fare subito qualche prova. I risultati sono simpatici ma dimostrano che anche la "mighty Google" è ben lontana dall'aver risolto il problema: hanno implementato alcuni algoritmi furbi (ad esempio, cercando "french fries" e selezionando una delle immagini proposte, si ottiene questo buon risultato) ma è evidente che sono più che altro basati sui colori dominanti e su qualche macro elemento (anche il testo della pagina che contiene l'immagine sembra centrare molto) senza alcuna comprensione di che cosa contiene veramente l'immagine. Per verificarlo, basta provare questi esempi).

 

 

Su certe immagini la cosa funziona benino, su altre per nulla (e spesso il risultato è davvero divertente come in questo caso e in quest'altro). Visto che comunque non costa nulla farlo (almeno per ora :-), se si cercano immagini simili ad una che interessa... allora si può sempre provare sperando di essere fortunati.

 

tags: ,

16/04/09

La primavera del Question Answering

Con l’arrivo della bella stagione, sembra che “escano dal letargo” anche i motori di ricerca specializzati nel QA e cioè nel dare risposte puntuali a domande fatte dagli utenti (a differenza dei normali motori di ricerca che restituiscono invece un elenco di pagine relative alla ricerca fatta): infatti,  prima Wolfram Alpha e adesso anche True Knowledge (in sviluppo da diversi anni) cercano di ritagliarsi un posto al sole.

 

Per i normali utenti Internet, un motore di ricerca basato sul QA assomiglia a qualcosa di magico perché, almeno in teoria, è possibile fare una domanda di qualunque tipo e genere e, in un attimo, ottenere la risposta precisa. In realtà, un sistema che funzioni veramente in questo modo è impossibile: per riuscire a implementare un servizio di questo tipo sarebbe necessario risolvere problemi talmente complessi e difficili che non credo sarà mai possibile farlo (e mi dà molto fastidio vedere che, da anni, persone e aziende senza scrupoli affermano il contrario, suscitando negli utenti false aspettative che non potranno mai essere soddisfatte).

 

Quello che invece è possibile già ora è implementare un motore di ricerca di questo tipo in grado di rispondere con una buona precisione ad un numero significativo di domande comuni e frequenti per l’universo del Web: servono tantissimo lavoro (e molti soldi), una tecnologia di primissimo livello (semantica of course :-) e una motivazione fortissima (perché le complessità sono molte e i problemi sempre fuzzy) ma si può fare.

 

Non sarebbe un “Google killer” come vorrebbero molti (e forse nemmeno un vero concorrente) ma un buon complemento per campi specifici ed esigenze puntuali (anche molto comuni): sviluppare un sistema di questo tipo che sia veramente utile nell’uso di tutti i giorni richiede comunque forti investimenti e, in un periodo come quello attuale, non so se sarà poi così facile trovare le risorse necessarie (senza grossi investimenti, c’è un fortissimo rischio che il sistema abbia un’utilità marginale perché potrebbe rispondere bene solo ad una piccola frazione delle domande più comuni).

 

Comunque vedremo cosa ci riserveranno i prossimi mesi: sulla carta, sembra essere un periodo interessante per questo tipo di servizi.

tags: , , , ,

06/04/09

Resterà solo Google...

È di questi giorni la notizia che Jimmy Wales (uno dei mitici fondatori di Wikipedia) ha deciso di chiudere Wikia Search, l’ambizioso e utopico tentativo di creare un concorrente di Google basandosi principalmente sul lavoro volontario delle persone.  La scusa ufficiale è quella del pessimo periodo economico (che è comprensibile, anche se va sottolineato che l’impegno volontario è tale, cioè gratuito, sia in periodi floridi sia in momenti di crisi) ma in realtà il progetto a me è sembrato velleitario fin da subito. Comunque sia, a distanza di poco più di un anno, Wales è tornato sui propri passi.

Ragionando in modo generale, è un peccato, perché come scrivo da molto tempo c’è un assoluto bisogno di veri concorrenti di Google. Le tecnologie interessanti ci sono e anche le idee mentre per le risorse e la giusta attenzione forse bisognerà attendere tempi migliori. Intanto è inevitabile che i periodi di crisi portino via con sé idee poco concrete e basate su ipotesi troppo ottimistiche e la cosa, in fondo, non è certo negativa.

tags: ,

27/03/09

Abbiate pazienza

Mi rendo conto di essere noioso e ripetitivo ma l'abuso del concetto di semantica aumenta invece di diminuire e non posso evitare di scriverne ancora a breve distanza da altri post in merito (cercherò solo di essere breve).

 

Dopo la fantomatica semantica presente in Kumo, adesso è il turno di Google: etichettato come “semantico” per cose che in realtà sono molto più semplici evoluzioni di algoritmi già in uso. Tutto è partito da un annuncio di Google in cui si parlava della messa in linea di due miglioramenti per la ricerca: il primo è un miglioramento del meccanismo esistente di suggerimento delle ricerche correlate (con ampliamento ad altre lingue rispetto al passato) mentre il secondo riguarda la lunghezza degli snippet di testo restituiti nei risultati (che adesso sono più lunghi se la ricerca contiene molte parole). Due piccoli miglioramenti non inutili (ma sicuramente non rivoluzionari) e correttamente indicati dall'autore come tali: in nessun punto dell'annuncio compare la parola semantica ma questo non ha impedito lo scatenarsi di un diluvio di articoli in cui si parla delle nuove funzioni semantiche di Google (che in realtà sono miglioramenti degli esistenti algoritmi statistici).

 

Forse solo la diffusione di un motore di ricerca per Internet con vere tecnologie semantiche porrà fine a questa inflazione galoppante ma non ne sono sicuro: andrà a finire che la gente si stancherà della (pesuedo) semantica prima ancora di averla potuta utilizzare veramente :-)

CATEGORIE:

tags: , , , , , ,

RICERCA NEL BLOG