Marco Varone -

« gennaio 2008 | Principale | marzo 2008 »

febbraio 2008

28/02/08

Festival di Sanremo e linguistica (perché Sanremo è Sanremo)

Sicuramente vi domanderete cosa c'entra la semantica (nello specifico più la linguistica) con Sanremo…

Il fiasco dell'attuale edizione del Festival mi ha fatto tornare in mente che esattamente 10 anni fa facemmo un'analisi dei testi delle canzoni per il Dopofestival (condotto guarda caso proprio da Chiambretti) utilizzando un Cogito ancora agli inizi della sua futura carriera :-) per trovare le parole più comuni, le somiglianze dei testi con canzoni famose e altre cose ancora.

Come spesso capita in questi eventi, durante il Dopofestival furono utilizzati solo pochissimi dei dati estratti con quest'analisi (e nemmeno quelli più interessanti ma solo qualche nota di colore) e la cosa ci fece piuttosto arrabbiare perché ci avevamo lavorato un sacco  in cambio solo di una citazione pubblica che non fu mai fatta...

Ricordando questo episodio (e per dimostrare che la linguistica può trovare applicazione negli scenari più impensabili... ), ho speso oggi cinque minuti per vedere cosa è cambiato in questi 10 anni: ho analizzato i testi del 1998 e quelli del 2008 con i nostri strumenti e ho scoperto alcune cose divertenti.

Nel 1998, i testi erano 28 e ruotavano attorno a:

- amore: di gran lunga la parola più utilizzata (nessuno si stupirà della cosa), compare 53 volte in 16 testi

- io: 18 volte in 9 testi

- occhi: 14 volte in 10 testi

- luce: 14 volte in 6 testi

- cuore: solo 12 volte in 8 testi

- i verbi che reggevano questi testi erano dire (44 volte in 9 testi), sentire (30 volte in 14 testi), sapere (27 volte in 11 canzoni), cercare (22 volte in 9 testi) e pensare (22 volte in 12 canzoni).

Appurato questo, che cosa è cambiato nel 2008?

Sicuramente il numero di canzoni (che sono 34) e poi:

- amore: nessuna sorpresa, è ancora la parola più utilizzata, compare 49 volte in 20 testi

- io: 26 volte in 9 testi

- occhi: sono un po' meno popolari (in proporzione), 16 volte in 8 testi

- luce: solo 4 volte in 4 testi. È  il cambiamento più forte, forse indica che stiamo vivendo in un periodo oscuro per l'Italia? Oppure che ci aspettano tempi bui nel prossimo futuro?

- cuore: ben 33 volte in 15 testi. È incredibile come sia ancora più frequente di dieci anni fa nonostante tutto quello che dovrebbe essere cambiato nel frattempo...

- vita: compare 27 volte in 10 testi (forse anche questo un segno dei tempi?)

- mondo: 30 volte in 12 canzoni (chiara indicazione della sempre crescente rilevanza della globalizzazione anche in contesti nazionalpopolari)

- i verbi: dire imperversa (55 volte in 20 testi), sentire tiene la posizione (41 volte in 12 testi), sapere anche (42 volte in 18 canzoni), cercare finisce in fondo (solo 9 volte in 7 testi: evidentemente in dieci anni molte cose sono state trovate e non occorre più cercare) e anche pensare non più così importante (17 volte in 8 canzoni: vedendo come va l'Italia, non mi stupisce che si pensi ancora meno del 1998...). In compenso, si "viaggia" molto di più: andare compare 35 volte in 20 canzoni (anche qui la globalizzazione?), si guardano le cose in modo diverso (vedere c'è 25 volte in 15 testi) e c'è voglia di cambiare (23 volte in 9 canzoni).

Volendo, si potrebbero fare facilmente mille altre analisi (gli aggettivi più comuni, i concetti più comuni da soli e in relazione, il sentimento dei testi...) ma non avevo altro tempo da dedicarci.

Direi però che quanto trovato spiega perché quest'anno il Festival va male: se in 10 anni è cambiato così poco, non ci si può stupire che la gente guardi qualcos'altro :-)

Nova100 tags: ,

24/02/08

Divagazioni

Per una volta abbandono i miei soliti argomenti per parlare dei social network e del loro "incredibile" successo (e questo vale in modo molto simile per i blog).

Nelle ultime settimane si sono moltiplicati gli articoli (ad esempio come questo) che riportano che la crescita fenomenale di utenti e accessi a siti come MySpace o Facebook è in stallo (se non addirittura invertita) e che, in aggiunta, monetizzare la pubblicità su questi siti è molto più difficile che in altre proprietà Web (si dice che Google ci stia rimettendo dei soldi nell'accordo in esclusiva con MySpace).

Per chi bazzica Internet da prima dello scoppio della bolla, questi dati non sorprendono per nulla: si tratta della ripetizione di quanto successo alla fine degli anni '90, semplicemente con un pubblico molto più ampio e tecnologie più evolute (perciò con una montatura pubblicitaria anche maggiore di prima).

Come allora, sembrava che il successo di questi elementi del Web 2.0 fosse inarrestabile e in grado di stravolgere il mondo; come allora, le leggi delle fisica continuano a valere e la crescita prima o poi si arresta o comunque rientra nella norma; come allora, un fenomeno di moda rientra nelle proprie dimensioni fisiologiche non appena la moda passa.

Questo non significa che questi siti scompariranno o che nessuno scriverà più blog ma che, come per tutte le cose, troveranno una propria dimensione reale e sostenibile, alimentati da coloro che sono veramente motivati a condividere parte della propria esperienze e dagli utenti interessati a questo tipo di contenuti: speriamo almeno che questo porti a ridurre i soldi investiti nell'ennesimo sito di social networking e faccia aumentare le risorse investite nello sviluppo di tecnologie e servizi veramente innovativi ed utili a tutti.

Nova100 tags: , , , ,

21/02/08

Solo fumo e niente arrosto?

A distanza di mesi da quella rivoluzione troppo annunciata di cui ho parlato a proposito della semantica, è interessante notare che la moda ha continuato a imperversare: ormai sembra proprio che non sia più possibile parlare di conoscenza e ricerca nel Web o di qualunque altro argomento correlato senza usare la parola magica “semantica” (ho perfino letto da qualche parte che anche con Google adesso è possibile fare ricerche semantiche ;-)).

Per chi come me lavora da sempre in quest’ambito, il fenomeno ha senz’altro assunto dimensioni significative: fino a un paio di anni fa era difficilissimo riuscire a diffondere l’uso della tecnologia semantica per risolvere i tanti problemi legati alla gestione delle informazioni, mentre oggi sono le aziende che vanno a cercare i fornitori di semantica e che desiderano capire che cosa c’è di vero in questo “elisir” miracoloso. A noi ad esempio qualche tempo fa è capitato che una delle più grandi software house al mondo ci chiedesse di organizzare una presentazione ai livelli più alti: eppure, per diversi anni, da loro le nostre proposte erano state snobbate.

Come spesso accade, fenomeni di questo tipo sono un po’ effimeri, anche perché si crea tanto interesse nei confronti di qualcosa senza che però dietro ci sia una reale evoluzione dell’offerta. 

Infatti, nonostante la moda per la semantica non sia diminuita, non ci sono stati cambiamenti ma piuttosto dei camuffamenti, dei rimaneggiamenti di cose da tempo già esistenti.

Probabilmente sarà necessario attendere che passi la moda (anche se speriamo non del tutto…) perché la semantica possa diventare realmente una tecnologia pervasiva e concreta. Un po’ come è capitato in Internet quando nella prima fase, quella terminata con lo scoppio della bolla, si puntava ad avere un sacco di utenti (le famose eyeballs) che però nessuno era in grado di monetizzare. Poi è arrivato Google (e altri a seguire) ed è stato finalmente possibile trasformare gli utenti in soldi grazie alla pubblicità.

Per prima cosa e nel frattempo, comunque, è indispensabile che le aziende interessate alla semantica capiscano che non si tratta di una soluzione magica ma che occorre investire tempo e risorse per ottenere i risultati auspicati.

Nova100 tags: ,

14/02/08

MITI e REALTÀ: categorizzazione automatica - niente magia, solo un segreto

Il segreto di un progetto di categorizzazione automatica di successo non è tanto nella scelta di una tecnologia sufficientemente potente, ma piuttosto nella metodologia utilizzata per realizzare il progetto: se il metodo è giusto, per ottenere il successo sarà poi indispensabile usare la tecnologia giusta ma se il metodo è sbagliato, non c’è tecnologia che tenga.

L’elemento più importante è la fase di analisi iniziale in cui è necessario sforzarsi di descrivere in modo chiaro, oggettivo e replicabile l’essenza del problema. È fondamentale che il cliente, tipicamente un’azienda con la necessità di gestire una considerevole mole di conoscenza (in genere, vari tipi di documenti prodotti o acquisiti per lavoro), spieghi al fornitore le proprie, reali esigenze.
Quest’ultimo, naturalmente, si deve impegnare per soddisfarle nel modo migliore.

Detta così, la situazione non sembra poi tanto diversa da quella di qualsiasi altro progetto di sviluppo di software ma qui si tratta di capire come gestire una conoscenza complessa, cosa tutt’altro che banale e che non si può in alcun modo improvvisare.

Il primo passo è quello più importante e richiede un impegno speciale da parte del cliente che, in modo ragionato, dovrebbe dare al fornitore le risposte per le seguenti domande:

  • per quale motivo voglio categorizzare i miei contenuti?
  • qual è la persona o quali sono le persone che conoscono bene la conoscenza che voglio categorizzare?
  • se l’attività di categorizzazione attualmente viene fatta manualmente, quali sono nel dettaglio i processi seguiti?
  • quali sono le categorie veramente importanti e significative, in grado di rendere il contenuto più utile e di maggior valore?
  • se l’insieme delle categorie esiste già, sono veramente necessarie tutte le categorie?
  • quali sono le logiche il più possibile oggettive che fanno sì che un determinato documento debba appartenere a una categoria piuttosto che a un’altra?

Anche se le domande sopra sono tutte semplici, non è così facile trovare subito le risposte ed ecco che entra in gioco l’esperienza del fornitore, che è coinvolto nel progetto di analisi sotto diversi punti di vista.

Intanto non deve solo offrire una soluzione ma condividere il problema del cliente.  Poi, deve avere competenze che vanno ben oltre gli aspetti tecnici o puramente legati alla tecnologia: in genere, infatti, il cliente non è un esperto di conoscenza e perciò non è semplice per lui individuare subito le categorie (o domini del sapere) basilari per la riuscita del progetto.

Se si riesce a realizzare la fase di analisi iniziale nel modo giusto, il passo più importante per il successo del progetto è fatto: questa, infatti, è l’unica, stretta via attraverso cui occorre passare per ottenere un sistema efficace, in grado di garantire efficienza e vantaggi in termini di costi e valore.

Nova100 tags: , , , , , , , , ,

08/02/08

MITI e REALTÀ: le ricerche in Internet

Esiste una lunga serie di false nozioni su Internet che ha dato vita a un macro-mito: on-line si può trovare tutto, basta “saper cercare”.

Invece non c’è proprio niente di speciale da sapere perché non è una questione di trucchi se non si trovano ad esempio libri reperibili in biblioteca: semplicemente non ci sono. Infatti, solo una piccolissima parte della conoscenza da cui siamo circondati è anche on-line e non per magia, ma perché qualcuno ha deciso di renderla disponibile via Web (e disponibile non significa “gratis” perché non è vero che tutte le informazioni del web sono gratuite… ma questo è un altro MITO ;-)).

Bisogna inoltre considerare l’esplosione delle pagine dinamiche (anche se tutti i motori di ricerca hanno sviluppato crawler apposta per indicizzare più contenuti possibili sottraendoli così alla parte nascosta del Web) e che i motori di ricerca riescono a classificare solo una minima parte di tutti i dati accessibili (nessuno sa indicare una percentuale precisa ma mi stupirei molto se fosse più del 4 o 5%). Quindi potrebbe anche essere che il contenuto sia on-line, ma rimarrebbe lo stesso il problema perché non esiste una tecnica speciale per recuperare ciò che non viene indicizzato.

Ma anche senza scomodare il Web nascosto: poniamo come certo che il contenuto d’interesse sia stato indicizzato, si può davvero trovare quello che serve in pochissimo tempo (e senza fare fatica… altro MITO)?

Senza le keyword giuste no, potremmo anche cercare anche per una settimana intera ma non cambierebbe nulla.

La realtà è che ancora non possiamo sfruttare al meglio quello che abbiamo a disposizione.

C’è chi dice che sarebbe bello avere in Internet qualsiasi documento originale (come i libri di cui parlavamo all’inizio del post), ma sarebbe bello anche solo riuscire a sfruttare la miriade di informazioni secondarie che possono comunque fornirci un supporto utilissimo, soprattutto perché sono fatte per la maggior dalle persone secondo diverse competenze, punti di vista, sensibilità, ecc.

Nova100 tags: , , , , , , ,

04/02/08

A volte ritornano…

Pensavo che avessimo superato da molto tempo l’idea di un’Intelligenza Artificiale così intelligente da sfuggire a qualsiasi controllo e di macchine tanto evolute da non sentirsi più solo macchine (ma, anzi, da non desiderare altro che la sottomissione dell’umanità).

Mi sbagliavo invece: su Nova di qualche tempo fa ho letto “L’esplosione delle macchine con troppa intelligenza” e in evidenza c’era questo paragrafo:

"L’uomo sta iniziando a produrre tecnologie che non riesce a capire. Ma deve fare attenzione a non inimicarsele."

Pare che al massimo fra 25 anni sapremo davvero di che cosa saranno capaci le intelligenze artificiali che produciamo oggi e addirittura c’è chi ha annunciato l’imminente lancio sul mercato di un prodotto che nel giro di 5 anni ci eguaglierà in fatto di intelligenza.

Anche se sono passati più di 50 anni dalle prime visioni catastrofiche legate alla nascita dell’Artificial Intelligence, evidentemente "tira" ancora parlare  dell’oscura minaccia della tecnologia amica/nemica...

Mi stupisce sempre il grande interesse che si crea nei confronti di progetti irrealizzabili che fanno perdere di vista i problemi reali e mi sfugge la ragione per cui si mostra tanto interesse per la ricerca di un’intelligenza uguale alla nostra piuttosto che per la realizzazione di strumenti furbi, davvero utili e in grado di affiancarci nelle nostre attività.

Alla fine, sono solo manovre pubblicitarie ma mi dispiace leggere cose che creano confusione e perplessità tra le tante persone che sono esperte del settore e che non hanno le conoscenze per farsi un'opinione ponderata.

Nova100 tags: , , ,

Nova100