Marco Varone -

cultura

29/05/08

Niente più temi in salsa Wikipedia, un software debella il copia-incolla: siamo sicuri?

Chi mi segue da parecchio tempo, forse ricorderà uno dei miei primi post in cui "stroncavo" gli articoli di divulgazione riguardanti l'intelligenza artificiale, i motori di ricerca evoluti e altre tecnologie simili.

Non ho poi ripreso molto l'argomento perché mi sono reso conto che è praticamente impossibile fare qualcosa di utile affinché questi articoli siano un po' meno folkloristici e un po' più affidabili scientificamente.

Non posso però evitare di commentare un pezzo uscito ieri in cui si descrive come risolto un problema che, nella realtà, ha una complessità tale da renderlo quasi impossibile da affrontare con successo.

Consideriamo anche solo un testo di 1.000 parole: eliminando quelle meno significative (articoli, preposizioni, congiunzioni, ausiliari...) resterebbero almeno 300 parole.

Per vedere se questo insieme di 300 parole è stato copiato, pensiamo di iniziare una ricerca in Internet. Chiunque può capire che ci troveremmo già di fronte a un problema, visto che nessun motore consente di  fare una ricerca con un numero così alto di parole.
Ma ammettiamo di voler procedere: potremmo creare dei sottogruppi di parole, 10- 20 parole al massimo, e iniziare poi a provare tutte le combinazioni possibili e immaginabili, creando via via nuovi, “N” sottoinsiemi di parole: non serve essere esperti in matematica per capire che si tratterebbe di una quantità abnorme di sottoinsiemi, impossibile da gestire.

In alternativa, si potrebbero scegliere solo i termini più significativi e usare questi come chiave di ricerca. Il controllo diventerebbe così un poco più affrontabile ma servirebbe l’intervento umano e questo farebbe cadere la tesi dichiarata nell’articolo.

Quindi, provando a continuare il ragionamento (senza cioè arrendersi dinanzi alla crescita esponenziale che si avrebbe andando avanti per le ricerche in sottogruppi) vediamo di capire che cosa succederebbe ipotizzando di riuscire a trovare dei testi on-line da cui forse potrebbe essere stato copiato il testo di partenza.
Ci troveremmo di fronte a un altro problema, molto complesso: dover scaricare tutti i documenti e analizzarli e poi pensare ad incrociarli per stabilire se il nostro testo è copiato o no.

Il professore di cui si parla nell’articolo molto probabilmente ha ideato qualche miglioramento agli approcci di ricerca e analisi esistenti, sicuramente avrà sviluppato un software potenzialmente utile per fare ricerche su Internet (di brani copiati) in modo più facile e rapido ma senza dubbio non ha messo a punto nulla di neanche lontanamente paragonabile a quanto descritto.

Si tratta di un’ennesima occasione persa per fare divulgazione di qualità su questi temi legati alla gestione delle informazioni, ma forse per uno studente abituato a usare più il copia&incolla della propria testa è un bel sollievo sapere che non esiste ancora una tecnologia in grado di capire così facilmente se un testo è copiato oppure no ;-)

Nova100 tags: ,

07/11/07

Una nuova, vecchia sfida

Avevo letto all'epoca questo post di Antonio Dini e prima ancora un'intervista rilasciata dall’autore del libro): "The cult of amateur" il cui argomento coincide con il sottotitolo "How today internet is killing our culture" e volevo leggere il libro e poi esprimere qualche commento.

Visto che il tempo per leggere manca sempre, ho pensato di evidenziare lo stesso un aspetto interessante e cioè che anche la ricerca sul Web è impattata in modo negativo da questo fenomeno, come se non bastassero i numerosi problemi di cui ho scritto più volte in passato :-)

Tutti i motori di ricerca, infatti, si basano sull’evoluzione dell’idea iniziale di Google e cioè sul considerare più importanti quelle pagine che sono molto linkate da altre pagine:  se i contenuti di qualità vengono sommersi da un’infinità di contenuti scritti da dilettanti, il valore di questi link incrociati si diluisce e disperde in molti più rivoli (è molto difficile per le persone sapere fino a che punto l’informazione appena letta sia veritiera e completa).

Se il trend continuerà in questa direzione, assisteremo ad un risultato paradossale: il proliferare di informazioni di dubbio valore renderà meno trovabili le informazioni di qualità che, mai come ora, sono facilmente disponibili per tutti il più delle volte a costo zero (non si tratta ovviamente di un fenomeno nuovo, gli economisti sanno da secoli che la moneta cattiva tende a scacciare la moneta buona): magari da questo risultato nascerà un’ulteriore opportunità per la tecnologia semantica applicata alla ricerca.

Nova100 tags: , , , ,

Nova100