Come imparare a riconoscere il falso in rete. Vademecum per il bibliotecario e il lettore Carlo Bianchini

Prev Next

4. Google come editore

La forma di circolazione di notizie e informazioni in rete che più interessa da vicino il bibliotecario e che ha maggiormente minacciato la funzione delle biblioteche è quella attuata dai motori di ricerca. Dato che la maggior parte degli utenti della rete inizia la propria navigazione da un motore di ricerca, si è in realtà ben lontani dall’essere in presenza della cosiddetta disintermediazione: in rete la mediazione esiste, è forte ed è rappresentata da una nuova categoria di editori: i motori di ricerca.

Come osserva Letizia Sechi, “i motori di ricerca sono i nuovi editori del Web. Se il ruolo di un editore è quello di selezionare e proporre in forma strutturata e organica i contenuti, allora possiamo affermare che in rete sono i motori di ricerca a svolgere questo ruolo, partendo direttamente dalle richieste del lettore [...] Da questo punto di vista Google è il più grande editore del mondo, considerata la quantità di pagine che è in grado di indicizzare e grazie alla velocità con cui restituisce i contenuti più interessanti” (Sechi 2010, cap. 1).

La mediazione di un motore di ricerca è un passaggio cruciale dell’esperienza del lettore che cerca di soddisfare i propri bisogni informativi in rete. Perciò è indispensabile chiedersi se un motore di ricerca e, in particolare, Google – che è di gran lunga il più utilizzato in Italia (94,6%)1 e in Europa (91,4%)2 (Figura 3) – “può costituire il punto di partenza di un inganno” (Simone 2012, 189).

Figura03

Figura 3 – Percentuale d’uso dei motori di ricerca in Italia tra gennaio 2015 e gennaio 2016

L’inganno in cui si incorre nell’uso di Google si colloca su varie posizioni distinte:

a) la percezione distorta delle potenzialità e dell’oggettività dello strumento da parte dell’utente crea aspettative ingannevoli;

b) il motore di ricerca usa un algoritmo le cui prestazioni dichiarate pubblicamente sono in realtà infondate;

c) le risposte fornite da Google sono filtrate (per le più svariate finalità, inclusa la censura);

d) anche se le policy d’informazione sulla privacy rivolte agli utenti sono sempre più esplicite (e sempre meno lette), Google raccoglie i dati sugli utenti anche a loro insaputa (Angwin e Valentino-Devries 2012; Bianchini 2014b, 228-31).

Riguardo al primo punto, si può notare che stabilire quale sia la copertura del web da parte dei motori di ricerca è una questione piuttosto complessa: il primo problema è stabilire le effettive dimensioni del web (Van den Bosch, Bogers e de Kunder 2016). Nel 2008 Google affermava di contare sul web un trilione di pagine web, ma di indicizzarne 26 milioni (cioè lo 0,0000000026%) (Google 2008); in un’infografica del 2010, la percentuale d’indicizzazione di Google in terabytes era stimata allo 0,004%. Oggi Google afferma che il web è costituito da 60 trilioni di pagine web (Google Inside Search 2016). Le ultime informazioni utili sembrano risalire quindi al 2010 (Jasra 2010), ma indicano una percentuale di copertura decisamente inferiore all’1% del web; questo significa che il luogo comune – piuttosto diffuso – che attraverso una ricerca con Google si trova tutto ciò che si cerca è a dir poco ingenua. Sull’oggettività dell’algoritmo di Google, possono sorgere dubbi quando si legge che ai primi posti dei risultati di ricerca ottenuti con la domanda “Did the Holocaust happen?” (L’olocausto è esistito?) si situa quello dell’organizzazione neonazista e negazionista Stormfront (Baraniuk 2016); anche dopo l’annuncio di interventi da parte di Google, il sito compare al settimo posto (27 dicembre 2016).

Rispetto alla seconda obiezione, è necessario un approfondimento. A metà 2013 Google ha rilasciato una nuova versione del proprio algoritmo – denominata “Hummingbird” – che sarebbe in grado di “conversare” con l’utente, in modo tale da consentirgli di ottenere risposte rilevanti formulando domande in linguaggio naturale come “Dimmi chi sono gli impressionisti” o “Qual è il miglior posto per comprare una TV vicino a dove mi trovo?” (Singhal 2013; Grasso 2013). In realtà, se si effettua una prova di interrogazione con entrambe le stringhe suggerite, i risultati non sono quelli dichiarati: nel primo caso si ottengono risultati più pertinenti e più rilevanti usando solo la stringa di interrogazione “Impressionisti”; nel secondo caso si ottengono generici “consigli per gli acquisti”, ma non, come dichiarato, l’indicazione di un luogo fisico in cui recarsi. Perciò non è vero che l’algoritmo è in grado di interpretare correttamente il valore semantico delle stringhe di conversazione; si basa invece ancora semplicemente sull’analisi della stringa (cioè una sequenza alfanumerica) e non su un approccio semantico.

Sulla censura effettuata da Google, si vedano da un lato i due saggi di Alberto Petrucciani sull’accesso (di fatto negato da Google) a risorse che in realtà sarebbero di dominio pubblico (Petrucciani 2011; Petrucciani 2012) e, a titolo di esempio, un articolo sulla censura operata da Google in Cina (Brenkert 2008).

Google ritiene e proclama che il suo algoritmo per ordinare il mondo è democratico – che significa uguale per tutti –, come sostiene esplicitamente nella quarta delle sue dieci verità: “La democrazia sul Web funziona” (https://www.google.com/intl/it/about/company/philosophy/). In realtà il ranking (l’ordine di presentazione) dei risultati delle ricerche, che dipende dall’algoritmo PageRank – una formula segreta, non trasparente – si può manipolare. È possibile cioè fare in modo che, a fronte di certe ricerche, alcuni siti si collochino in posizioni più alte rispetto ad altri. Questo è molto vantaggioso per una ditta o un’impresa e in effetti questa manipolazione è un servizio addirittura acquistabile presso aziende private che offrono la SEO – Search Engine Optimization, cioè un insieme di tecniche e di procedure per migliorare la posizione di un sito nei risultati dei motori di ricerca. Il criterio della “rilevanza” di ciascuna risposta per il suo ranking è tutt’altro che oggettivo – cioè valido per tutti i soggetti, non solo per uno o per alcuni individui – e universale: la rilevanza e l’ordinamento sono strettamente collegati alla profilazione degli utenti. Dal dicembre 2009 Google ha iniziato a profilare gli utenti, cioè a usare una sessantina di indicatori relativi all’utente – dal luogo in cui si trova, al tipo di browser, alle ricerche fatte in precedenza ecc. – per capire a quale “profilo” egli appartiene e per fornirgli risposte “personalizzate” (e, soprattutto, pubblicità personalizzata). In poche parole, il ranking di Google non è uguale per tutti.

Riguardo alla profilazione, il vincolo recentemente posto dal Garante della privacy sull’uso dei cookies di profilazione ha poca importanza, dal momento che gli utenti tendono a ignorare il significato e i rischi che l’accettazione dei cookie comportano (Garante per la protezione dei dati personali 2014). Dal punto di vista dei rischi di disinformazione invece, questo approccio è particolarmente grave perché l’utente che cerca informazioni tramite il motore di ricerca tende a ottenere risposte omogenee al proprio profilo, cioè difficilmente ottiene accesso a risorse che contraddicono le sue conoscenze pregresse. La personalizzazione delle risposte favorisce perciò, sul piano della ricerca, un processo di isolamento ideologico simile a quello delle “camere di risonanza”. Il rischio di questo fenomeno è stato segnalato tempo fa da Tara Brabazon: bisogna chiedersi quanto gravi possano essere le conseguenze quando, per esempio, uno studente clicca su siti fortemente ideologici e che raggiungono una posizione molto alta nelle risposte sulla base dell’alta popolarità e non della qualità o della rilevanza oggettiva o della veridicità delle informazioni che propongono: il rischio, reale, è che le informazioni più critiche e approfondite si trovino molto in basso nel ranking di Google (Brabazon 2007) o, viceversa, come si è visto nel caso dell’olocausto, che informazioni poco affidabili si trovino “troppo in alto” (Baraniuk 2016).

A questo si deve sommare che l’accesso alle pagine con i siti meno rilevanti è solo virtuale, dato che Google lo preclude anche in termini di quantità: un utente infatti non può accedere a tutte le risposte di una ricerca, ma solo a una quantità limitata (Paz 2013).

1 Dato relativo al periodo gennaio 2015-gennaio 2016. http://gs.statcounter.com/#search_engine-IT-monthly-201501-201601-bar.

2 Dato relativo al periodo gennaio 2015-gennaio 2016. http://gs.statcounter.com/#search_engine-eu-monthly-201501-201601-bar.

Prev Next