PEILEN NAAR DE INFORMATIEKWALITEIT VAN HET NET.

HET WEB: EEN HOOG IQ?

Koop je een soepkip in de supermarkt, dan kleeft daar een stempel van de 
kwaliteitscontrole op! 
Ben je echter op zoek naar informatie op het internet, dan kijk je vergeefs uit naar zo'n kwaliteitslabel. Je zal dus zelf moeten beoordelen hoe betrouwbaar de aangeboden informatie is.

OPZETTELIJK FOUTIEF? 
De New York Times pakte ooit uit met de 
slogan "On the Internet, nobody knows 
you're a dog", waarmee men bedoelde dat 
surfers grotendeels anoniem bleven, en 
dat je dus nauwelijks kon uitvissen wie je 
webstek zoal bezocht. 
Maar eigenlijk geldt ook het omgekeerde. 
Als surfer is het vaak heel moeilijk om uit 
te vissen wie nu precies achter de 
aangeboden informatie schuilgaat. 
Nochtans is dit een belangrijke maatstaf 
om de betrouwbaarheid van de gegevens
correct te kunnen inschatten. 
Daar komt nog bij dat de drempel om iets op het internet te publiceren 
veel lager is dan bijvoorbeeld om iets in een gereputeerd tijdschrift
afgedrukt te krijgen. Op het net speelt men namelijk z'n eigen
uitgever, en kan je zowat alles publiceren waar je zin in hebt
('vanity publishing'), zolang het niet indruist tegen de wetgeving.
En wat niet met de nationale wetgeving strookt, kan je wellicht nog
wel elders kwijt. Negationistische propaganda mag dan sedert 1995
in België verboden zijn, maar bijvoorbeeld op Amerikaanse sites bots
je nog geregeld op een dergelijke vorm van desinformatie.
Blijf op je hoede.
Zo'n misleiding kan je nog uit politieke beweegredenen verklaren. 
Maar je moet er ook rekening mee houden dat informatie die via het net 
wordt uitgestuurd, misleidend kan zijn … gewoon omdat de verspreider 
dat leuk vindt! Klassiek voorbeeld zijn de hoaxes, e-mailberichtjes die 
de lezers - onterecht - waarschuwen voor een of ander nieuw nepvirus. 
Soms worden zelfs heuse websites in de lucht gehouden die flagrante 
onwaarvatten, vaak om er zelf beter van te worden. Zo heeft de 
Amerikaanse beurscommissie (SEC) enige tijd geleden de namaakwebsite 
(www.mcworthle.com) gelanceerd, precies met de bedoeling gebruikers 
(lees investeerders) te wijzen op het gevaar van de talloze sites die 
opzettelijk foutieve beursinformatie verspreiden - inclusief nagebootste 
persberichten, aangepaste statistieken, enzovoort.
Maar zelfs als er géén sprake is van opzettelijke misleiding, dan nog 
moet je de aangeboden informatie kritisch blijven benaderen! Het is 
belangrijk zo accuraat mogelijk de informatie - ook wel 'IQ' of 
'information quality' genoemd - van de gegevens te beoordelen. 
Verder in deze bijdrage geven we je enkele praktische richtlijnen en 
vertellen we je welke criteria je kan hanteren om de IQ vast te stellen. 
Maar voor het zover is ... doe je er goed aan je eerst af te vragen: 
hoe vind ik eigenlijk die informatie op het net?
ZOEKMACHINES
95 % van alle surfers maakt er geregeld van. De kans is dus groot dat 
ook jij via zo'n zoekmachine aan je informatie geraakt. 
Meteen betekent dit dat diezelfde zoekmachines voor een groot deel 
bepalen hoeveel én welke gegevens je precies te pakken krijgt!  
Hoe goed ze daarbij presteren, hangt vooral factoren af. Enerzijds de hoeveelheid informatie die ze weten te ontsluiten en anderzijds de manier waarop ze die informatie rangschikken en presenteren. Want zeg nu zelf: hoeveel keer kijk jij verder dan pakweg de 20ste site uit de hitlijst van de zoekmachine? Kampioen wat het aantal geïndexeerde sites betreft, is hoogst- waarschijnlijk zoekrobot Google, die op het moment van schrijven 3,3 miljard webpagina's in z'n databanken heeft verwerkt. Yahoo heeft er heel wat minder, maar dat betekent niet noodzakelijk dat het een slechtere zoekmachine is! De databanken van Yahoo worden
namelijk door een team van mensen samengesteld - en niet door een programma of robot zoals bij Google, zodat hier in feite al een informatiefilter zit ingebouwd. Het is natuurlijk nog maar de vraag hoe objectief dit team tewerk gaat bij het al of niet opnemen van sites in de databanken en hoe accuraat de indeling in categorieën
is. Het is bijvoorbeeld geen geheim dat heel wat zoekmachines (onder andere Alta-Vista) nieuw aangemelde sites veel sneller opnemen en up-to-date houden als je voor een of andere betaal-formule kiest.
Sponsoring
Meteen zijn we bij de kwaliteit van de samenstelling van de hitlijsten 
beland. Heel vaak belanden sites van betalende adverteerders namelijk 
bovenaan de hitlijsten, en soms moet je goed uitkijken om die 'gesponsorde 
links' van de andere te kunnen onderscheiden. In AltaVista kan je ze met enige moeite herkennen via de onopvallende aanduiding 'Sponsored Matches', terwijl Google ze (vooralsnog?) iets meer afgescheiden presenteert. Is sponsoring één criterium waardoor sommige sites een betere rangschikking krijgen in de hitlijsten, dan heb je vaak het raden naar de andere criteria die zoekmachines hanteren om hun hitlijsten te ordenen. Hoe dan ook,
nog voor je de informatie op de gevonden websites bekijkt, moet je dus al rekening houden met een subjectieve selectie door de zoekmachines zelf.
Zoektermen
Maar het zijn niet alleen de (algoritmes van de) zoekmachines die instaan 
voor de kwaliteit van de resulterende hitlijst. Het spreekt voor zich dat 
wat je als zoekterm(en) intikt mee die kwaliteit bepaalt! 
Daarbij gaat het niet enkel om het kiezen van de meest geschikte 
zoektermen, maar ook om de manier waarop je die intikt, en daarvoor is 
enige kennis van de syntaxregels van de bewuste zoekmachine noodzakelijk. 
Stel, je wilt informatie sprokkelen rond Johannes-Paulus 1. Nu kan je 
natuurlijk in Google als zoekterm johannes-paulus 1 intikken, maar dan 
vergeet je wel dat Google losse cijfers en letters straal negeert. 
Wil je vermijden dat je talloze onbruikbare johannes-sites moet doorwaden, dan tik je maar beter "johannes-paulus 1" of +johannes-paulus +1 in. De meeste zoekmachines, waaronder Google, voorzien trouwens in een aantal hulpschermen met meer informatie over een optimaal gebruik van zoektermen, én bieden je bovendien een geavanceerd zoekformulier aan waarmee je je zoektocht nog nauwkeuriger kan afbakenen. Dus, gebruiken, dat formulier. (ziek ook minicursus "Hoe zoeken op het internet?)
INTERNET IQ
Prima, je bent op een website aanbeland - ongeacht of je daar nu via 
een zoekmachine bent geraakt of niet. Hoe bepaal je nu de IQ van die site? 
We reiken je meteen een aantal bruikbare criteria aan, maar je moet wel 
beseffen dat ook het waarom van je informatiezoektocht een rol speelt. 
Het maakt wel degelijk verschil uit of je op zoek bent naar kale feiten of 
bijvoorbeeld (ook) naar opinies. Als je je 'zoekdoel' goed voor ogen houdt, kan je namelijk een stuk sneller inschatten of een bepaalde informatiebron voor jouw doel wel geschikt is.
Geloofwaardigheid
Een basiscriterium is alvast de geloofwaardigheid van de gegevens, en die 
hangt - zoals je al uit de inleiding kon afleiden - vaak samen met de auteur 
van de informatie. Anonieme teksten zouden je tot extra voorzichtigheid 
moeten aanzetten, zeker als ook nog blijkt dat de taal en de stijl waarin 
de informatie is vastgelegd, te wensen overlaat. Wordt de auteursnaam 
vermeld, kijk dan niet op de moeite om - bijvoorbeeld via zoekmachines 
- naar meer informatie over die persoon op zoek te gaan. 
Ook de url van de webpagina kan een stevige hulp zijn om de 
geloofwaardigheid van de informatie correcter in te schatten. Je mag 
wellicht meer vertrouwen stellen in gegevens die je gevonden hebt op 
www.wwf.org dan op users.provider.net/a102O57/~-username - tenminste 
als je informatie zocht naar het wildbestand in het zuidelijk halfrond. 
Ben je ergens midden in een site beland, en is het je niet meteen duidelijk 
met welke auteur of organisatie je te maken hebt, dan kan je even een blik 
op de homepagina van die site werpen. Is daarvoor niet onmiddellijk een 
geschikte link voorzien, dan kan je de url stelselmatig strippen - van rechts naar links - tot wanneer je aan de eerste slash (/) beland bent. Die afgeslankte url brengt je gewoonlijk wél tot bij de openingspagina, van waaruit je beter kan bepalen om welke organisatie het precies gaat. Hoewel, ook hier is het soms opletten geblazen: 'url-grabbers' (ook wel 'page-jackers' genoemd) durven zich onrechtmatig de url van een bestaande organisatie toe te eigen, of ze gebruiken gewoon een url die verwarring schept. Zeg nu zelf: www.whitehouse.gov, www.whitehouse.com, www.whithouse.org en www.whitehouse.net, wat is nu de "echte" site? Geraak je er niet meteen wijs uit, dan kan je nog altijd een beroep doen op een zogenaamde Whois-query. Die vertelt je dan wie er precies achter de geregistreerde domeinnaam schuilgaat. Op www.samspade.org
bijvoorbeeld kan je gratis zo'n "wie is" speurtocht uitvoeren.
Accuraatheid
De accuraatheid van de informatie is een tweede criterium. 
Een belangrijke parameter kan de datum zijn waarop die gegevens zijn 
opgenomen, vooral als die informatie van vluchtige aard is. Het is 
bijvoorbeeld niet omdat een bekend persoon 10 jaar geleden een uitspraak 
deed, dat die nog steeds geldig is! 
De accuraatheid van een informatiebron hangt ook vaak samen met het 
doelpubliek: aan wetenschappelijke publicaties kan je gewoonlijk andere 
eisen stellen dan aan informatie die in eerste instantie op een erg jeugdig 
publiek mikt. Tracht je tevens een goed oordeel te vormen over de diepgang (hoeveel details bevat de informatie) en reikwijdte (hoeveel deelaspecten komen aan bod) van de gegevens. Een goed gestructureerde site zou je
overigens voldoende navigatie-mogelijkheden moeten bieden om daar snel je weg in terug te vinden. Hoed je ook voor 'verborgen boodschappen' (zoals je die vaak op dotcoms vindt): wat een leerrijke uiteenzetting lijkt over het gevaar van virussen, is wellicht bedoeld als een poging om je een antivirusprogramma van de
producent aan te smeren. Dat doet niet noodzakelijk iets af aan de kwaliteit van de informatie, maar het hoort je wel extra kritisch te stemmen.
Redelijkheid
Meteen komen we bij een derde criterium: de redelijkheid. Hiertoe behoort 
ook de (graad van) objectiviteit van de aangeboden informatie. Zuivere 
objectiviteit is weliswaar nauwelijks haalbaar, maar komt de inhoud je als 
tendentieus over, dan moet je extra uit je doppen kijken. Dat geldt des te meer als het om erg persoonlijke inbreng gaat (zoals in weblogs) en nieuwsgroeppostings (zoals op http://groups.google.be).
Hoop je via dergelijke bronnen ook zuiver feitenmateriaal op te snorren, dan doe je er goed aan op zoek te gaan naar andere bronnen (op het internet) die de informatie van je eerste bron kunnen bevestigen. Zo'n vergelijkende controle bouw je overigens best altijd in, ook als je meer objectieve sites consulteert! Het is natuurlijk handig als de geraadpleegde site zelf een (aanklikbare) lijst naar andere, externe pagina's aanbiedt die dezelfde topics behandelen. Maar ook hier is het opletten: vergewis je ervan dat die externe pagina's toch niet op een of andere manier aan de oorspronkelijke pagina gelieerd zijn.
EEN WEB TE VER
Het internet is een gigantische informatievergaarbak, zozeer zelfs dat we 
met 'information overload' of 'infoglut' af te rekenen krijgen. We worden 
gewoonweg overstelpt met massa's gegevens en kunnen die nog
nauwelijks verwerken. En toch... zou Google met z'n 3,3 miljard pagina's 
naar schatting slechts 25 % van de vrij toegankelijke webpagina's verwerkt 
hebben! En volgens sommige bronnen (zie www.brightplanet.com/technology/deepweb.asp) 
zouden meer verborgen webpagina's maar liefst 500 keer méér informatie 
bevatten! In dat geval zou Google niet meer dan 1 op 2.000 webdocumenten 
ontsloten hebben. 
Komt daar nog bij dat het web dagelijks met enkele miljoenen documenten 
aangroeit, zodat de kloof alleen maar groter dreigt te worden. 
En zelfs als je de resultaten van alle bekende zoekmachines bij elkaar 
brengt, kom je niet veel hoger uit dan 35 % ontsluiting, aangezien de 
databanken van die zoekmachines elkaar grotendeels overlappen.
Al deze extra informatie huist in het zogenaamde "diep web". Dat zijn 
in de eerste plaats pagina's die dynamisch gegenereerd worden: ze worden 
op het moment zelf samengesteld uit gegevens die zich in allerlei databanken 
bevinden, bijvoorbeeld op grond van de zoekopdracht die een gebruiker heeft ingetikt. Dit is onder andere het geval voor de Thomaswebsite. Pas als jij je vorderingsplan of jaarplan opvraagt, wordt deze pagina aangemaakt! Los daarvan weten heel wat zoekmachines zich op dit moment evenmin raad met webdocumenten als .doc, .xls en .pdf, en die worden alsmaar talrijker. Google kan bijvoorbeeld wel overweg met pdf-bestanden, maar enkel
het eerste stukje van zo'n document wordt door de zoekrobot effectief ingelezen en geïndexeerd. Deze gedeeltelijke indexering geldt overigens ook voor gewone webpagina's: de meeste zoekrobots bezoeken namelijk
zelden webpagina's die meer dan drie linkniveaus diep huizen. Ze bezoeken bijvoorbeeld wel de homepagina, én pagina's waar die naar linkt, maar nog een niveau verder houden ze het meestal voor bekeken. Ten slotte sluiten heel wat webmasters bewust een stuk van hun site af voor zoekrobots of schermen ze onderdelen af via een gebruikerswachtwoord (bijvoorbeeld op Thomas, rubriek Leerkracht, onderdeel Instrumenten - Jaarplannen). Intussen worden wel allerlei pogingen ondernomen om ook dat diepe web wat verder te ontsluiten. Je kan alvast even proberen of je méér kan opvissen via de zoekdiensten van CompletePlanet www.completeplanet.com, lnvisible Web www.invisibleweb.net en Profusion www.profusion.com - maar ons wisten ze alvast niet te overtuigen! Het ziet er dus niet naar uit dat het diepe web zijn geheimen morgen al zal prijsgeven.
bron: Clickx, jrg 2004, nr 59, dossier "het web, een hoog IQ?", 
Toon Van Daele