PEILEN NAAR DE INFORMATIEKWALITEIT VAN HET NET.

HET WEB: EEN HOOG IQ?

Koop je een soepkip in de supermarkt, dan kleeft daar een stempel van de kwaliteitscontrole op! 
Ben je echter op zoek naar informatie op het internet, dan kijk je vergeefs uit naar zo'n kwaliteitslabel.
Je zal dus zelf moeten beoordelen hoe betrouwbaar de aangeboden informatie is.
OPZETTELIJK FOUTIEF? 
De New York Times pakte ooit uit met de slogan "On the Internet, 
nobody knows you're a dog
", waarmee men bedoelde dat surfers
grotendeels anoniem bleven, en dat je dus nauwelijks kon uitvissen
wie je webstek zoal bezocht. Maar eigenlijk geldt ook het omgekeerde. Als surfer is het vaak heel
moeilijk om uit te vissen wie nu precies achter de aangeboden
informatie schuilgaat. Nochtans is dit een belangrijke maatstaf om de
betrouwbaarheid van de gegevens correct te kunnen inschatten. Daar komt nog bij dat de drempel om iets op het internet te publiceren
veel lager is dan bijvoorbeeld om iets in een gereputeerd tijdschrift
afgedrukt te krijgen. Op het net speelt men namelijk z'n eigen
uitgever, en kan je zowat alles publiceren waar je zin in hebt
('vanity publishing'), zolang het niet indruist tegen de wetgeving.
En wat niet met de nationale wetgeving strookt, kan je wellicht nog
wel elders kwijt. Negationistische propaganda mag dan sedert 1995
in België verboden zijn, maar bijvoorbeeld op Amerikaanse sites bots
je nog geregeld op een dergelijke vorm van desinformatie.
Blijf op je hoede.
Zo'n misleiding kan je nog uit politieke beweegredenen verklaren. Maar je moet er ook rekening mee houden 
dat informatie die via het net wordt uitgestuurd, misleidend kan zijn … gewoon omdat de verspreider dat leuk
vindt! Klassiek voorbeeld zijn de hoaxes, e-mailberichtjes die de lezers - onterecht - waarschuwen voor een of
ander nieuw nepvirus. Soms worden zelfs heuse websites in de lucht gehouden die flagrante onwaarvatten, vaak om er zelf beter van te
worden. Zo heeft de Amerikaanse beurscommissie (SEC) enige tijd geleden de namaakwebsite (www.mcworthle.com)
gelanceerd, precies met de bedoeling gebruikers (lees investeerders) te wijzen op het gevaar van de talloze sites
die opzettelijk foutieve beursinformatie verspreiden - inclusief nagebootste persberichten, aangepaste
statistieken, enzovoort. Maar zelfs als er géén sprake is van opzettelijke misleiding, dan nog moet je de aangeboden informatie kritisch
blijven benaderen! Het is belangrijk zo accuraat mogelijk de informatie - ook wel 'IQ' of 'information quality'
genoemd - van de gegevens te beoordelen. Verder in deze bijdrage geven we je enkele praktische richtlijnen en vertellen we je welke criteria je kan
hanteren om de IQ vast te stellen.
Maar voor het zover is ... doe je er goed aan je eerst af te vragen: hoe vind ik eigenlijk die informatie op het net?
ZOEKMACHINES
95 % van alle surfers maakt er geregeld van. De kans is dus groot dat ook jij via zo'n zoekmachine aan je 
informatie geraakt. Meteen betekent dit dat diezelfde zoekmachines voor een groot deel bepalen hoeveel én welke gegevens je
precies te pakken krijgt!
Hoe goed ze daarbij presteren, hangt vooral factoren af. Enerzijds de hoeveelheid informatie die ze weten te ontsluiten en anderzijds de manier waarop ze die informatie
rangschikken en presenteren. Want zeg nu zelf: hoeveel keer kijk jij verder dan pakweg de 20ste site uit de
hitlijst van de zoekmachine? Kampioen wat het aantal geïndexeerde sites betreft, is hoogstwaarschijnlijk zoekrobot Google, die op het
moment van schrijven 3,3 miljard webpagina's in z'n databanken heeft verwerkt. Yahoo heeft er heel wat minder,
maar dat betekent niet noodzakelijk dat het een slechtere zoekmachine is! De databanken van Yahoo worden
namelijk door een team van mensen samengesteld - en niet door een programma of robot zoals bij Google,
zodat hier in feite al een informatiefilter zit ingebouwd. Het is natuurlijk nog maar de vraag hoe objectief dit
team tewerk gaat bij het al of niet opnemen van sites in de databanken en hoe accuraat de indeling in categorieën
is. Het is bijvoorbeeld geen geheim dat heel wat zoekmachines (onder andere Alta-Vista) nieuw aangemelde sites
veel sneller opnemen en up-to-date houden als je voor een of andere betaal-formule kiest.
Sponsoring
Meteen zijn we bij de kwaliteit van de samenstelling van de hitlijsten beland. Heel vaak belanden sites van 
betalende adverteerders namelijk bovenaan de hitlijsten, en soms moet je goed uitkijken om die 'gesponsorde
links' van de andere te kunnen onderscheiden. In AltaVista kan je ze met enige moeite herkennen via de
onopvallende aanduiding 'Sponsored Matches', terwijl Google ze (vooralsnog?) iets meer afgescheiden
presenteert. Is sponsoring één criterium waardoor sommige sites een betere rangschikking krijgen in de hitlijsten, dan heb je
vaak het raden naar de andere criteria die zoekmachines hanteren om hun hitlijsten te ordenen. Hoe dan ook,
nog voor je de informatie op de gevonden websites bekijkt, moet je dus al rekening houden met een subjectieve
selectie door de zoekmachines zelf.
Zoektermen
Maar het zijn niet alleen de (algoritmes van de) zoekmachines die instaan voor de kwaliteit van de resulterende 
hitlijst. Het spreekt voor zich dat wat je als zoekterm(en) intikt mee die kwaliteit bepaalt! Daarbij gaat het niet enkel om het kiezen van de meest geschikte zoektermen, maar ook om de manier waarop je
die intikt, en daarvoor is enige kennis van de syntaxregels van de bewuste zoekmachine noodzakelijk. Stel, je wilt informatie sprokkelen rond Johannes-Paulus 1. Nu kan je natuurlijk in Google als zoekterm
johannes-paulus 1 intikken, maar dan vergeet je wel dat Google losse cijfers en letters straal negeert.
Wil je vermijden dat je talloze onbruikbare johannes-sites moet doorwaden, dan tik je maar beter
"johannes-paulus 1" of +johannes-paulus +1 in. De meeste zoekmachines, waaronder Google, voorzien trouwens in een aantal hulpschermen met meer informatie
over een optimaal gebruik van zoektermen, én bieden je bovendien een geavanceerd zoekformulier aan waarmee
je je zoektocht nog nauwkeuriger kan afbakenen. Dus, gebruiken, dat formulier.
INTERNET IQ
Prima, je bent op een website aanbeland - ongeacht of je daar nu via een zoekmachine bent geraakt of niet. Hoe 
bepaal je nu de IQ van die site? We reiken je meteen een aantal bruikbare criteria aan, maar je moet wel beseffen dat ook het waarom van je
informatiezoektocht een rol speelt. Het maakt wel degelijk verschil uit of je op zoek bent naar kale feiten of
bijvoorbeeld (ook) naar opinies. Als je je 'zoekdoel' goed voor ogen houdt, kan je namelijk een stuk sneller
inschatten of een bepaalde informatiebron voor jouw doel wel geschikt is.
Geloofwaardigheid
Een basiscriterium is alvast de geloofwaardigheid van de gegevens, en die hangt - zoals je al uit de inleiding kon 
afleiden - vaak samen met de auteur van de informatie. Anonieme teksten zouden je tot extra voorzichtigheid moeten aanzetten, zeker als ook nog blijkt dat de taal en de
stijl waarin de informatie is vastgelegd, te wensen overlaat. Wordt de auteursnaam vermeld, kijk dan niet op de moeite om - bijvoorbeeld via zoekmachines - naar meer
informatie over die persoon op zoek te gaan. Ook de url van de webpagina kan een stevige hulp zijn om de geloofwaardigheid van de informatie correcter in te
schatten. Je mag wellicht meer vertrouwen stellen in gegevens die je gevonden hebt op www.wwf.org dan op
users.provider.net/a102O57/~-username - tenminste als je informatie zocht naar het wildbestand in het zuidelijk
halfrond. Ben je ergens midden in een site beland, en is het je niet meteen duidelijk met welke auteur of organisatie je te
maken hebt, dan kan je even een blik op de homepagina van die site werpen. Is daarvoor niet onmiddellijk een
geschikte link voorzien, dan kan je de url stelselmatig strippen - van rechts naar links - tot wanneer je aan de
eerste slash (/) beland bent. Die afgeslankte url brengt je gewoonlijk wél tot bij de openingspagina, van waaruit
je beter kan bepalen om welke organisatie het precies gaat. Hoewel, ook hier is het soms opletten geblazen: 'url-grabbers' (ook wel 'page-jackers' genoemd) durven zich
onrechtmatig de url van een bestaande organisatie toe te eigen, of ze gebruiken gewoon een url die verwarring
schept. Zeg nu zelf: www.whitehouse.gov, www.whitehouse.com, www.whithouse.org en www.whitehouse.net,
wat is nu de "echte" site? Geraak je er niet meteen wijs uit, dan kan je nog altijd een beroep doen op een zogenaamde Whois-query.
Die vertelt je dan wie er precies achter de geregistreerde domeinnaam schuilgaat. Op www.samspade.org/t
bijvoorbeeld kan je gratis zo'n "wie is" speurtocht uitvoeren.
Accuraatheid
De accuraatheid van de informatie is een tweede criterium. 
Een belangrijke parameter kan de datum zijn waarop die gegevens zijn opgenomen, vooral als die informatie van 
vluchtige aard is. Het is bijvoorbeeld niet omdat een bekend persoon 10 jaar geleden een uitspraak deed, dat die
nog steeds geldig is! De accuraatheid van een informatiebron hangt ook vaak samen met het doelpubliek: aan wetenschappelijke
publicaties kan je gewoonlijk andere eisen stellen dan aan informatie die in eerste instantie op een erg jeugdig
publiek mikt. Tracht je tevens een goed oordeel te vormen over de diepgang (hoeveel details bevat de informatie) en
reikwijdte (hoeveel deelaspecten komen aan bod) van de gegevens. Een goed gestructureerde site zou je
overigens voldoende navigatie-mogelijkheden moeten bieden om daar snel je weg in terug te vinden. Hoed je ook voor 'verborgen boodschappen' (zoals je die vaak op dotcoms vindt): wat een leerrijke uiteenzetting
lijkt over het gevaar van virussen, is wellicht bedoeld als een poging om je een antivirusprogramma van de
producent aan te smeren. Dat doet niet noodzakelijk iets af aan de kwaliteit van de informatie, maar het hoort
je wel extra kritisch te stemmen.
Redelijkheid
Meteen komen we bij een derde criterium: de redelijkheid. Hiertoe behoort ook de (graad van) objectiviteit van 
de aangeboden informatie. Zuivere objectiviteit is weliswaar nauwelijks haalbaar, maar komt de inhoud je als 
tendentieus over, dan moet je extra uit je doppen kijken. Dat geldt des te meer als het om erg persoonlijke inbreng gaat (zoals in weblogs) en nieuwsgroeppostings
(zoals op http://groups.google.be).
Hoop je via dergelijke bronnen ook zuiver feitenmateriaal op te snorren, dan doe je er goed aan op zoek te gaan
naar andere bronnen (op het internet) die de informatie van je eerste bron kunnen bevestigen. Zo'n vergelijkende controle bouw je overigens best altijd in, ook als je meer objectieve sites consulteert! Het is
natuurlijk handig als de geraadpleegde site zelf een (aanklikbare) lijst naar andere, externe pagina's aanbiedt die dezelfde topics behandelen. Maar ook hier is het opletten: vergewis je ervan dat die externe pagina's toch
niet op een of andere manier aan de oorspronkelijke pagina gelieerd zijn.
EEN WEB TE VER
Het internet is een gigantische informatievergaarbak, zozeer zelfs dat we met 'information overload' of 
'infoglut' af te rekenen krijgen. We worden gewoonweg overstelpt met massa's gegevens en kunnen die nog nauwelijks verwerken. En toch... zou Google met z'n 3,3 miljard pagina's naar schatting slechts 25 % van de
vrij toegankelijke webpagina's verwerkt hebben!
En volgens sommige bronnen (zie www.brightplanet.com/technology/deepweb.asp) zouden meer verborgen
webpagina's maar liefst 500 keer méér informatie bevatten! In dat geval zou Google niet meer dan 1 op 2.000
webdocumenten ontsloten hebben. Komt daar nog bij dat het web dagelijks met enkele miljoenen documenten aangroeit, zodat de kloof alleen maar
groter dreigt te worden. En zelfs als je de resultaten van alle bekende zoekmachines bij elkaar brengt, kom je niet veel hoger uit dan 35 %
ontsluiting, aangezien de databanken van die zoekmachines elkaar grotendeels overlappen. Al deze extra informatie huist in het zogenaamde "diep web". Dat zijn in de eerste plaats pagina's die dynamisch
gegenereerd worden: ze worden op het moment zelf samengesteld uit gegevens die zich in allerlei databanken
bevinden, bijvoorbeeld op grond van de zoekopdracht die een gebruiker heeft ingetikt. Dit is onder andere het
geval voor de Thomaswebsite. Pas als jij je vorderingsplan of jaarplan opvraagt, wordt deze pagina aangemaakt! Los daarvan weten heel wat zoekmachines zich op dit moment evenmin raad met webdocumenten als .doc, .xls
en .pdf, en die worden alsmaar talrijker. Google kan bijvoorbeeld wel overweg met pdf-bestanden, maar enkel
het eerste stukje van zo'n document wordt door de zoekrobot effectief ingelezen en geïndexeerd. Deze
gedeeltelijke indexering geldt overigens ook voor gewone webpagina's: de meeste zoekrobots bezoeken namelijk
zelden webpagina's die meer dan drie linkniveaus diep huizen. Ze bezoeken bijvoorbeeld wel de homepagina,
én pagina's waar die naar linkt, maar nog een niveau verder houden ze het meestal voor bekeken. Ten slotte sluiten heel wat webmasters bewust een stuk van hun site af voor zoekrobots of schermen ze
onderdelen af via een gebruikerswachtwoord (bijvoorbeeld op Thomas, rubriek Leerkracht, onderdeel
Instrumenten - Jaarplannen). Intussen worden wel allerlei pogingen ondernomen om ook dat diepe web wat verder te ontsluiten.
Je kan alvast even proberen of je méér kan opvissen via de zoekdiensten van CompletePlanet
www.completeplanet.com, lnvisible Web www.invisibleweb.net en Profusion www.profusion.com -
maar ons wisten ze alvast niet te overtuigen!
Het ziet er dus niet naar uit dat het diepe web zijn geheimen morgen al zal prijsgeven.
bron: Clickx, jrg 2004, nr 59, dossier "het web, een hoog IQ?", Toon Van Daele