4.5. Hoe werken zoekmachines?

Een zoekmachine is een dienst op internet waarmee je op het world wide web kunt zoeken door zoekwoorden of zoektermen te gebruiken.

Je hebt ‘crawler based’ zoekmachines, ‘subject directory’ zoekmachines en ‘meta’ zoekmachines.

I. Crawler based zoekmachine
web-crawlerTo crawl betekent letterlijk: kruipen, afstruinen.
Een zoekmachine die is gebaseerd op een ‘crawler’ slaat zonder ophouden dag en nacht een kopie van links op het world wide web op in een database, die de index wordt genoemd. Nadat je een zoekopdracht hebt ingetypt worden de zoekresultaten vanuit de index op relevantie (= bruikbaarheid, belangrijkheid) gerangschikt. De bekendste en meest gebruikte crawler based zoekmachine is Google.

II. Subject directory
Subject betekent: onderwerp en directory betekent letterlijk: adresboek.
‘Subject directories’ zijn online gidsen met een verzameling links die over een bepaald onderwerp gaan. Deze subject directories worden door mensen met de hand bijgehouden. Het bekendste voorbeeld in Nederland is Startpagina.nl.

      • Verticale zoekmachines
        Onder ‘subject directories’ vallen ook gespecialiseerde zoekmachines, beter bekend als verticale zoekmachines. Een verticale zoekmachine is een zoekmachine die zich alleen richt op een bepaald type informatie. Een verticale zoekmachine helpt je sneller resultaten te vinden die voor jou belangrijk zijn. Een voorbeeld van een verticale zoekmachine is Google Maps of Google Afbeeldingen.

III. Meta zoekmachine
Meta (Grieks) wil letterlijk zeggen: iets wat boven iets anders staat.
Een meta zoekmachine staat als het ware boven andere zoekmachines en combineert dus de zoekresultaten van meerdere zoekmachines. Een voorbeeld van een meta zoekmachine in Nederland is Vinden.nl.

Hoe werkt een ‘crawler based’ zoekmachine?
Een zoekmachine gebaseerd op een crawler bestaat uit drie onderdelen:

1. Crawler (spider, robot)

      • De crawler heet ook wel ‘spider’ of ‘(ro)bot’. Het is een betrekkelijk eenvoudig computerprogramma dat niets anders doet dan links volgen en opslaan in een database, de index.
      • Een crawler kan alleen de links volgen op webpagina’s die al in de index zijn opgenomen. Zonder een link naar een webpagina (of zonder het aanmelden van een webpagina bij een zoekmachine) kan een webpagina dus nooit gevonden worden. Over het aanmelden van links bij een zoekmachine lees je hieronder meer.

2. Index (database)

      • De crawler of spider slaat de gevonden webpagina op in een werkelijk gigantische database die dagelijks groter wordt: de index. Op dat moment is een webpagina geïndexeerd. Eerst wordt alleen de tekst op een webpagina opgeslagen in de index, maar de zoekmachines gaan daarna steeds meer informatie binnen de webpagina apart opslaan.
      • Deze index is te vergelijken met de index (= inhoudsopgave) in een boek. De index ‘weet’ welke woorden op welke pagina staan. Vervolgens is het de taak van het algoritme van de zoekmachine om te bepalen in welke volgorde de zoekresultaten worden gerangschikt.

algoritme3. Algoritme (formule)

        • Het algoritme van een zoekmachine is een ingewikkelde wiskundige formule die als belangrijkste taak heeft om te bepalen en te berekenen welke webpagina’s uit de index getoond moeten worden bij een zoekopdracht.
        • Het belangrijkste doel van een zoekmachine is om zo relevant (= bruikbaar) mogelijke zoekresultaten te leveren op basis van een zoekopdracht. Deze zeer complexe taak is dus gebaseerd op een rekenformule, die op honderden verschillende manieren kan en moet bepalen of een bepaalde webpagina belangrijk is bij jouw zoekopdracht.
        • Hoe die algoritmen precies werken, daar wordt door de bouwers van zoekmachines uiterst geheimzinnig over gedaan. Het succes van een zoekmachine hangt ervan af of jij snel de zoekresultaten vindt die je zocht en die voor jou belangrijk zijn. Hoe zoekmachines dat precies doen, willen ze natuurlijk niet bekendmaken aan concurrerende andere zoekmachines. Hoe beter een zoekmachine namelijk werkt, hoe meer mensen hem zullen gebruiken en hoe hoger de advertentie-inkomsten zijn. Hoe algoritmen precies werken blijft voor het grote publiek dus onbekend.
      • Google PageRank
        Page betekent: ‘pagina’ en ‘to rank’ betekent: de rangorde, belangrijkheid, vaststellen.
        Een van de dingen die een algoritme doet, is de rangorde van de zoekresultaten bepalen. Vele mensen denken dat PageRank hetzelfde is als een algoritme, maar dat klopt niet. PageRank is slechts een onderdeel van wat het door de zoekmachine gebruikte algoritme berekent.
        Als pagina A genoemd wordt op pagina B dan stelt het algoritme vast dat pagina B ‘1 stem’ heeft gekregen van pagina A. Hoe meer stemmen een pagina heeft ontvangen, hoe hoger de pagina komt te staan in de PageRank.
        Maar PageRank houdt daarbij ook rekening met de bruikbaarheid en belangrijkheid van pagina A, die een stem uitbracht op pagina B. Als pagina A zelf belangrijk is, telt de stem voor pagina B zwaarder en maakt daarmee dus ook pagina B belangrijker.
        Het algoritme wordt natuurlijk continu bijgewerkt en uitgebreid. In 2013 heeft Google zijn volledige algoritme zelfs helemaal vernieuwd. Het nieuwe algoritme wordt Hummingbird genoemd.
      • Aanmelden bij zoekmachines
        Een webpagina die niet veel bezocht wordt, of net nieuw is, wordt pas na een hele tijd geïndexeerd (= opgenomen in de index van een zoekmachine). Dat komt omdat er in het begin nog bijna geen links naar andere pagina’s zijn, en de nieuwe website binnen het algoritme dus weinig stemmen krijgt.
        Om daar wat aan te doen kun je je website aanmelden bij de verschillende zoekmachines. Aanmelden bij een zoekmachine betekent niet dat de nieuwe pagina ook meteen hoog in de PageRank verschijnt. Dat wordt bepaald door het algoritme van de zoekmachine. Om een pagina hoog te laten eindigen in de Pagerank is meer nodig.
      • SEO: Search Engine Optimalisation
        Om zo hoog mogelijk in de zoekmachines te eindigen is het dus zaak er zelf voor te zorgen dat op zoveel mogelijk (liefst belangrijke) pagina’s een link naar jouw pagina wordt gemaakt. Dat heet SEO: het optimaliseren (= het zo goed mogelijk in orde brengen) van de vindbaarheid van een website in zoekmachines.
      • Maar ook op jouw eigen website kun je zorgen dat je vindbaarheid wordt vergroot. Je kunt een website zo inrichten dat hij snel wordt gevonden. Daarbij is sinds 1997 vastgesteld wat wel en wat niet mag, omdat sommige commerciële websites oneerlijk te werk gingen. Als je je niet aan de regels houdt, kun je uit de index van zoekmachines worden verwijderd. Wat wel en niet mag.
      • Zoekmachines zoeken onder meer op trefwoorden. Door ervoor te zorgen dat de trefwoorden die voor jouw website belangrijk zijn, zo vaak mogelijk voorkomen in de titels en de tags (steekwoorden) van je website, wordt je vindbaarheid vergroot.
      • Grote bedrijven laten de SEO van hun website doen door gespecialiseerde bedrijven. Het is ook toegestaan zoekmachines te betalen om hoog in de zoekresultaten te eindigen. Dat gaat volgens een veilingsysteem. Maar op internet zijn ook gratis SEO-scans beschikbaar, waarmee je zelf kunt zien wat je aan je website kunt verbeteren om hoger te eindigen in de zoekmachines. Hier een voorbeeld van zo’n scan.
      • Filteren en personaliseren
        De zoekmachines worden er steeds beter in om de informatie voor je te filteren en te personaliseren (= aanpassen aan jouw voorkeuren). Bedrijven op internet zijn hier dol op. Lees bijvoorbeeld dit artikel: 14 kansen en 12 valkuilen bij het personaliseren van de online klantbeleving
      • De meeste zoekmachines stellen bovendien gedragsprofielen op van hun gebruikers. Een gedragsprofiel is een database waarin al je activiteiten op een bepaalde website door de eigenaar van die website worden opgeslagen. Dat betekent dat ze precies weten (en opslaan, dus onthouden) waar je naar zoekt, wat je interesses zijn, wat je mooi vindt, wie je vrienden zijn, welke websites je bezoekt, enzovoorts.
        Zoekmachines doen dat onder andere door gebruik te maken van cookies (= een pakketje gegevens dat een server van een website die je bezoekt naar jouw browser stuurt, waardoor de server jou herkent als je weer op die website inlogt.)
      • Google is er het verst in, met het opstellen van gedragsprofielen van gebruikers. In 2012 wijzigde het bedrijf het privacybeleid en combineerde het de gegevens van gebruikers die verschillende andere diensten van google gebruikten, met die van de zoekmachine google. Dit leidde tot grote kritiek van de Europese Commissie, maar google zette door.
      • Niet alleen zoekmachines stellen gedragsprofielen op, bedrijven en sociale media doen het ook.
        Aan de ene kant komt hierdoor de privacy van de gebruiker in het gedrang. De vraag wordt steeds belangrijker hoeveel bedrijven en eigenaren van sociale media van je mogen weten.
        Maar er schuilt nog een groter risico in: als zoekmachines voor jou op basis van je gedragsprofiel de antwoorden op je zoekopdrachten gaan filteren en dus voor jou gaan bepalen welke zoekresultaten je mag zien, ben je je autonomie (= vrijheid en zelfstandigheid) kwijt.
        Het grootste risico is ten slotte dat er in de toekomst omstandigheden kunnen ontstaan, bijvoorbeeld oorlog, waarbij de vijand heel graag alle informatie over burgers zal willen hebben die bedrijven zoals google of facebook hebben. Dat is een schrikbeeld voor iedere burger. Lees ook: ‘Gebruikers niet blij met verzamelwoede zoekmachines’.
        Er wordt ook gewaarschuwd door experts dat het programmeren van zoekmachines aan het doorschieten is. Lees hierover ‘We kunnen niet roekeloos blijven programmeren’.
      • Er bestaan ook zoekmachines die geen gedragsprofielen opstellen:
        Ixquick
        DuckDuckGo
        StartPage
        Disconnect Search
        Lees hier wat je nog meer kunt doen om te voorkomen dat zoekmachines gedragsprofielen van je kunnen opstellen: Zoeken zonder Google-filter: tips. Meer tips vind je hier: Zoeken met privacy.
      • Sommige browsers bieden tegenwoordig de mogelijkheid van ‘private search’. (Een webbrowser is het bladerprogramma dat je gebruikt.)
        170219-webbrowser
      • Firefox (Mozilla) biedt je bijvoorbeeld die mogelijkheid:
        170219-firefox-volgen
        Weet jij eigenlijk welke browser je gebruikt?
        Weet jij of jouw browser ook de mogelijkheid biedt dat jouw zoekgeschiedenis op internet niet gevolgd en gebruikt kan worden?
        Hoe zet ik de niet-volgen-functie aan in Mozilla
      • In het algemeen geldt op internet: ‘Als iets gratis is, ben jij het product’. Met andere woorden: als je gebruik maakt van een gratis dienst, wordt er per definitie door iemand anders aan jouw zoekgeschiedenis geld verdiend. Dat is best vervelend, als je er even over nadenkt. Dus is het best belangrijk dat je daar even aandacht aan besteedt en maatregelen neemt.
      • MijnOnlineIdentiteit.nl

Begrippen die je moet kennen:

      • Crawler based zoekmachine
      • Relevantie
      • Subject directory
      • Meta zoekmachine
      • Verticale zoekmachine
      • Spider, bot of robot
      • Index
      • Indexeren
      • Algoritme
      • Pagerank
      • SEO
      • Optimaliseren
      • Tag
      • Personaliseren
      • Gedragsprofiel
      • Cookie
      • Browser

Hummingbird

Reacties

Een gedachte over “4.5. Hoe werken zoekmachines?

  1. dit was de beste les ooit -_-

    Geplaatst door wouter | 20 februari 2017, 12:21

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s