SEO

10 inzichten uit gelekte Google Search API-documenten

0

Duizenden per ongeluk uitgelekte API-documenten uit de Google Search-divisie zijn begin mei 2024 gedeeld met SEO-guru Rand Fishkin (medeoprichter Moz). De bron: een oplettende SEO-specialist die de data toevallig ontdekte. De docs onthullen gegevens over de mogelijke werking van Google’s zoekmachine. Vele hiervan werden in het verleden ontkracht door Googlers. In dit artikel deel ik 10 inzichten die SEO-specialisten en online marketeers kunnen benutten. Uiteraard inclusief enkele kanttekeningen waar nodig.

Wat is er precies gebeurd?

De interne documenten zijn afkomstig uit Google’s Content Storage API en zijn door een bot per ongeluk automatisch gepubliceerd op het developer-platform Github. De geautomatiseerde API-documentatie tool HexDocs heeft die data binnengehaald en hier gepubliceerd. Het hek is dus van de dam en Google kan dit niet ongedaan maken.

De relatief onbekende ondernemer en SEO-specialist Erfan Azimi is een van deze databronnen tegen het lijf gelopen. Na lang aarzelen, heeft hij besloten de API-data tijdens een videogesprek te delen met Rand Fishkin, die het grote nieuws via dit artikel de wereld in hielp.

Erfans motief: ten eerste, bewijzen dat Google’s woordvoerders in het verleden af en toe gelogen hebben. En ten tweede, het creëren van meer transparantie tussen Google’s Search-team en de SEO-industrie. Bekijk zijn verhaal in deze video. Bekijk eventueel mijn video hieronder als je liever wil luisteren/kijken naar het gehele verhaal.

Accepteer cookies

Nieuwe inzichten voor SEO-specialisten

Okay, en dan nu het belangrijkste… Google gebruikt blijkbaar 2.596 modules met 14.014 attributen voor het rangschikken van inhoud. Dit geeft aan dat het ranking-algoritme enorm complex is. Let wel, deze zijn niet allemaal gericht op Search. De onderstaande 10 inzichten hebben wel een focus op Search.

Ik omschrijf ieder uitgelekt datapunt en hoe we dit naar mijn inziens in de praktijk zouden kunnen benutten. Houd er rekening mee dat we het gewicht per datapunt niet hebben kunnen achterhalen. Eveneens weten we ook niet of deze anno nu nog actief zijn in Google’s algoritme. Goed, laten we direct beginnen met het eerste inzicht!

1. Google volgt gebruikers om te bepalen wat goede pagina’s zijn

Als onderdeel van hun NavBoost systeem (bekend uit de rechtszaak tegen Google) volgt Google het gedrag van gebruikers om te bepalen welke content goed is en welke niet. Termen zoals ‘badClicks, goodClicks en lastLongestClicks’ zijn hier onderdeel van. Google meet wat gebruikers ná het klikken precies doen: wel of niet de zoektocht beëindigen. De term ‘ChromeInTotal’ verklapt dat Google hier ook hun Chrome-browser voor gebruikt. Dit werd altijd glashard ontkend door Google.

  • Tip: zorg ervoor dat bezoekers op je pagina voor 100% geholpen worden en geen enkele reden meer hebben om rond te klikken op de website en/of terug te gaan naar Google. Idealiter sluiten ze de tab (=oplossing gevonden). Dit bereik je door het ultieme antwoord/service/product aan te bieden op een zeer gebruiksvriendelijke (mobiele) webpagina.

2. Google geeft bepaalde websites voorrang met ‘whitelisting’

Tijdens de coronapandemie en verkiezingen gebruikte Google whitelists om bepaalde websites in de zoekresultaten voorrang te geven op anderen. Dit valt te concluderen uit de gevonden tags ‘isCovidLocalAuthority’ en ‘isElectionAuthority’. Ook is de module ‘Good Quality Travel Sites’ gevonden die suggereert dat Google binnen individuele industrieën voorkeuren aanmerkt.

  • Tip: zorg ervoor dat uit jouw website valt te concluderen dat jouw bedrijf op de hoogte is van alle wet- en regelgeving die geldt in jouw specifieke industrie. Link naar officiële instanties en waakhonden die deze regels handhaven. Deel indien mogelijk links naar diploma’s, oorkondes, certificaten en gewonnen awards om dit te bevestigen.

3. Google degradeert websites met bepaalde eigenschappen

Nieuwe websites worden tijdelijk in een ‘sandbox’ geplaatst om spam te voorkomen. In de ‘PerDocData’-module vinden we de tag ‘hostAge’ die daar op wijst. Als nieuwe website (ook met goede bedoelingen) zul je dus niet snel hoog scoren in rankings.

  • Tip: focus in de eerste maanden van jouw nieuwe merk/bedrijf qua promotie vooral ook op andere marketingkanalen, zoals brand partnerships, advertorials, podcastinterviews, socialmediakanalen, traditionele media (radio, print, outdoor) en advertenties in Google, Reddit, Insta, TikTok, etc.

Exact match domeinnamen (EMD) die tekstueel precies overeenkomen met een merkloze zoekterm (bv. schoenenkopen.nl) krijgen een minpunt van Google.

  • Tip: zorg ervoor dat je een écht merk voert. Idealiter een merknaam die nog nergens anders voorkomt, zodat Google niet in de war raakt met een reeds bestaand merk.

Misleidende anchorteksten die doorlinken naar pagina’s waarvan de inhoud niet aansluit met hetgeen waarnaar verwezen wordt, worden gedegradeerd.

  • Tip: wees in de gelinkte tekst altijd transparant welke pagina men kan verwachten als ze er op klikken. Ook rondom de link. Dit geldt voor zowel interne als externe links.

Een SERP-demotie suggereert dat Google een pagina degradeert zodra vanuit de SERP is bewezen dat gebruikers niet positief hebben gereageerd op die pagina.

  • Tip: zorg ervoor dat de omschrijving in je metatitel 100% overeenkomt met hetgeen men te zien krijgt op de pagina. Hierbij is het cruciaal dat je ook de zoekintentie matcht met hoge kwaliteit content.

Product Review-demotie: je krijgt blijkbaar een minpunt wanneer jouw productreview niet overeenkomt met hoe Google dat graag ziet.

  • Tip: check de vereisten van Google voor een goede (product) reviewpagina en zorg ervoor dat jouw content hieraan voldoet.

‘Global’- en ‘Super Global’-demoties suggereren dat Google jouw website lokaal probeert te classificeren. Dit kan bijvoorbeeld betekenen dat jouw Engelse website niet goed in alle Engelstalige landen rankt, terwijl dat wel de intentie is.

  • Tip: tag de pagina’s in verschillende talen met de juiste hreflang-tag, inclusief geografische targeting. Zorg ervoor dat je in je html van iedere pagina ook verwijst naar de pagina’s met de andere talen. Open Google Bedrijfsprofielen in andere landen, indien jouw bedrijf ook actief is in die landen (en daar een kantoor heeft).

4. Google geeft links (URL’s) een waarde aan de hand van specifieke eigenschappen

Indexering van links: de tag ‘sourceType’ geeft mogelijk aan dat links op pagina’s met een hogere indexeringsklasse waardevoller zijn. Dit benadrukt het belang van links op relevante en veel bezochte pagina’s (zoals grote nieuwswebsites).

  • Tip: richt je tijdens (link)campagnes op websites van échte merken die veel bezoekers ontvangen. Probeer mee te liften op bestaande content die reeds goed scoort in Google en regelmatig wordt geüpdatet.

Linkspam signalen: De tag ‘phraseAnchorSpamDays’ suggereert dat Google de snelheid van de toename van spam-ankerteksten meet en hiermee linkspam detecteert.

  • Tip: zorg voor een gevarieerd pallet aan gelinkte tekst (anchor text). Maak sowieso niet doorlopend links aan die tekstueel een exacte match met een zoekterm zijn. Dit zie je vaak bij een grootse uitrol van persberichten.

Pagina-updates: bij het analyseren van URL’s houdt Google rekening met de laatste 20 iteraties van een pagina en worden nieuwe updates vergeleken met oudere pagina’s.

  • Tip: updaten met minuscule aanpassingen zal weinig impact meer hebben, tenzij het een technisch probleem betreft. Ik merk tijdens mijn eigen updates ook al dat zeer kleine aanpassingen nauwelijks een rank boost opleveren.

Homepage PageRank en vertrouwen: de tag ‘Homepage PageRank’ is zodanig gebruikt in de code dat deze suggereert dat nieuwe pagina’s de PageRank (vertrouwen) van de homepage overnemen totdat ze hun eigen PageRank hebben opgebouwd. Daarnaast vinden we ook ‘siteAuthority’ in het systeem, wat aangeeft dat Google wel degelijk een waarde aan de autoriteit van een website hangt. Iets wat John Muller van Google altijd heeft ontkend.

  • Tip: bouw jouw homepage zo op dat deze voldoet aan de E-E-A-T-guidelines van Google. De waarde van jouw homepage zal nieuwe pagina’s ten goede komen.

5. Google kent waarde toe aan specifieke on-page factoren

Paginatitels en keywords: de tag ‘titlematchScore’ suggereert dat een paginatitel nog steeds goed overeen moet komen met de ingetypte zoekopdracht.

  • Tip: plaats de zoekterm voorin je metatitel, maar dit hoeft niet per se exact. Kijk goed naar de top 5 in de SERP en ontdek of er vervoegingen zijn die Google prefereert.

Originaliteit: de tag ‘OriginalContentScore’ meet waarschijnlijk hoe origineel content is ten opzichte van reeds geïndexeerde pagina’s. Pagina’s met weinig inhoud die wél origineel zijn, kunnen hierdoor alsnog scoren.

  • Tip: match de zoekintentie en consensus van de top 3, maar publiceer additioneel originele insights voor een extra boost.

Over-optimalisatie: met de tag ‘KeywordStuffingScore’ lijkt Google te meten of een pagina niet overduidelijk met een SEO-doel is geproduceerd. Vroeger kon je namelijk gemakkelijk scoren door de zoekterm overmatig vaak te vermelden in je tekst. Hoewel de meeste SEO-experts dit allang niet meer doen, is het mooi om deze bevestiging te zien.

  • Tip: na Single Variable Testing in de SEO-groep waar ik in zit, werd duidelijk dat je een zoekwoord idealiter 0x gebruikt in de bodytekst. Tenzij het ‘normaal’ is dat de top 3 in Google dat ook doet. Dan heeft iedereen dezelfde KeywordStuffingScore 🙂

Aantal gebruikte tekens: de tag ‘snippetPrefixCharCount’ geeft waarschijnlijk aan dat de perfecte lengte van een featured snippet wordt bepaald. De perfecte lengte van een metatitel is niet gevonden.

  • Tip: tel letterlijk hoeveel karakters de featured snippet in de SERP heeft voor een specifieke zoekterm. Herschrijf deze snippet met dezelfde hoeveelheid karakters en plaats deze dicht bij een H1 of H2 die de zoekintentie aanspreekt.

Lettergrootte wordt gewogen: de tag ‘avgTermWeight’ geeft aan dat Google de gemiddelde gewogen lettergrootte meet van jouw gebruikte termen én links. Dit kan mogelijk bepalen hoe belangrijk Google bepaalde inhoud op een pagina acht.

  • Tip: maak de woorden die semantisch gezien de belangrijkste onderdelen van de webpagina zijn, iets groter. Denk extra goed na over je subheadings (H2, H3, etc.)

Maximaal aantal tokens: uit de omschrijving bij de tag ‘numTokens’ valt op te maken dat Google de verhouding van het totale aantal woorden in de tekst tot het aantal unieke tokens bepaalt. Er is blijkbaar ook een maximum aantal tokens dat het systeem kan wegen.

  • Tip: plaats als schrijver de belangrijkste semantische inhoud (termen) bovenaan in de pagina. Voor Google hoef je geen pagina’s met 10.000 woorden meer te schrijven. Ze wegen die extra bulk tekst waarschijnlijk niet mee.

6. Google hecht waarde aan de datum en actualiteit van een pagina

Datums op pagina’s: Google legt met drie tags een sterke focus op de actualiteit van een pagina. Zo kijken ze naar de expliciete datum op de pagina (bylineDate), de datum uit de URL of titel (syntacticDate), en de semantische datum uit de inhoud van de pagina (semanticDate).

  • Tip: wees consistent in het gebruik van datums in je pagina’s. Deze moet dus gelijk zijn in zowel de structured data, paginatitels als in de XML-sitemap.

7. Google waardeert YMYL-pagina’s (Your Money Your Life) anders

YMYL-score: Google geeft met ‘ymylHealthScore’ en ‘ymylNewsScore’ duidelijk aparte classifiers aan gezondheid en nieuw gerelateerde pagina’s binnen dit genre. Ook lijken ze met ‘encodedChardXlqYmylPrediction’ proberen te achterhalen of nieuwe content YMYL-content is.

  • Tip: beheer je een website in de gezondheidsindustrie? Wees je dan bewust dat Google extra streng is op dit soort websites. Zorg ervoor dat je voldoet aan alle eisen die Google stelt aan YMYL-websites.

Websites met >50% video’s: bestaat meer dan de helft van jouw website uit pagina’s waarbij video een hoofdrol speelt, dan krijg je een andere behandeling van Google. Dit suggereert de tag ‘isVideoFocusedSite’. Waarschijnlijk wordt je dan vaker weergegeven voor de zoektermen waarbij het bekijken van een video de zoekintentie is.

  • Tip: leg je voornamelijk de focus op video, check (in je SEO-tool) dan eerst of een zoekterm video’s oproept in de SERP. Zo vergroot je je kans om daar getoond te worden.

8. Google behandelt kleine, persoonlijke sites anders

Persoonlijke websites worden met de tag ‘smallPersonalSite’ geclassificeerd. Het is onduidelijk wat dit praktisch betekent voor de rankings van zo’n website. Maar, met gezond verstand zou je kunnen concluderen dat dergelijke websites niet mogen scoren op zakelijke- en YMYL-zoektermen.

  • Tip: beheer je een wat kleinere, persoonlijke website? Wees je dan bewust van jouw realistische kansen om te scoren in Google’s zoekresultaten. Reken jezelf niet rijk. Focus bijvoorbeeld op non-YMYL-zoektermen met een lager volume. Vermijd zakelijke zoektermen. Deze posities worden veelal door échte (grote) bedrijven ingenomen.

9. Google controleert hoe ‘on topic’ een pagina is ten opzichte van de gehele website

Google gebruikt vector embeddings en vergelijkt hiermee de inhoud van pagina’s (pageEmbedding) met de algemene inhoud van de site (siteRadius en siteEmbedding) om de relevantie en focus te meten (siteFocusScore).

  • Tip: “Schoenmaker, blijf bij je leest”. Ik heb dit zelf in de praktijk ervaren. Publiceer je content die ver weg staat van de core business van je eigen bedrijf/website? Dan zal die content nauwelijks scoren. Tenzij je een gigant bent, zoals Amazon of bol. Ga dus primair voor zoektermen die aansluiten bij de inhoud (lees: expert) van de website in kwestie.

10. Google zet Twiddlers en Boosts in als een tweede sortering (filter)

Twiddlers kun je zien als filters of extra (tweede) rangschikking die komt ná Google’s primaire zoekalgoritme (aScorer). Ze passen de rankings dus nog eens aan vlak voordat deze aan de gebruiker wordt gepresenteerd. De Twiddlers met de namen ‘NavBoost’, ‘QualityBoost’, ‘RealTimeBoost’ en ‘WebImageBoost’ spelen een belangrijke rol.

  • Tip: wees je bewust van deze extra filter. In de SEO-testgroep waar ik in zit, ontdekten we dit enkele jaren geleden ook. We noemden ze toen ‘sort 1’ en ‘sort 2’. Jouw IP-adres, zoekhistorie en taalinstelling zijn ook een soort Twiddlers die de SERP aanpassen nadat het primaire zoekalgoritme (‘sort 1’) zijn werk heeft gedaan.

Gebruik deze informatie strategisch

Hoewel niet alle onthullingen uit de gelekte Google Search API-documenten schokkend nieuw zijn, bieden ze een dieper begrip van de werking van Google’s algoritmes en benadrukken ze het belang van transparantie en eerlijkheid in de communicatie tussen Google en de SEO-community.

Door deze informatie strategisch te gebruiken, kunnen SEO-specialisten hun aanpak verfijnen en wellicht effectiever inspelen op de factoren die van invloed lijken te zijn op zoekresultaten.

Uiteraard is voorzichtigheid geboden, aangezien Google nu aan zet is, en op termijn waarschijnlijk de nodige updates zal uitvoeren. Wil je zelf ook eens diep in de uitgelekte data duiken? Bekijk deze pagina dan eens van SEO-expert Dixon Jones, waarin je gemakkelijk kunt zoeken door alle classifiers.

Bron header-afbeelding: gegenereerd door Midjourney