Innovatie

Social media als voorspellers: 6 inzichten na Project X Haren

0

Snel mobiliserende groepen, zoals bij het sneeuwballengevecht in Breda en de Harlem Shake zijn een punt van zorg voor de openbare orde. Zit er voorspellende waarde in de social media die helpen om zo’n mobilisatie of het verloop van zo’n evenement te duiden?  Drie analyses helpen om deze vragen scherper te formuleren. En na ‘Cohen’ en met de aankomende troonwisseling is daar veel behoefte aan!

Cohen geeft richting zonder uit te werken

De rapporten van de commissie Cohen over Project X geven een gedetailleerd beeld van de ontwikkelingen voorafgaand aan en tijdens Project X in Haren. Belangrijk en herkenbaar voor velen die deze blog regelmatig bezoeken, is de prettige aanbeveling van de commissie Cohen: ga monitoren. De volgende aanbevelingen waren ‘leer duiden wat je ziet’ en ‘ontwikkel een interventierepertoire’ voor situaties waar het risico van verstoring van de openbare orde bestaat. De commissie geeft helaas geen concrete invulling aan deze twee aanbevelingen.

dewegnaarharen

Vragen beantwoorden met social media-monitors

Met social media-monitors kunnen we ondertussen real-time voor elk onderwerp verschillende statistieken laten zien. Bijvoorbeeld over het aantal berichten, het sentiment, de locatie, de afzender en de bron. Interessanter wordt het wanneer je met deze inzichten vragen probeert te beantwoorden: wanneer je kunt duiden wat je in de statistieken ziet.

In het publieke domein gaat het niet om zaken als de conversie van een linkje in een tweet maar om vragen als ‘wordt dit sneeuwballen gevecht zo groot als Project X?’, ‘Hoeveel mensen komen naar de Harlem Shake?’ en ‘Wat is de intentie van deze groep, een leuk event of rellen?’. En wanneer een interventie wenselijk is: ‘Wie is initiatiefnemer, wie zweept op, wie ruit op?’ Tijdens een evenement zijn er vragen als ‘Wat gebeurt er allemaal’ en ‘Hoe is de sfeer?’

Eigen analyse van Haren

Uit interesse voor sociale media en uit ontzag voor de case Project X (zo groot, zo veel, zo heftig) hebben we de zaterdag en zondag na de rellen in Haren analyses gemaakt van de gebeurtenissen in Haren op basis van de berichten op social media. Wat zie je als je naar de berichten kijkt? Maar waar moet je kijken als er 400.000 berichten zijn? Hoe pak je dat aan? En houden die inzichten stand met de kennis van, nu na de rapporten van de commissie Cohen?

Heel snel situatie in beeld

Met onze social media-monitor zijn de berichten van 21 september geanalyseerd. Daartoe hebben we de avond van 21 september van 17:00 tot 01:59 opgedeeld in kwartieren. Voor elk kwartier is geautomatiseerd bepaald waar de berichten over gingen en wat de top tien van belangrijkste woorden zijn. Dit leverde een tabel op, waarin met de kennis uit de media van de situatie de avond daarvoor, groepen van woorden zijn te markeren. Er tekenen zich zo patronen af, die interessant lijken om nader te bekijken.

belangrijkstewoordeninberichten

‘Waarisdebrievenbus’ en ‘wildplassen’

Enkele van die patronen zijn de reisbewegingen van de bezoekers, de rellen zelf, de plundering van Albert Heijn, de geruchten van een overleden meisje, de verplaatsing door het dorp en verschillende opmerkelijke woorden als ‘knaks’, ‘waarisdebrievenbus’ en ‘wildplassen’.

aanbevelingen voor verdere analyse

Een minutieus draaiboek van het verloop van de avond

Voor elk van de veelvoorkomende woorden per kwartier, die binnen een patroon vallen, is vervolgens een volume-analyse gemaakt: hoe vaak is er op de avond in berichten dat woord gebruikt? En waar zat de piek? Zo is voor ruim honderd woorden handmatig het tijdstip van de piek genoteerd en zijn de pieken voor alle woorden geordend in de tijd. Dit geeft achteraf een minutieus draaiboek van het verloop van de avond.

woorden

 In welke mate weergeeft de tijdslijn de werkelijkheid?

Nu is het natuurlijk interessant in welke mate deze tijdslijn de werkelijkheid weergeeft. De manier om dat te toetsen is met de tijdslijn die de commissie Cohen heeft opgetekend. Helaas is dat slechts op enkele punten te checken, omdat de commissie niet op dit (gehoopte) detail het verloop van de avond beschrijft. Punten die wel zijn te checken, zijn bijvoorbeeld om 20:49, wanneer de ME uitstapt en direct wordt bekogeld. En om 21:11, wanneer de eerste charge plaatsvindt en het kruispunt wordt schoongeveegd.

Beide momenten komen in de woordenanalyse terug, al lijkt het wat vertraagd. De commissie Cohen geeft aan dat om 22:00 bij Albert Heijn de ruiten worden ingeslagen en dat deze wordt geplunderd. Uit de data blijkt dat om 22:25 te gebeuren.

Deze vergelijking, en zeker ook als je daar na een half jaar op terugkijkt, helpt om nog eens kritisch naar de aanpak te kijken. Gaat het om unieke waarnemingen of neem je retweets mee? Neem je ook uitingen van de pers mee? Lopen de tijdslijnen van alle data die je gebruikt synchroon, of verspringt deze bij een bron ten opzichte van een andere bron, waardoor er een verschuiving lijkt te zijn?.

Voorspellen van omslagpunt in sfeer

Met bovenstaande aanpak is met enige aanscherping een zo goed als real-time beeld te vormen van gebeurtenissen tijdens een incident. Inzichten die in de chaos van zo’n moment zeer welkom zijn. Maar dat is nog geen voorspelling. Daarmee is bijvoorbeeld nog niet de opschaling van de inzet van de politie op te sturen (een van de vragen van een burgemeester op zo’n moment).

Dat was voor ons aanleiding om binnen de berichten op social media in te zoomen op het omslagpunt in de sfeer. Daartoe zochten we op basis van de eerdere analyses eerst naar wanneer woorden als ‘sfeer’ en ‘grimmig’ veel voorkomen in de berichten op social media. In het besef dat het om waarnemingen uit de eerste hand moet gaan, zijn oorspronkelijke berichten waarin de woorden voorkomen geteld. Dit geeft de volgende grafiek met twee duidelijke pieken.

sfeer in haren

Sfeer proeven via Hootsuite

Als we dit projecteren op de tijdslijn die de commissie Cohen ons geeft, dan komt de eerste piek overeen met de beschrijving in het rapport dat de sfeer omslaat naar jolig en baldadig, en dat er op dat moment voorwerpen naar de politieagenten worden gegooid. De tweede piek zit kort na 21:10, wanneer de eerste charges plaatsvinden.

Wat opvalt is dat de sfeer in zeer weinig berichten wordt besproken. Op dat moment verschijnen er zo’n 25.000 berichten per uur (zo’n 7 berichten per seconden), je Hootsuite ziet eruit als een fruitmachine! Daarnaast valt op dat er wel degelijk twee pieken zijn en dat de signalen rond grimmigheid anderhalf uur voor de eerste charge beschikbaar zijn.

Instrument voor het sturen van de overheid

We beseffen dat één meting dun is, maar deze grafiek geeft wel aanleiding om te vermoeden dat er voorspellende waarde zit in de berichten op social media. Ook al gaat het om enorme hoeveelheden berichten, wanneer je zoekt op signaalwoorden als ‘sfeer’, dan vind je ze. Dat vermoedden we al, gegeven de soortgelijke voorspellingen van verkiezingsuitslagen en winnaars van televisieprogramma’s als Wie is de mol.

We moeten ervaren of dit algoritme stand houdt op andere indicatoren en andere situaties, en wat de aantallen zijn waarop de overheid kan sturen. Met deze kennis hebben we dan een instrument in handen waarmee, in combinatie met inzichten uit andere bronnen (waarnemingen ter plaatse, dataverkeer op de zendmasten van KPN), de overheid kan sturen.

Drukverlagend in Breda

Dat de analyse van berichten op social media in de praktijk bruikbaar zijn om op te sturen, hebben wij in Breda ervaren. Op het moment dat het gesprek over The Biggest Badest Battle los barstte, verzorgden wij een social media-monitoringtraining bij de gemeente.

Eén van de vragen op dat moment was of het sneeuwballengevecht een volgend Project X ging worden en of de politie daar rekening mee moest houden. Met de analyse op locatiegegevens is binnen enkele minuten inzichtelijk gemaakt dat het een zeer lokaal gesprek was (vooral in Breda en Tilburg).

waarinnederlandd

Vooral slimme handjes

Waar staan we dan dus met het voorspellen? Uit het voorbeeld van het ‘draaiboek’ en Breda blijkt dat de analyses van de berichten op social media informatie geven waar op dat moment op te acteren is. Zeker in combinatie met andere informatiestromen (waarnemingen van eigen mensen op locatie en de pers).

Voor het beheren van de openbare orde – als er al geen weg terug meer is en de gemobiliseerde groep onderweg is – wil je die informatie graag enkele uren van te voren. De ‘sfeer’-analyse geeft een algoritme om te voorspellen op basis van voorkomen van bepaalde woorden. Dat is een prima manier om je geautomatiseerd te laten informeren (standaardoptie). De uitdaging is om de overzichten van die woorden te krijgen, die van belang zijn om te monitoren. Het gaat dan om bibliotheken met woorden waarmee de te monitoren risico’s worden beschreven door de schrijvers van berichten op social media.

Zes inzichten

Daarnaast gaven de analyses ons zes inzichten in de aanpak:

  1. De aanpak is maatwerk: op basis van de situatie stel je vast wat te onderzoeken en hoe dat aan te pakken.
  2. De aanpak bestaat voor 20% uit tooling, voor 30% uit slimme handjes voor het lezen van berichten, voor 30% uit databewerking op de database, en voor 20% uit het opwerken van uitkomsten in te presenteren informatie. Staan we achter deze percentages?
  3. Binnen het slimme handwerk is nog steeds veel te automatiseren: dat hebben we nu met maatwerkscripts gedaan, maar die bewerkingen zouden (en zijn nu deels) standaard beschikbaar moeten zijn. Bijvoorbeeld het massaal markeren van berichten, het maken van netwerkanalyses en het opstellen van online profielen van netwerken, groepen en personen.
  4. Door op de webcare-manier berichten te lezen, eventueel te markeren en op ‘voltooien’ te zetten, krijg je een volledig herleidbaar analyseproces en weet je ook zeker dat je berichten niet meer dan een keer aanraakt: stick to the plan! Het is sterk aan te bevelen deze werkwijze overeind te houden, zeker als je met meerdere personen analyses uitvoert, of je werkwijze achteraf geëvalueerd gaat worden.
  5. Achteraf blijken veel berichten en zelfs accounts verwijderd: van de 550.000 berichten op social media die over Project X gingen zijn er 23.000 tweets en ruim 18.000 Twitter-accounts niet meer terug te vinden: hetzelfde beeld bestaat bij de data van Facebook. De les is om de data al vroeg –voor de gebeurtenissen zelf als die mogelijkheid bestaat – danwel snel op te slaan. Zo vraag ik mij af hoe compleet de Facebook-data is waar de commissie Cohen een deel van haar analyses op baseert.
  6. Kunnen spitten rond een onderwerp is één, weten naar welk onderwerp je gaat spitten is een andere discipline. Dit vraagt om continu voelsprieten in de maatschappij te hebben: waar zit een kiem voor maatschappelijke onrust? Ook het in kaart brengen van deze ‘kiem’ is een aparte discipline met eigen werkwijzen en inzet van social media monitor-instrumenten.

Vragen te over

We beseffen dat we geen wetenschap bedrijven, maar met de middelen van nu praktisch slagen proberen te maken. Er zijn vast nog tig analyses uit te voeren, die helpen om de vragen die op zo’n moment spelen te beantwoorden. De netwerkanalyses die de commissie Cohen uitvoerde zijn daar een mooi voorbeeld van. Sander Duivesteijn gaf november vorig jaar een mooi overzicht. De termen ‘social analytics’ en ‘social intelligence’ die Sander gebruikt, lijken dit thema prima te vatten. Het rapport (PDF) dat in het artikel wordt genoemd, helpt erg goed om het overzicht te krijgen.

Het maakt ook nieuwsgierig: waar zijn er meer van dit soort algoritmen bedacht en gebruikt? Waar worden dit soort analyses online besproken? En zitten daar aanpakken tussen die handig zijn voor de social media-analyses ter voorbereiding op de festiviteiten rond de troonwisseling?