Content

Private AI in de praktijk: authentieke en effectieve contentcreatie met AI

0

Krachtige publieke AI-tools zoals ChatGPT zijn geweldige hulpmiddelen bij het creëren van content. Maar zoals bij elke technologie, zijn er grenzen. Die beperkingen beginnen we te voelen: van de kwaliteit van de output tot risico’s, zoals copyright. Dus, wat nu? Welkom in de fascinerende wereld van private AI! Dit is kunstmatige intelligentie die enkel op jouw eigen data getraind wordt. We doken het afgelopen halfjaar diep in deze materie en delen graag onze bevindingen.

De uitdagingen van publieke AI

Kunstmatige intelligentie heeft zich inmiddels gevestigd als een krachtig hulpmiddel voor contentcreatie. Maar traditionele AI brengen ook uitdagingen met zich mee:

  • Verouderde data: de meeste AI-systemen werken met datasets die snel verouderen. Bijvoorbeeld, een model getraind op data van september 2021 mist recentere ontwikkelingen, wat kan leiden tot verouderde of irrelevante content.
  • Verwatering door veel slechte informatie: publieke modellen zoals die van ChatGPT zijn getraind op basis van praktisch álle informatie op het internet. Veel trainingsdata zijn dus van lage kwaliteit. Met de grote hoeveelheid data op het internet, en de output die daar een gemiddelde van is, kom je in veel gevallen op niet-authentieke content uit.
  • Kwaliteitszorgen: de bekende uitdrukking ‘rubbish in, rubbish out’ is zeer toepasselijk voor kunstmatige intelligentie. Als een AI-systeem wordt gevoed met lage kwaliteit data, zal het waarschijnlijk lage kwaliteit output produceren.
  • Copyright-risico’s: zonder duidelijke bronvermelding of transparantie kan AI content genereren die inbreuk maakt op auteursrechten. Dit kan bedrijven blootstellen aan juridische risico’s.
  • Black box: veel mensen beschouwen traditionele AI als een ‘black box’, omdat het niet altijd duidelijk is hoe beslissingen worden genomen. Dit gebrek aan transparantie kan zorgen voor vertrouwensproblemen.

Visual waarin data wordt gecombineerd door AI.

De oplossing: private AI

Daar komt private AI om de hoek kijken. Om veel van deze problemen aan te pakken, kan je een eigen private AI opzetten, die enkel is getraind op jouw eigen data. Met realtime trainingsdata en training op minimaal 1.000 artikelen per onderwerp, kan je komen tot authentieke en accurate contentcreatie.

Met opensource-onderdelen kan je tot een transparant private AI-oplossing komen. Daarbij kan van de output zelfs herleid worden welke oorspronkelijke bronnen geleid hebben tot het gegenereerde stuk content. Met veel experimenteren zijn we gekomen tot private AI-pilots die voldoen aan de volgende specificaties en functionaliteit:

Realtime trainingsdata

Naast de oorspronkelijke trainingsdata, wordt het model dagelijks opnieuw getraind met de nieuwe gegenereerde content (als dat wenselijk is). Hierdoor genereer je content altijd op basis van up-to-date informatie, wat bijvoorbeeld bij nieuws erg relevant is. Per use-case is het een strategische keuze welke content je wel of niet gebruikt voor het bij-trainen van het model. Je kan bijvoorbeeld kiezen: de door AI gegenereerde artikelen gebruiken we niet om bij te trainen, maar de grotendeels handmatig geschreven content wel.

Gerichte training

In plaats van de AI te overdonderen met alle beschikbare informatie, wordt er getraind met specifieke, feitelijke input.

Transparantie voor bronvermelding én SEO on steroids

Gebruikers kunnen precies zien welk deel van welk artikel heeft geleid tot een bepaalde output. Met de mogelijkheid om traceerbare content te genereren, biedt een goed opgezette private AI de kans om je SEO naar een hoger niveau te tillen. Als je namelijk weet welke bronnen van jouw eigen site(s) hebben geleid tot de nieuwe content, dan kan je vanaf die oorspronkelijke artikelen verwijzen naar de nieuwe artikelen. Hierdoor is je private AI een extreem krachtige tool om tot sterke, relevante interne links te komen.

Authentieke AI is een geschikte oplossing als het gaat om de fijne balans tussen kwaliteit en kwantiteit van contentcreatie. Het is een waardevol hulpmiddel voor contentcreatie, waarbij je vragen beantwoord worden op basis van jouw eigen, zorgvuldig gegenereerde archief.

In de praktijk: private AI inrichten

Hier is een diepgaande blik op hoe je private AI in de praktijk kunt inrichten en de bouwstenen die daarbij komen kijken.

Bouwblok 1. Trainingsdata

  • Trainen met eigen archief: door het trainen van de AI met je eigen archief, kan de output specifiek worden afgestemd op je bedrijfscultuur, terminologie en stijlgids. Dit zorgt voor een naadloze integratie met bestaande content.
  • Trainen met externe informatie: hier gaat het om het voeden van de AI met data uit betrouwbare externe bronnen, zoals wetenschappelijke artikelen, vakbladen of zelfs andere bronnen die jouw eigendom zijn. Dit breidt de kennisbasis van de AI uit en stelt het in staat om een breder scala aan onderwerpen te behandelen.
  • Realtime bijtrainen: dit is het voortdurend updaten van het AI-model met nieuwe informatie. Hoewel dit zorgt voor actuele kennis, is het essentieel om voorzichtig te zijn. Overtraining of training met onnauwkeurige data kan leiden tot ‘hallucinaties’ of onnauwkeurige output.

Ideeën genereren voor contentcreatie.

Bouwblok 2. Contentformules – krachtige tools voor schaalbare output

  • Op maat gemaakte contentformules: private AI stelt je in staat om op maat gemaakte formules te gebruiken die specifieke vragen of ‘prompts’ op schaal kunnen beantwoorden. Door het gebruik van formules die gevoed worden vanuit een database, kunnen grootschalige prompts efficiënt worden beantwoord.
  • Prompt Query Language: een speciaal ontwikkelde taal die bedoeld is om de AI nauwkeurige vragen te stellen aan zowel private als publieke AI, en meerdere prompts te combineren om tot diepgaande long-reads te komen. Dit kan enorm nuttig zijn bij complexe dataverzoeken of om specifieke contentformats te genereren.

Bouwblok 3. Prompts voeden

Als je je model getraind hebt, en tot verschillende contentformules gekomen bent, dan is het tijd om je model en formules aan het werk te zetten. Dat kan handmatig, artikel voor artikel. Maar met slim inrichten kan je dit ook op schaal doen, bijvoorbeeld aan de hand van reeds bestaande databases in je website(s). Ter inspiratie:

  • Voorbeeld bedrijvenwebsite: gebruik bedrijfsspecifieke databases om relevante en contextuele informatie aan de AI te leveren.
  • Vergelijken van bedrijven: door gebruik te maken van verschillende databronnen kan de AI bedrijven vergelijken op diverse parameters, zoals omzet, locatie, demografie, enz.
  • Voorbeeld receptensite: deze kan bestaan uit allerlei gegevenssets, zoals demografische informatie, klantfeedback, verkoopcijfers, enz.
  • Zoekopdrachten als voeding: door het invoeren van veelvoorkomende of trending zoekopdrachten kan de AI beter inspelen op actuele behoeften en vragen.

Met private AI ligt de kracht van geavanceerde contentcreatie en dataverwerking in jouw handen. Of het nu gaat om gepersonaliseerde contentstrategieën of diepgaande data-analyse, met de juiste bouwstenen en training kan jouw AI-model wonderen verrichten.

Onze ervaring met private AI: reflectie op 100 dagen

Na 100 dagen intensief werken met private AI, hebben we een reeks boeiende ervaringen en inzichten opgedaan. Onze samenwerkingsprojecten varieerden van partnerships met commerciële organisaties tot demo’s met uitgevers. Hier is een overzicht van wat we hebben geleerd:

Let op de kwaliteit van de input

Het principe ‘rubbish in, rubbish out’ bleek keer op keer waar te zijn. De kwaliteit van de trainingsdata bepaalt in grote mate de kwaliteit van de uitkomst.

Vermijd vervlechting van opinies en feiten

Toen we een model trainden met 5000 artikelen van een krant, leverde dit over het algemeen goed onderbouwde, objectieve artikelen op. Maar één specifieke paragraaf was onverwacht opinisch en activistisch van aard. Dit kwam doordat we ook de opinieartikelen in onze training hadden opgenomen. Nu passen we óf ons trainingsproces aan om dergelijke artikelen uit te sluiten óf we zorgen dat bij specifieke vragen specifieke trainingsdata niet gebruikt wordt.

Uitdaging van het schrijven van prompts

Goede prompts schrijven is een kunst op zich. Ongeacht of je met public of private AI werkt: zonder aanzienlijke ervaring zul je niet gemakkelijk tot een gewenste uitkomst komen. Als richtlijn: het is raadzaam om meer dan 100 uur ervaring met prompts te hebben of samen te werken met een expert die kan helpen bij het opstellen van effectieve prompts.

Volume van trainingsdata

We hebben vastgesteld dat je tussen de 1000 en 2500 artikelen per onderwerp nodig hebt voor optimale resultaten. Hoewel we hebben geëxperimenteerd met archieven van maximaal 100.000 artikelen, hebben we vertrouwen dat we tot 1.000.000 artikelen kunnen verwerken met onze huidige aanpak.

Let op balans tussen nieuw en oud

Als je bijvoorbeeld een krant bent en je wilt moderne schrijfstijlen omarmen, maar tegelijkertijd gebruikmaken van je historische archieven, is het essentieel om dit evenwicht in gedachten te houden bij het ontwerpen van je private AI.

Zorg voor diversiteit in content

Het is cruciaal om meerdere contentformules of formats te hebben. Het herhaaldelijk genereren van één type content kan leiden tot monotonie.

Werken met private AI leer je door het te doen. Het heeft ons geholpen te begrijpen hoe krachtig, maar ook hoe genuanceerd AI-gebaseerde contentcreatie kan zijn. We kijken uit naar verdere experimenten op dit gebied met eindgebruikers en contentbureaus.

Private AI als volgende stap

Private AI, in contrast met publieke AI, markeert een significante sprong naar een toekomst waarin contentcreatie authentieker, genuanceerder en efficiënter is, terwijl het veel van de risico’s van publieke AI bevecht. Deze technologie is inherent maatwerk. Elke toepassing is uniek, gezien de variatie in trainingsdata, formules en prompts. Hierdoor vraagt het een combinatie van technische expertise en strategische contentmarketing-inzichten. Dit, gekoppeld aan het feit dat er veel trial-and-error betrokken is, maakt dat private AI nog een groot, onontgonnen terrein is, bruisend van de kansen.

De header-afbeelding is gegenereerd met DALL-E 3 door Sebastiaan van der Lans.