Beeldcreatie in DALL-E 3: zo schrijf je de perfecte prompt
DALL-E genereert afbeeldingen op basis van tekstuele beschrijvingen, prompts dus. Het model is vernoemd naar de kunstenaar Salvador Dali en de Pixar-robot WALL-E. De 3 geeft aan dat het de derde versie van het systeem is. Het kan nu nog betere afbeeldingen maken, maar waar moet je prompt aan voldoen om dat voor elkaar te krijgen?
Wat is DALL-E en hoe werkt het?
In het boek ‘Kunstzinnige intelligentie‘ (affiliate) gaan Bob Timroff & Bob van Duuren in op de populairste software voor AI-beeld. De tool waar ik op in wil zoomen is DALL-E 3. DALL-E is een neuraal netwerk ontwikkeld door OpenAI. Die naam komt je vast bekend voor, want het is de partij die ook ChatGPT heeft ontwikkeld. DALL-E is dus in staat om afbeeldingen te creëren vanuit tekstbeschrijvingen en werkt op een vergelijkbare manier als GPT-3, maar dan met een unieke twist. Het is een transformer taalmodel dat zowel tekst als beeld op een enkele datastroom ontvangt.
Dit is de simpele uitleg van hoe dat proces werkt:
- Training: DALL-E wordt getraind op een dataset van afbeeldingen en bijbehorende tekstbeschrijvingen. Het model leert om patronen en verbanden te herkennen tussen de woorden in de tekst en de elementen in de afbeeldingen.
- Text-naar-Image Synthese: als DALL-E een tekst-prompt ontvangt, gebruikt het de geleerde patronen om een interne representatie te vormen van wat de afbeelding zou moeten bevatten.
- Generatie: met behulp van een variant van de GPT-architectuur, genereert DALL-E een reeks voorspellingen over wat er in iedere pixel zou moeten staan, rekening houdend met de beschrijving die het heeft gekregen.
- Refinement: deze ruwe afbeelding wordt dan verfijnd door een proces dat vergelijkbaar is met hoe een menselijke kunstenaar zou schetsen en de details zou invullen. Hierbij doorloopt AI verschillende iteraties om de afbeelding te verbeteren.
- Output: het eindresultaat is een afbeelding die de tekst-prompt zo nauwkeurig mogelijk visualiseert. DALL-E is bijzonder interessant vanwege het vermogen om creatieve -en nieuwe afbeeldingen te genereren die niet letterlijk in de training dataset voorkomen. Dit wijst op een vorm van ‘begrip’ en ‘creativiteit’ binnen de beperkingen van zijn programmering.
Prompts schrijven voor onvergetelijk beeld
De basis van een prompt blijft hetzelfde, of je nu tekst of beeld als output wil. Maar als je beeld als output wil, moet je nog specifieker zijn en tegelijkertijd niet te specifiek, want dan beperk je de creativiteit van modellen als DALL-E. Ik geef je hieronder een aantal tips die je mee kunt nemen als je tekst prompts voor beeld gaat schrijven.
- Wees doelgericht: bepaal wat het doel is van het beeld. Wil je een emotie opwekken, een verhaal vertellen of een concept illustreren?
- Gebruik actieve taal: gebruik actieve werkwoorden en concrete zelfstandige naamwoorden om een dynamisch beeld te creëren dat tot de verbeelding spreekt.
- Wees beschrijvend: beschrijf kleuren, vormen, texturen en sferen om een duidelijk beeld te schetsen.
- Benoem het kleurenpalet: geef een specifiek kleurenpalet op of beschrijf een reeks kleuren waarvan je wil dat die de toon van het beeld bepalen. Bijvoorbeeld, “Gebruik warme herfstkleuren, zoals oranje, roestrood en goudgeel” of “Beperk het palet tot monochrome blauwtinten voor een kalme en serene sfeer”.
- Geef context: biedt voldoende informatie over waar en wanneer het beeld zich afspeelt. Is het in een futuristische stad, een hip kantoor of in de uitgestrekte ruimte?
- Stimuleer emotie: geef aan welke emotie of stemming het beeld moet uitstralen. Dit kan de richting van de creativiteit sterk beïnvloeden.
- Benoem het perspectief en beschrijf de compositie: suggereer een specifiek perspectief als dat belangrijk is voor het beeld, zoals vogelperspectief of kikkerperspectief, of een close-up versus een wijd shot.
- Definieer het focuspunt: geef duidelijk aan wat het primaire focuspunt van de afbeelding moet zijn. Dit helpt om de aandacht van de kijker te sturen en biedt een ankerpunt voor de compositie.
- Wees consistent: als het beeld deel uitmaakt van een reeks of thema, geef dan aan dat het kleurgebruik consistent moet zijn met de rest van de werken. Dit kan belangrijk zijn voor bijvoorbeeld boekillustraties.
- Creëer diepte: stimuleer het gebruik van technieken om diepte te creëren, zoals atmosferisch perspectief, overlappende elementen, en het spelen met licht en schaduw. Dit kan een afbeelding een driedimensionaal gevoel geven.
- Gebruik metaforen en symboliek: als je abstracte concepten wil verkennen, probeer dan metaforen of symbolen te gebruiken.
- Beperkende factoren: stel indien nodig beperkingen in om creativiteit te focussen, zoals het gebruik van slechts twee kleuren of het uitsluiten van bepaalde elementen.
Daarnaast kan het zeker bij beeld goed werken als je begint met het algemene en naar het specifieke toewerkt. Zo krijg ik het gelukkig weer voor elkaar om een kat in mijn artikel te gebruiken.
Nu heb ik in het type zwarte kat waar ik mee verder kan. Ik ga de setting omschrijven waar ik de kat in wil zien.
Ik kies nu een van de twee foto’s om mee verder te gaan.
Wat je in de vorige afbeeldingen vast is opgevallen, is dat DALL-E 3 altijd reageert in het Engels. Er wordt gezegd dat je betere output krijgt als je je prompts in het Engels schrijft. Ik heb de proef op de som genomen en in dit geval valt het verschil mee. Maar zeker bij langere prompts kan in de vertaling weleens een verschil ontstaan tussen Nederlands en Engels. Houd hier dus rekening mee.
Daarnaast heeft het model een aantal regels, zie hieronder. Als je een afbeelding wil laten genereren door een model kan je het model ook een rol geven. In dit geval probeerde ik dat met Picasso. Voor werk dat na 1912 is gemaakt mag je je niet de kunstenaar noemen. Wel kan je de stijl omschrijven.
Je ziet hoe beschrijvend de prompt wordt en hieronder wat het uiteindelijk voor output geeft.
Het gebruik van kunstenaars werkt dus niet altijd, maar een rol geven helpt in veel gevallen wel. Hieronder laat ik een tekening van een kat maken door een kind van 5.
Prompts voor beeld schrijven vraagt nog meer oefening en is een kunst op zich. Ga er mee experimenteren, alleen zo krijg je het onder de knie.
Voor wie is DALL-E 3 beschikbaar?
Je hebt toegang tot DALL-E 3 als je een ChatGPT Plus-abonnement hebt. Waar je normaal GPT 3.5 of GPT 4. selecteert, vind je onder GPT-4 DALL-E 3. DALL-E 2 kun je via deze link ook nog steeds gebruiken, maar je moet wel credits kopen om aan de slag te gaan. Als je er dus veel mee wil gaan werken, kan je wat mij betreft net zo goed een plus-abonnement op ChatGPT nemen.
Over het boek
Het boek leest makkelijk weg, is heel visueel en geeft de lezer een gedegen basis van wat er met AI-software voor beeld kan worden gemaakt. Wat mij betreft een aanrader voor iedereen die niet goed weet waar en hoe te beginnen met het creëren van AI-beeld. Wel met de kleine kanttekening dat er inmiddels van een aantal besproken tools alweer nieuwe versies op de markt zijn.
Ben je nieuwsgierig naar dit boek? Je bestelt het eenvoudig via Managementboek.nl (affiliate).