OpenAI’s nieuwe 4o Image Generation is een verbluffend goede beeldgenerator

OpenAI’s nieuwe 4o Image Generation is een verbluffend goede beeldgenerator

Vanmorgen werd ik wakker met het nieuws dat OpenAI 4o Image Generation heeft gelanceerd. Er wordt online veel over gepraat, mensen zijn razend enthousiast. Wat is er verbeterd?

Of eigenlijk is een betere vraag: wat is er niét verbeterd? OpenAI pretendeert zelf dat “it doesn’t just look good, it’s going beyond just looking good. Attention to detail makes it really useful”. En ik moet zeggen, nu ik al die voorbeelden voorbij zie komen, ben ik het daarmee eens. En het mooie is: iedere ChatGPT-gebruiker kan 4o Image Generation gaan proberen, al dan niet met een limiet.

Van DALL-E naar Sora

Op dit moment maakt ChatGPT bij mij nog gebruik van het ‘oude’ systeem: DALL-E. 4o Image Generation is nog aan het uitrollen. Want ja, eerst werden je afbeeldingen gegenereerd door DALL-E. Nu is dat met Sora, de tool waarmee je in eerste instantie alleen video’s kon genereren.

maar nu dus ook afbeeldingen. Waarom wordt er nu gekozen voor Sora? Daar zegt research-verantwoordelijke Gabriel Goh tegen The Verge het volgende over: “Dit model is een stap voorwaarts ten opzichte van andere modellen. Het team gebruikte de GPT-4o ‘omnimodale’ basis voor deze functie.” Een model dat alle soorten data kan genereren dus, zoals tekst, afbeeldingen, audio en video.

Wat maakt OpenAI 4o Image Generation zo goed?

Ik zie online reacties van AI-experts voorbij komen als “Hiermee kun je nu echt goede afbeeldingen maken, ik ben omvergeblazen” of “Eindelijk! ChatGPT maakt nu veel betere beelden”. Welke ontwikkelingen zijn er geweest die de tool zo goed maken ten opzichte van hiervoor en misschien ook andere AI-beeldgeneratoren?

Tekst in een afbeelding

Je had het misschien al eens gemerkt, zodra je tekst in je afbeelding wilde kwam dit er nogal vaag uit te zien. Onbekende tekens ertussen, een soort ‘druipende’ tekst, letters op random plekken… Totaal niet bruikbaar. Frustrerend wel, want zelf kreeg ik dan weleens het idee: waarom gebruik ik dit? Zonde van de energie die ChatGPT verbruikt.

Maar dat is nu anders. Een enorme verbetering is dat tekst nu foutloos in beeld komt. Scherp en precies zoals jij het hebt omschreven. Kijk maar eens in dit voorbeeld wat expert en Frankwatching-trainer Patrick Klerks deelt:

Accepteer cookies

Gemarkeerd gebied wijzigen

Ook fijn: je kunt nu het gebied markeren dat je anders zou willen zien en de wijzigingen beschrijven. Dat maakt het net even wat makkelijker om de afbeelding te maken zoals jij wil.

Prompt-verbetering van je eigen prompt

Ook maakt 4o image Generation een veel uitgebreidere prompt van datgene wat jij hebt gevraagd, zoals Leonardo.ai bijvoorbeeld ook doet. Dat is voor iemand die nog geen expert is in prompts maken (zoals ik 😉) heel fijn, het geeft inspiratie om je prompt te verbeteren.

Zo maakte ‘ie van deze prompt: “Maak een afbeelding van een vrouw met bruin haar die in een kantoorruimte staat. Ze heeft een groen T-shirt aan waarop Frankwatching staat”, het volgende:

“A woman with brown hair standing in an office space. She is wearing a green T-shirt with the text ‘Frankwatching’ on it. The office has modern furniture, including desks with computers, office chairs, and large windows allowing natural light to enter. The setting is professional yet casual, with a clean and organized workspace.”

Dat tekst er nu op een goede manier in komt te staan, betekent ook dat je posters of infographics kunt genereren trouwens. Dat is mooi te zien in onderstaande video.

Accepteer cookies

Jouw eigen ontwerp tot leven brengen

Heb je iets op papier getekend en wil je dit omzetten naar een echte afbeelding, met kleur en al? Ook dat kan nu, heel gaaf! En als je iets anders wil zien dan hoe je het had getekend, kun je dat ook aangeven. Kijk bijvoorbeeld maar eens naar onderstaand voorbeeld van OpenAI.

Accepteer cookies

Betere opvolging van details en begrip van objecten

Gabriel Goh vertelt ook dat 4o Image Generation nu veel beter de juiste relaties tussen kenmerken en objecten begrijpt. Zo zegt hij: “Een model met slechte ‘binding’ (het maken van verbanden dus) kan bijvoorbeeld een prompt krijgen voor een blauwe ster plus een rode driehoek en een rode ster en geen driehoek maken. De meeste afbeeldingsmodellen hebben hier moeite mee en mengen vaak kleuren en vormen wanneer ze worden gevraagd om meerdere items te renderen – meestal rond de 5 tot 8.”

Nu kunnen kenmerken dus wél correct in beeld worden gebracht. Dat zie je gebeuren in onderstaande video.

Accepteer cookies

Afbeeldingen met een transparante achtergrond

Zelf ging ik na het genereren van een afbeelding met AI nog weleens naar Canva om de achtergrond te verwijderen. Dat hoeft nu niet meer, want je kunt ChatGPT nu direct vragen om een afbeelding te maken met een transparante achtergrond. Dat hoeft dus niet meer met een omweg, super handig.

In onderstaande video laten ze met een leuk voorbeeld zien hoe dit van pas kan komen. In dit geval bij het maken van stickers. Je eigen gepersonaliseerde sticker ontwerpen wordt zo wel heel makkelijk.

Accepteer cookies

Consistente karakters

Als je elementen uit een afbeelding hebt waarvan je denkt: ‘hee, leuk, dat wil ik erin houden, maar in een andere stijl’. Dat kan nu ook. De beeldgenerator zal begrijpen wat je wil en je karakter consistent houden, maar wel in een andere stijl als je daarom vraagt.

Als jij dus een persoon, dier of karakter aan het ontwerpen bent maar bepaalde elementen wil verfijnen, zal de basis van het karakter stabiel blijven en verandert het alleen datgene waar jij om vraagt. Zie bijvoorbeeld onderstaand voorbeeld van OpenAI zelf. Na de vraag verandert het uiterlijk van de kat niet, er wordt alleen toegevoegd waar jij om vraagt.

voorbeeld van OpenAI hoe 4o Image Generation consistent blijft

Screenshot van voorbeeld van OpenAI

In onderstaande video zie je ook duidelijk hoe je dit kunt toepassen.

Accepteer cookies

Hoe gebruik je Image Generation?

Heel simpel, je kunt in een chat aan ChatGPT vragen een afbeelding te genereren. Je hoeft dus niet naar een andere tool te gaan hiervoor. Check wel even of het bij jou al is uitgerold. Als je op de 3 puntjes onder je chatvenster klikt en er staat alleen DALL-E bij afbeelding, moet je nog even wachten.

Is 4o Image Generation gratis te gebruiken?

Ja, het is gratis te gebruiken, maar wel zeer beperkt. Na het genereren van 3 afbeeldingen krijg je de melding: “Je hebt de limiet voor het maken van afbeeldingen bereikt. Upgrade naar ChatGPT Plus of probeer het opnieuw morgen na [tijd].”.

Als je er serieus mee aan de slag wil, is een betaald abonnement dus wel nodig. Want 3 afbeeldingen per dag is erg weinig. Zeker omdat je niet altijd meteen het gewenste resultaat krijgt.

Kun je echt álles maken?

Nee, in tegenstelling tot bijvoorbeeld Elon Musk’s Grok, zijn er veiligheidsnormen. Je kunt zo creatief zijn als je wil, maar je verzoek wordt geblokkeerd als het gaat om een afbeelding die mogelijk in strijd is met het contentbeleid van OpenAI. Je kunt dan denken aan iets als kindermisbruikmateriaal of seksuele deepfakes. Ook is OpenAI strenger als het aankomt op afbeeldingen van echte mensen, met name rondom naaktheid en grafisch geweld.

Wat mij betreft hartstikke goed, zulke afbeeldingen hebben we namelijk absoluut niet nodig.

Een enorme verbetering

Ik heb het zelf dus nog niet kunnen uitproberen, maar als ik online de resultaten voorbij zie komen… oef! Wat een enorme verbetering, ook ten opzichte van andere beeldgenerator-tools. I’m impressed en hoop dat het snel overal is uitgerold. Het geeft je de kans om daadwerkelijk realistische afbeeldingen te genereren met AI.

Wil je nog uitgebreider lezen over deze ontwikkelingen? Check dan zeker even deze pagina van OpenAI zelf.

Bron header-afbeelding: Nwz / Shutterstock.com

Blog