Innovatie

OpenAI lanceert nieuw AI-model dat kan ‘redeneren’: o1-preview & o1-mini

0

De geruchten gingen al een tijdje rond, maar gisteravond was het eindelijk zover: OpenAI introduceerde twee nieuwe modellen: o1-preview en o1-mini. Plus- en Teams-abonnees kunnen nu kennismaken met deze twee. Maar wat maakt deze modellen anders, en wat kun je ervan verwachten als marcom-professional?

Waar vind je de nieuwste modellen van OpenAI?

Je kunt twee nieuwe modellen selecteren in ChatGPT: o1-preview en o1-mini. De modellen selecteer je door in te loggen en dan linksboven naar je scherm te gaan. Nu staat er waarschijnlijk ChatGPT-4o. Let wel: dit kan nu nog alleen als je een Plus- of Teams-abonnee bent.

Het verschil tussen de twee nieuwe modellen is dat o1-mini vooral bijzonder effectief is bij het coderen. Het presteert bijna net zo goed als het grotere o1-model op benchmarks zoals AIME (wiskunde) en Codeforces (programmeren). Als kleiner model is de o1-mini 80% goedkoper dan de o1-preview, waardoor het een kosteneffectief model is voor toepassingen die redeneervermogen vereisen, maar geen uitgebreide ‘wereldkennis’ nodig hebben. Het lieve broertje dus!

Hieronder zie je waar je de twee nieuwste modellen kunt vinden als je bent ingelogd.

Hier vind je de modellen als je bent ingelogd

Wat is er anders aan o1-preview en o1-mini?

Net zoals wij langer nadenken voordat we een lastig probleem oplossen, al kunnen sommige mensen dat nog vaker doen, doet o1-preview daar ook een poging toe. Het model gebruikt een stap-voor-stap denkproces om tot een oplossing te komen. Dit ‘nadenken’ zorgt er wel voor zorgt dat het model langzamer is.

Dankzij reinforcement learning leert het model steeds betere beslissingen te nemen om de best mogelijke resultaten te halen. Het model krijgt taken om op te lossen, en het ontvangt een beloning of straf op basis van hoe goed het presteert. Het model o1-preview leert dus steeds beter na te denken. Het herkent fouten en corrigeert ze, kiest een andere aanpak als iets niet werkt en maakt moeilijke stappen simpeler. Dit zorgt ervoor dat het model op een slimmere manier en veel beter kan redeneren. Dat is vooral belangrijk bij complexere vraagstukken. En ja, die hebben we ook in marketing.

Voorbeeld

Simpel voorbeeld: ik vroeg zowel ChatGPT-4o als ChatGPT-o1 op exact dezelfde wijze om me te helpen met het maken van een marketingplan om het nieuwste model van OpenAI op de Nederlandse markt te promoten. Marketingplan 1 (ChatGPT-4o) is ambitieuzer qua bereik (90% van de Nederlandse bevolking in 6 maanden), en richt zich sterker op consumenten, bedrijven en educatieve instellingen met een bredere reeks promotionele tactieken.

Marketingplan 2 (ChatGPT-o1) heeft een meer gerichte aanpak op tech-professionals. Met meer focus op digitale en traditionele marketingkanalen, en een gedetailleerde budget- en tijduitvoering.

Om het verschil te ervaren werkt het goed om dezelfde prompt aan verschillende modellen te voeren en de uitkomsten met elkaar te vergelijken.

Is o1-preview het beste model voor marketing- en communicatieprofessionals?

Het nieuwste model heeft allerlei examens gemaakt en is getest op academische criteria, daar scoort het heel goed op. In veel gevallen beter dan wij als mens. Maar er is ook getest met menselijke trainers. Zij hebben de antwoorden van beide modellen beoordeeld op moeilijke, open vragen in verschillende vakgebieden. Bij deze test kregen de menselijke trainers anonieme antwoorden van beide modellen te zien en kozen ze welke ze beter vonden.

Hoewel o1 uitstekend presteert op academische tests, blijkt uit experimenten met menselijke trainers dat het niet in alle gevallen het beste model is. Bij complexe redeneringsvraagstukken, zoals wiskunde en programmeren, scoort o1 significant beter dan zijn voorgangers. Maar bij taken die draaien om taalbegrip en creatief schrijven kan ChatGPT-4o nog steeds de voorkeur krijgen.

Menselijke voorkeur bij de modellen

Bron: OpenAI

Een nieuwe manier van denken: chain-of-thought-reasoning

OpenAI introduceert met o1-preview een nieuwe denkmethode: chain-of-thought reasoning. In plaats van direct een antwoord te geven, werkt het model een serie logische stappen af, bijna alsof het ‘hardop’ nadenkt. Dit proces maakt het mogelijk om ingewikkelde problemen beter te doorgronden en transparanter te maken hoe een conclusie tot stand komt.

Deze methode draagt bij aan veiligere en meer verantwoorde AI-gedragingen, doordat het model beter om kan gaan met situaties die anders tot onveilige of foutieve antwoorden zouden leiden.

Een belangrijk resultaat hiervan is dat o1-preview veel beter scoorde in tests waarbij het model werd uitgedaagd om regels te omzeilen (zoals in zogeheten ‘jailbreak’ tests), en het presteerde beter op interne veiligheidstests. OpenAI ziet in het verborgen denkproces, want wij zien een samenvatting van dat proces, een kans om het model beter te monitoren.

Ze volgen het denkproces van het model en begrijpen hoe het tot bepaalde uitkomsten komt. Waarom wij het niet zien? OpenAI verwacht dat veel gebruikers het verwarrend vinden en het brengt ook risico’s met zich mee, zoals ongewenst gedrag van het model.

Je ziet hieronder de samenvatting van het denkproces in het lichtgrijs.

Door dit soort modellen, zijn er veel nieuwe toepassingen van AI mogelijk, vooral binnen gebieden zoals programmeren, wetenschap, wiskunde en vergelijkbare vakgebieden.

Momenteel hebben gebruikers een wekelijkse limiet van 30 berichten voor o1-preview en 50 voor o1-mini. OpenAI werkt eraan deze limieten te verhogen en ChatGPT automatisch het beste model te laten kiezen op basis van de prompt. Daarnaast worden nieuwe functies, zoals browsen en het uploaden van bestanden en afbeeldingen, binnenkort verwacht.

Samenwerken met AI

Volgens professor Ethan Mollick gaan we met o1-preview een nieuwe fase tegemoet in de ontwikkeling van AI-modellen. Ze worden steeds geavanceerder en we gaan stap voor stap richting autonome agents. Daarom is het belangrijk dat we bedenken hoe wij als mens betrokken blijven. Alleen zo kunnen we controle houden over de problemen die we willen oplossen en fouten tijdig opsporen. o1-preview laat zien hoe krachtig AI kan zijn, ook al heeft het nog steeds veel beperkingen, maar benadrukt ook dat de samenwerking tussen mens en AI noodzakelijk blijft.

Het is dus duidelijk. ChatGPT-o1 opent nieuwe deuren, maar roept ook vragen op over de manier waarop we met AI omgaan in de toekomst.

Food for thought.

Heb jij het nieuwe model al getest? Voor welke use cases zie je mogelijkheden?