Terug

Claude 3.5 Sonnet haalt GPT-4o in

Belangrijke punten:

  • Stelt nieuwe benchmarks vast voor redeneren op graduaatniveau (GPQA), kennis op undergraduaatniveau (MMLU) en codeervaardigheid (HumanEval).
  • Verander je workflow met de nieuwe functie Artifacts voor naadloze, realtime AI-ondersteunde samenwerking op Claude.ai
  • Werkt op twee keer de snelheid van de Claude 3 Opus
  • Claude 3.5's beter genuanceerd begrip van humor en complexe instructies
  • Kosteneffectieve prijsstelling van $3 per miljoen invoertokens en $15 per miljoen uitvoertokens, met een contextvenster van 200K tokens.

Anthropic heeft zojuist een aangename verrassing laten vallen in de AI wereld met de release van Claude 3.5 Sonnet, het eerste model in hun aankomende Claude 3.5 familie. Dit is niet zomaar een update - het is een nieuwe sprong voorwaarts die de industriestandaarden verhoogt en de inzet in de AI-race verhoogt. Nu heeft OpenAI's vlaggenschip GPT-4o echte concurrentie.

Snelheid en betaalbaarheid: Het perfecte pakket

Claude 3.5 Sonnet herdefinieert wat we voor mogelijk hielden op het gebied van AI-prestaties. Het overtreft leiders als GPT-4o, Gemini 1.5 Pro en zelfs Anthropic's eigen Claude 3 Opus in een breed scala van evaluaties. Maar het gaat niet alleen om rauwe intelligentie. Claude 3.5 Sonnet heeft grote vooruitgang geboekt in het begrijpen van nuance, humor en complexe instructies. Het is nu betrouwbaarder in het produceren van hoogwaardige teksten met een natuurlijke, relateerbare toon die veel gebruikers zullen waarderen.

Anthropic heeft dit alles bereikt met behoud van snelheid en kosteneffectiviteit - het is twee keer zo snel als Claude 3 Opus, met een prijs die de bank niet zal breken: $3 per miljoen input tokens en $15 per miljoen output tokens, plus een royaal contextvenster van 200K token. Een contextvenster waar OpenAI en Google nog steeds op achterlopen. 

Ondanks de prijsstelling en de anekdotische stylingverbeteringen, ligt de grootste kracht in de uitzonderlijke redeneer- en kenniscapaciteiten. Op de GPQA-test (Graduate Prerequisite Questions) die het redeneren op graduaatniveau meet, overtreft Claude 3.5 Sonnet de prestaties van GPT-4 Omni. Het model scoort ook beter dan OpenAI's model op de MMLU benchmark die brede kennis op undergraduate-niveau evalueert - het toont een dieper begrip van complexe onderwerpen en genuanceerde concepten in vergelijking met GPT-4 Omni. Het model demonstreert verfijnde redeneervaardigheden die van onschatbare waarde kunnen zijn voor taken die analyse en probleemoplossing op hoog niveau vereisen. Een ander gebied waar Claude 3.5 Sonnet uitblinkt is coderings- en programmeervaardigheid. In de coderingsbenchmark HumanEval lost het model maar liefst 64% van de problemen op, waarmee het de 38% van zijn Claude 3 Opus voorganger in de schaduw stelt.

Taak
Claude 3.5 Sonnet
Claude 3 Opus
GPT-4o
Redeneren op universitair niveau (GFOL Diamond)
59,4%* (0-schots CoT)
50,4% (0-schots CoT)
53,6% (0-schots CoT)
Kennis op universitair niveau (MMLU)
88,7%** (5-schots)
88,3% (0-schots CoT)
86,8% (5-schots)
85,7% (0-schots CoT)
-
88,7% (0-schots CoT)
Code (HumanEval)
92.0%
84,9% (0-schots)
90.2%
Meertalige wiskunde (MGSM)
91,6% (0-schots CoT)
90,7% (0-schots CoT)
90.5%
Redeneren over tekst (DROP, F1 score)
87,1 (3-schots)
83,1 (3-schot)
83.4
Gemengde evaluaties (BIG-Bench-Hard)
93,1% (3 schots CoT)
86,8% (3 schots CoT)
-
Wiskundeproblemen oplossen (MATH)
71,1% (0-schots CoT)
60,1% (0-schots CoT)
76,6% (0-schots CoT)
Wiskunde voor de lagere school (GSM8K)
96,4% (0-schots CoT)
95,0% (0-schots CoT)
-
Evaluatietests voor begrip en kritisch denken

Visueel begrip

Een ander belangrijk domein is visueel redeneren en extractie, dat de laatste tijd de voorhoede vormt van alle multimodale LLM's. De verbeterde prestaties van Claude 3.5 Sonnet breiden zich hier uit, met superieure statistieken voor de meeste statistieken. Hij toont nu superieure vaardigheden in het interpreteren van grafieken, diagrammen en zelfs het transcriberen van tekst uit imperfecte afbeeldingen. Nu multimodale vision verbetert, betekent dit meer bruikbare toepassingen voor sectoren als de detailhandel, logistiek en financiële sector die sterk afhankelijk zijn van visuele gegevensanalyse. Een AI-assistent die grafieken en documenten snel en nauwkeurig kan interpreteren, is een belangrijk hulpmiddel - iets waar Claude naartoe werkt. 

Taak
Claude 3.5 Sonnet
Claude 3 Opus
GPT-4o
Visueel wiskundig redeneren (MathVista(testmini))
67,7% (0-schots CoT)
50,5% (0-schots CoT)
63,8% (0-schots CoT)
Wetenschapsdiagrammen (AI2D, test)
94,7% (0-schots)
88,1% (0-schots)
94,2% (0-schots)
Visuele vraagbeantwoording (MMMU (val))
68,3% (0-schots CoT)
59,4% (0-schots CoT)
69,1% (0-schots CoT)
Kaart V&A (Ontspannen nauwkeurigheid (test))
90,8% (0-schots CoT)
80,8% (0-schots CoT)
85,7% (0-schots CoT)
Document visueel V&A (ANLS score, test)
95,2% (0-schots)
89,3% (0-schots)
92,8% (0-schots)
Tests voor visueel begrip

Interactief coderen in uw browser

Anthropic tilt gebruikerservaring naar een hoger niveau met de introductie van Artifacts op Claude.ai. Deze functie creëert een speciaal venster naast je conversatie voor gegenereerde content zoals codefragmenten, documenten of websiteontwerpen. Het is een dynamische werkruimte die gebruikers in staat stelt om Claude's creaties in real-time te zien, te bewerken en erop voort te bouwen - een game-changer voor collaboratief AI-ondersteund werk.

Hoe geweldig is het echt? 

Claude 3.5 laat ongetwijfeld betere prestaties, lagere kosten en over het algemeen intelligenter gedrag zien. Het is echter belangrijk om in gedachten te houden dat dit model, hoewel het enorm capabel is, eerder een incrementele vooruitgang is dan een paradigmaverschuiving in hoe we grote taalmodellen gebruiken. In de kern is Claude 3.5 Sonnet een verbeterde en versnelde versie van het vorige vlaggenschip "Opus" model, klaar om de nieuwe standaard te worden voor Claude gebruikers. Het belooft een meer naadloze, efficiënte ervaring in een breed scala van toepassingen en use cases. Hoewel we diep onder de indruk zijn van de positieve vooruitgang die deze update heeft geboekt, kijken we reikhalzend uit naar de verdere innovaties die Anthropic in petto heeft om de grenzen van AI te blijven verleggen.

Wilt u uw AI-gebruik naar een hoger niveau tillen? Met Claude of OpenAI? Vul dan hieronder onze strategiequiz in 🔽

Kyriakos Hjikakou
Kyriakos Hjikakou

We gebruiken cookies om je de beste ervaring te geven. Cookiebeleid

Preloader-afbeelding