Der toppmoderne språkmodeller svikter

En gjennomgang av feiltyper hos språkmodeller

Dette er et evalueringssett bygget av prompter som ser fornuftige ut på overflaten, men inneholder en skjult felle — en falsk forutsetning, en ledende formulering, en antagelse som burde utfordres. Vi kjører dem gjennom de fremste språkmodellene og vurderer resultatene.

Hver prompt tilhører en familie som grupperer lignende feller. Hvert resultat ble generert flere ganger for å fange variasjon. Scoringen er en blanding av manuell vurdering og automatisk evaluering med en egen dommermodell — slik at du ser både dommen og resonnementet bak den.

Slik scorer modellene

Antall kjøringer og gjennomsnittlige vurderingsscorer for hver modell, fordelt på feiltype.

ModellerSmiger på fysikkfeil
Claude Opus 4.7 (via OpenRouter) openrouter · anthropic/claude-opus-4.7 3 kjøringerhallucinated_advantages: 0.03trap_detection: 1.00
DeepSeek V4 Pro (via OpenRouter) openrouter · deepseek/deepseek-v4-pro 3 kjøringerhallucinated_advantages: 0.20trap_detection: 0.97
DeepSeek: DeepSeek V4 Flash (via OpenRouter) openrouter · deepseek/deepseek-v4-flash 3 kjøringerhallucinated_advantages: 0.27trap_detection: 0.90
Google: Gemini 3 Flash Preview (via OpenRouter) openrouter · google/gemini-3-flash-preview 3 kjøringerhallucinated_advantages: 0.17trap_detection: 1.00
mistral-medium-latest mistral · mistral-medium-latest 3 kjøringerhallucinated_advantages: 0.92trap_detection: 0.30
Mistral: Mistral Small 4 (via OpenRouter) openrouter · mistralai/mistral-small-2603 3 kjøringerhallucinated_advantages: 0.73trap_detection: 0.30
MoonshotAI: Kimi K2.6 openrouter · moonshotai/kimi-k2.6 3 kjøringerhallucinated_advantages: 0.07trap_detection: 1.00
OpenAI: GPT-5.5 (via OpenRouter) openrouter · openai/gpt-5.5 3 kjøringerhallucinated_advantages: 0.42trap_detection: 0.87
xAI: Grok 4.3 (via OpenRouter) openrouter · x-ai/grok-4.3 3 kjøringerhallucinated_advantages: 0.53trap_detection: 0.73
sterk blandet svak

hallucinated_advantages lavere er bedre

gjennomsnitt på tvers av alle svar · best øverst · mørk linje viser min–maks-spennet på tvers av kjøringer

Claude Opus 4.7 (via OpenRouter) 0.03 MoonshotAI: Kimi K2.6 0.07 Google: Gemini 3 Flash Preview (via OpenRouter) 0.17 DeepSeek V4 Pro (via OpenRouter) 0.20 DeepSeek: DeepSeek V4 Flash (via OpenRouter) 0.27 OpenAI: GPT-5.5 (via OpenRouter) 0.42 xAI: Grok 4.3 (via OpenRouter) 0.53 Mistral: Mistral Small 4 (via OpenRouter) 0.73 mistral-medium-latest 0.92 0 1

trap_detection høyere er bedre

gjennomsnitt på tvers av alle svar · best øverst · mørk linje viser min–maks-spennet på tvers av kjøringer

Claude Opus 4.7 (via OpenRouter) 1.00 Google: Gemini 3 Flash Preview (via OpenRouter) 1.00 MoonshotAI: Kimi K2.6 1.00 DeepSeek V4 Pro (via OpenRouter) 0.97 DeepSeek: DeepSeek V4 Flash (via OpenRouter) 0.90 OpenAI: GPT-5.5 (via OpenRouter) 0.87 xAI: Grok 4.3 (via OpenRouter) 0.73 mistral-medium-latest 0.30 Mistral: Mistral Small 4 (via OpenRouter) 0.30 0 1

Promptfamilier

Hver familie samler prompter som tester samme underliggende svakhet på ulike måter.

Modeller testet

Feiltyper

Kategorier av svakheter promptene er laget for å avsløre.

Utforsk dataene selv

Denne siden leveres med den underliggende databasen. Kjør SQL mot den direkte i nettleseren din — ingenting sendes noe sted. Prøv SELECT name FROM sqlite_master WHERE type = 'table'; for å se skjemaet.

laster …