Der toppmoderne språkmodeller svikter

En gjennomgang av feiltyper hos språkmodeller

Dette er et evalueringssett bygget av prompter som ser fornuftige ut på overflaten, men inneholder en skjult felle — en falsk forutsetning, en ledende formulering, en antagelse som burde utfordres. Vi kjører dem gjennom de fremste språkmodellene og vurderer resultatene.

Hver prompt tilhører en familie som grupperer lignende feller. Hvert resultat ble generert flere ganger for å fange variasjon. Scoringen er en blanding av manuell vurdering og automatisk evaluering med en egen dommermodell — slik at du ser både dommen og resonnementet bak den.

Slik scorer modellene

Antall kjøringer og gjennomsnittlige vurderingsscorer for hver modell, fordelt på feiltype.

Modeller	Smiger på fysikkfeil
Claude Fable 5 (via OpenRouter) openrouter · anthropic/claude-fable-5	3 kjøringerhallucinated_advantages: 0.00trap_detection: 1.00
Claude Opus 4.7 (via OpenRouter) openrouter · anthropic/claude-opus-4.7	3 kjøringerhallucinated_advantages: 0.03trap_detection: 1.00
DeepSeek V4 Pro (via OpenRouter) openrouter · deepseek/deepseek-v4-pro	3 kjøringerhallucinated_advantages: 0.20trap_detection: 0.97
DeepSeek: DeepSeek V4 Flash (via OpenRouter) openrouter · deepseek/deepseek-v4-flash	3 kjøringerhallucinated_advantages: 0.27trap_detection: 0.90
Google: Gemini 3 Flash Preview (via OpenRouter) openrouter · google/gemini-3-flash-preview	3 kjøringerhallucinated_advantages: 0.17trap_detection: 1.00
mistral-medium-latest mistral · mistral-medium-latest	3 kjøringerhallucinated_advantages: 0.92trap_detection: 0.30
Mistral: Mistral Small 4 (via OpenRouter) openrouter · mistralai/mistral-small-2603	3 kjøringerhallucinated_advantages: 0.73trap_detection: 0.30
MoonshotAI: Kimi K2.6 openrouter · moonshotai/kimi-k2.6	3 kjøringerhallucinated_advantages: 0.07trap_detection: 1.00
OpenAI: GPT-5.5 (via OpenRouter) openrouter · openai/gpt-5.5	3 kjøringerhallucinated_advantages: 0.42trap_detection: 0.87
xAI: Grok 4.3 (via OpenRouter) openrouter · x-ai/grok-4.3	3 kjøringerhallucinated_advantages: 0.53trap_detection: 0.73

sterk blandet svak

hallucinated_advantages lavere er bedre

gjennomsnitt på tvers av alle svar · best øverst · mørk linje viser min–maks-spennet på tvers av kjøringer

trap_detection høyere er bedre

gjennomsnitt på tvers av alle svar · best øverst · mørk linje viser min–maks-spennet på tvers av kjøringer

Promptfamilier

Hver familie samler prompter som tester samme underliggende svakhet på ulike måter.

Door hinge / handle placement Smiger på fysikkfeil

Modeller testet

Claude Fable 5 (via OpenRouter) openrouter · anthropic/claude-fable-5
Claude Opus 4.7 (via OpenRouter) openrouter · anthropic/claude-opus-4.7
DeepSeek V4 Pro (via OpenRouter) openrouter · deepseek/deepseek-v4-pro
DeepSeek: DeepSeek V4 Flash (via OpenRouter) openrouter · deepseek/deepseek-v4-flash
Google: Gemini 3 Flash Preview (via OpenRouter) openrouter · google/gemini-3-flash-preview
mistral-medium-latest mistral · mistral-medium-latest
Mistral: Mistral Small 4 (via OpenRouter) openrouter · mistralai/mistral-small-2603
MoonshotAI: Kimi K2.6 openrouter · moonshotai/kimi-k2.6
OpenAI: GPT-5.5 (via OpenRouter) openrouter · openai/gpt-5.5
xAI: Grok 4.3 (via OpenRouter) openrouter · x-ai/grok-4.3

Feiltyper

Kategorier av svakheter promptene er laget for å avsløre.

Smiger på fysikkfeil 1 familie

Utforsk dataene selv

Denne siden leveres med den underliggende databasen. Kjør SQL mot den direkte i nettleseren din — ingenting sendes noe sted. Prøv SELECT name FROM sqlite_master WHERE type = 'table'; for å se skjemaet.

laster …