Models Challenges Benchmarks About Submit Challenge

google

Google

9 models tracked

Average resilience

63%

Tests Survived

951

Tests Failed

598

Toughest Breakers

Self-Reference Count

Self Reference

Pass rate (provider)

10-Step Instructions

Instruction Following

Pass rate (provider)

Contradictory Premises

Logic Reasoning

Pass rate (provider)

Models

Google: Gemini 3 Pro Preview

google

Google: Gemini 3.1 Pro Preview

google

Google: Gemini 3 Flash Preview

google

Google: Gemini 2.5 Pro

google

Google: Gemini 2.5 Flash

google

Google: Gemini 2.0 Flash

google

Google: Gemini 2.5 Flash Lite

google

Google: Gemma 3 27B (free)

google

Google: Gemma 3 27B

google

Google models — ReAIty Check