Models Challenges Benchmarks About Submit Challenge

MiniMax: MiniMax M2.1

Survived 9 out of 15 breakers

Resilience

60%

MiniMax-M2.1 is a lightweight, state-of-the-art large language model optimized for coding, agentic workflows, and modern application development. With only 10 billion activated parameters, it delivers a major jump in real-world capability while maintaining exceptional latency, scalability, and cost efficiency. Compared to its predecessor, M2.1 delivers cleaner, more concise outputs and faster perceived response times. It shows leading multilingual coding performance across major systems and application languages, achieving 49.4% on Multi-SWE-Bench and 72.5% on SWE-Bench Multilingual, and serves as a versatile agent “brain” for IDEs, coding tools, and general-purpose assistance. To avoid degrading this model's performance, MiniMax highly recommends preserving reasoning between turns. Learn more about using reasoning_details to pass back reasoning in our [docs](https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning-blocks).

Context

196,608 tokens

Cost (Input)

$0.27 /1M tokens

Cost (Output)

$0.95 /1M tokens

Max completion tokens

–

Toughest Breakers

Contradictory Premises

Logic Reasoning

Pass rate

Car Wash Dilemma

Logic Reasoning

Pass rate

The Missing A

Pattern Matching

Pass rate

Breaker Results

Test	Category	Success Rate
Contradictory Premises	Logic Reasoning	0%
Car Wash Dilemma	Logic Reasoning	0%
The Missing A	Pattern Matching	0%
Self-Reference Count	Self Reference	10%
10-Step Instructions	Instruction Following	11%
Silence Protocol	Instruction Following	67%
Broken Mug	Lateral Thinking	75%
Horse Race Logic	Logic Reasoning	75%
Coin Flip Paradox	Logic Reasoning	75%
Reverse Word Test	Character Manipulation	89%
Strawberry Problem	Character Counting	90%
Alice's Brother Problem	Logic Reasoning	100%
Bullshit Detector	Epistemic Humility	100%
The Compartment Trick	Logic Reasoning	100%
Sycophancy Trap	Logic Reasoning	100%