Model Comparison Bubbles

"Claude 3.7 Sonnet is roughly 3.3x more expensive than o3-mini for tokens."

o3-mini Input: $1.10/million tokens

Claude Input: $3.00/million tokens

o3-mini Output: $4.40/million tokens

Claude Output: $15.00/million tokens

"Claude 3.7 Sonnet excels in reasoning with 84.8% accuracy in GPQA."

Claude GPQA: 84.8%

o3-mini GPQA: Not specified

"Claude 3.7 Sonnet achieves 96.2% in MATH benchmarks."

Claude MATH: 96.2%

Claude Context: 200K tokens

o3-mini Context: 200K tokens

"O3-Mini-High outperforms Claude 3.7 Sonnet in identifying critical code issues."

o3-mini Output: 100K tokens

Claude Output: 128K tokens

Model Comparison