o3 e o4-mini: OpenAI lança IA que pensa com imagens

A inteligência artificial deu mais um salto qualitativo. A OpenAI lançou o3 e o4-mini, seus modelos de raciocínio mais avançados até agora — e pela primeira vez, eles conseguem pensar com imagens, integrando raciocínio visual diretamente na cadeia de pensamento. Não é apenas mais um modelo novo: é uma mudança de paradigma na forma como os sistemas de IA resolvem problemas complexos.

O que muda com o “pensar com imagens”

Até agora, os modelos de IA viam imagens e depois pensavam sobre elas como texto. O o3 e o4-mini invertem essa lógica: integram o processamento visual diretamente no raciocínio encadeado. Isso significa que o modelo pode analisar um gráfico financeiro enquanto raciocina sobre suas implicações, ou inspecionar um diagrama de engenharia enquanto propõe soluções — tudo dentro de um único fluxo de pensamento.

Os resultados em benchmarks multimodais são expressivos: o o3 alcançou 84,2% no MMMU, um dos testes mais exigentes de compreensão multimodal. No contexto prático, isso se traduz em capacidade de resolver problemas que antes exigiam um humano para intermediar entre a análise visual e a análise textual.

Para empresas, isso abre possibilidades concretas: análise de plantas industriais, revisão de dashboards financeiros, auditoria de documentos técnicos com imagens — tudo de forma autônoma e integrada, sem precisar fragmentar o problema em etapas manuais.

Agência nativa: o modelo que decide como usar suas ferramentas

Além do raciocínio visual, o o3 e o4-mini estreiam com agência nativa — pela primeira vez, modelos de raciocínio da OpenAI podem usar ferramentas de forma autônoma dentro do ChatGPT. Isso inclui busca na web, análise de arquivos com Python, geração de imagens e interpretação de dados visuais.

O detalhe crucial é que o modelo não apenas usa ferramentas, mas decide quando e como combiná-las para resolver um problema complexo. Ele raciocina sobre a estratégia de solução antes de executar — e faz isso tipicamente em menos de um minuto para problemas que antes levariam múltiplas sessões humanas.

A OpenAI lançou também o Codex CLI, um agente de codificação leve que roda no terminal e foi especificamente projetado para maximizar as capacidades de raciocínio do o3 e o4-mini. O agente acessa o sistema de arquivos local, executa código, lê resultados e itera — autonomamente.

Esse é o passo prático da “ChatGPT mais agêntica” que a OpenAI vinha prometendo: não apenas um assistente que responde, mas um sistema que age.

o4-mini: potência com eficiência

Enquanto o o3 é o modelo de raciocínio pesado, o o4-mini foi otimizado para velocidade e custo — mantendo desempenho excepcional em matemática, codificação e tarefas visuais. Para empresas que precisam escalar aplicações de raciocínio sem explodir o orçamento de API, o o4-mini é a opção estratégica.

O o4-mini já demonstrou performance superior ao o3 em benchmarks específicos de matemática competitiva (94,6% no AIME 2025 sem ferramentas), o que o coloca em uma categoria rara: modelo compacto com capacidade de raciocínio que supera versões anteriores de modelos “grandes”. Isso inverte a lógica de que você sempre precisa do modelo maior para os problemas mais difíceis.

Para CTOs avaliando arquitetura de sistemas de IA, essa distinção importa: o4-mini como worker de raciocínio, o3 como orquestrador estratégico. A composição dos dois pode entregar resultados de fronteira com custo controlado.

O que esperar a seguir: a corrida agêntica se acelera

Com o lançamento do o3 e o4-mini, a OpenAI confirma que a próxima batalha competitiva não é mais sobre qual modelo tem o maior score em benchmarks de linguagem — é sobre qual ecossistema agêntico consegue resolver problemas reais de forma mais autônoma e confiável.

Google, Anthropic e Meta estão todos acelerando suas capacidades agênticas. O diferencial do o3/o4-mini não é apenas o raciocínio visual em si, mas a integração fluida entre raciocínio, uso de ferramentas e execução — tudo em um único modelo. Isso reduz a fricção de implementação para desenvolvedores e empresas que querem construir agentes funcionais.

O mercado de agentes de IA deve crescer de US$ 5 bilhões em 2024 para mais de US$ 47 bilhões até 2030, segundo projeções da MarketsandMarkets. O o3 e o4-mini chegam exatamente quando a demanda por capacidades agênticas confiáveis começa a superar a oferta.

Para as empresas brasileiras, o sinal é claro: não é mais questão de “quando usar IA” — é questão de qual nível de autonomia sua organização está pronta para implementar e supervisionar.

Thinq for Enterprise

Ver também

Inteligência Artificial

OpenAI tropeça: Anthropic chega a US$ 30bi

Natsuo Oki ↗

Head de IA · Thinq.news

O que o o3 e o o4-mini mudam na prática não é o benchmark — é o verbo. Esses modelos não “respondem”: eles agem. E essa transição de assistente para agente é exatamente o ponto em que a maioria das empresas brasileiras ainda não está preparada para discutir. A pergunta que todo CTO e CEO precisa responder agora não é “qual modelo usar” — é “quais processos internos estamos dispostos a colocar sob supervisão autônoma de IA nos próximos 12 meses?” Porque se você não estiver fazendo essa pergunta ativamente, seu concorrente já está respondendo ela. O raciocínio visual integrado — essa capacidade de pensar com imagens em vez de apenas vê-las — abre uma classe inteiramente nova de automação: análise de contratos com plantas anexadas, revisão de relatórios financeiros com gráficos, auditoria de qualidade industrial com fotos. São fluxos que antes exigiam um humano especialista para cada etapa, e que agora podem ser delegados com supervisão. Comece identificando os três processos na sua empresa que dependem de análise visual + raciocínio — e coloque o o3 ou o4-mini para trabalhar neles ainda no Q2.

Publicado em 4 de abril de 2026 · thinq.news