Gemini 3.1 Ultra: vídeo, áudio e texto sem intermediário

Google lançou Gemini 3.1 Ultra com o maior context window de qualquer modelo comercial e — pela primeira vez em IA mainstream — processamento simultâneo de vídeo, áudio e texto sem etapa de transcrição. A arquitetura nativa multimodal redefine o que se entende por “modelo de fronteira”.

O detalhe técnico que muda tudo: até agora, modelos multimodais convertiam áudio em texto, vídeo em frames descritos, e operavam sobre essas representações intermediárias. Gemini 3.1 Ultra processa os três streams diretamente — sem transcrição, sem perda de timing, sem ambiguidade entre palavra falada e palavra escrita. O resultado afeta cada caso de uso que envolve mídia rica.

O que “sem transcrição” significa na prática

Quando um modelo precisa transcrever áudio antes de processar, três coisas se perdem: entonação, sobreposição de falas e sinal não-lexical (riso, suspiro, pausa significativa). Em vídeo, a perda é maior: o gesto que contradiz a fala, o objeto que aparece três segundos depois da menção, o sincronismo entre fonte sonora e fonte visual. Gemini 3.1 Ultra preserva tudo.

O ganho prático é direto em três frentes. Primeiro: análise de chamadas de vendas e suporte — agora o modelo entende que “tudo bem” dito de uma forma significa coisa diferente de “tudo bem” dito de outra. Segundo: revisão de vídeo de segurança — comportamento anômalo é entendido por ação, não por descrição textual de ação. Terceiro: geração de conteúdo — o modelo pode escrever roteiro a partir de mood board com som ambiente, não a partir de prompt textual descrevendo o mood board.

Context window: o que mudou

Google não revelou o número exato do novo context window — só disse que é o maior de qualquer modelo comercial. Estimativas de quem testou apontam para faixa de múltiplos milhões de tokens, com retenção de qualidade ao longo de toda a janela. O ponto importante não é o número absoluto, é a qualidade da atenção: modelos com janela grande mas atenção fraca no meio (o “lost in the middle problem”) não entregam o que prometem.

Gemini 3.1 Ultra parece ter resolvido parte desse problema. Os benchmarks de “needle in haystack” — pequena informação enterrada em texto longo — apresentam taxas de recall acima de 95% em janelas extensas. Isso muda o que a IA pode fazer com documentos jurídicos, prontuários médicos, base de conhecimento corporativa e código de software grande.

O que isso faz com o mercado

OpenAI lançou GPT-5.5 em 23 de abril com foco em agentic coding e computer use. Google responde com modelo de propósito mais amplo — multimodal nativo e janela gigante. Mistral lançou flagship 128B com Le Chat agentic. Anthropic mantém liderança em código de fronteira com Claude. O mercado de “modelo único que faz tudo” terminou: cada lab está fazendo aposta diferente sobre qual capacidade vale mais.

Para empresas, a consequência é arquitetura de múltiplos modelos. O CIO que tenta padronizar em um único provedor está construindo uma decisão que vai envelhecer mal. O caminho que CTOs sofisticados estão tomando é arquitetura de roteamento: cada caso de uso vai para o modelo que entrega melhor — e a camada de orquestração precisa ser tratada como produto interno crítico.

O custo da multimodalidade nativa

Processar áudio e vídeo direto consome muito mais compute que processar texto. Gemini 3.1 Ultra é caro — Google ainda não publicou tabela completa, mas analistas estimam custo 3 a 8 vezes maior que GPT-5.5 em tarefas equivalentes de texto puro. A justificativa econômica não está em fazer texto mais barato: está em capacidades que GPT-5.5 e Claude simplesmente não fazem.

O segundo custo é arquitetural. Aplicações desenhadas para input de texto precisam ser reescritas para aceitar múltiplas modalidades simultaneamente. CRM que captura áudio de chamada e quer extrair sinal não-lexical precisa de pipeline novo. Sistema de educação que quer entender vídeo do aluno fazendo experimento precisa de infra de captura. A oportunidade é grande — o investimento também.

O terceiro custo é privacidade. Áudio e vídeo carregam mais informação pessoal que texto — biometria de voz, ambiente físico, identificação facial não pretendida. Empresas brasileiras precisam atualizar avaliação de impacto LGPD para qualquer uso de Gemini 3.1 Ultra que envolva mídia rica. O que era PII textual virou PII multimodal — e o regulador ainda não tem framework completo para lidar com isso.

O quarto custo é governança. Modelos multimodais alucinam de maneiras diferentes que modelos textuais. Um modelo pode “ouvir” som que não existe ou “ver” objeto que não está no frame. Isso é especialmente preocupante em casos de uso de auditoria, segurança e saúde. As empresas que vão se beneficiar primeiro são as que conseguirem testar e validar exaustivamente em ambiente de pré-produção antes de soltar em produção crítica.

Thinq for Enterprise

Ver também

Inteligência Artificial

Project Glasswing: a aliança secreta da Anthropic

Natsuo Oki ↗

Head de IA · Thinq.news

CEO, conversa direta sobre o que essa atualização significa: o jogo deixou de ser “qual o melhor modelo” e passou a ser “qual o melhor stack de modelos para cada classe de problema”. Sua organização precisa de governance de modelo — não de contrato master com um único provedor. Para o CTO: pare de aprovar arquitetura que fala com uma única API de IA. Construa camada de roteamento desde o primeiro projeto. O custo de refatorar isso depois é 5–10x maior. Para o CIO: avalie ROI por modalidade. Se sua operação tem volume relevante de áudio (call center, treinamento, suporte) ou vídeo (varejo físico, segurança, manufatura), Gemini 3.1 Ultra abre casos de uso que antes não tinham solução boa. Para o head jurídico e de privacidade: a LGPD não foi escrita para multimodal nativo. Você precisa atualizar política, DPIA e termos de uso antes de soltar caso de uso em produção. Para o CMO: o entendimento de “tom de voz” do cliente acabou de ficar literal. Análise de chamadas com sinal não-lexical é o próximo capítulo de CX — e quem implementar primeiro vai entender churn três meses antes da concorrência. E uma observação que ninguém está fazendo: o custo de compute multimodal vai forçar discussão sobre quando IA local (on-prem ou edge) faz sentido versus quando IA cloud é estratégica. Em 2027, essa decisão vai pesar na conta.

Publicado em 4 de maio de 2026 · thinq.news