NVIDIA Nemotron 3 Nano Omni Inteligência Artificial Tech

NVIDIA lança Nemotron 3 Nano Omni para agentes de IA

A NVIDIA anunciou nesta terça-feira (28 de abril de 2026), por meio de suas plataformas globais de desenvolvimento, o lançamento do Nemotron 3 Nano Omni, um modelo de linguagem multimodal de código aberto projetado para unificar o processamento de visão, áudio e texto em um único sistema. A nova ferramenta utiliza uma arquitetura híbrida de Mixture of Experts (MoE) para permitir que agentes autônomos operem com uma eficiência até nove vezes superior a soluções que dependem de modelos fragmentados, visando reduzir a latência e o custo operacional em fluxos de trabalho complexos, como o uso de interfaces gráficas e inteligência documental.


Unificação multimodal e ganho de desempenho

Até então, a construção de agentes de IA exigia a orquestração de múltiplos modelos especializados: um para converter áudio em texto, outro para o processamento de imagens e um terceiro para o raciocínio lógico (LLM). Esse processo gerava gargalos de performance e perda de contexto durante a transferência de dados entre as camadas.

O Nemotron 3 Nano Omni resolve essa fragmentação ao integrar codificadores de visão e áudio nativamente. Com uma arquitetura de 30B-A3B (30 bilhões de parâmetros totais, com uma fração ativa por inferência), o modelo alcança um throughput (vazão de dados) significativamente maior. Em testes preliminares, a NVIDIA reportou que o modelo lidera seis rankings de eficiência em inteligência documental e compreensão de vídeo e áudio entre modelos abertos de sua categoria.

Especificações Técnicas

  • Arquitetura: Híbrida MoE (Mixture of Experts) 30B-A3B.
  • Capacidades: Processamento de texto, imagens, áudio, vídeo, documentos e interfaces gráficas.
  • Janela de Contexto: 256K tokens.
  • Destaque: Eficiência 9x superior em comparação a modelos omni-modais concorrentes com o mesmo nível de interatividade.

Aplicações práticas: Do “Computer Use” à análise documental

A principal proposta do novo modelo é servir como os “olhos e ouvidos” de sistemas agenticos. Empresas como a H Company já utilizam o Nemotron 3 Nano Omni para alimentar agentes de “computer use” — softwares capazes de navegar em sistemas operacionais e interfaces gráficas como um humano faria.

“Para construir agentes úteis, você não pode esperar segundos para que um modelo interprete uma tela”, afirmou Gautier Cloix, CEO da H Company.

Ao operar com resolução nativa de 1920×1080 pixels, o modelo permite que a IA interprete gravações de tela em alta definição em tempo real, facilitando a automação de tarefas em ambientes corporativos que dependem de softwares legados ou interfaces complexas.

Além da automação de interface, o modelo se destaca em:

  1. Inteligência Documental: Interpretação de tabelas, gráficos e estruturas visuais em PDFs sem a necessidade de conversão prévia para texto puro.
  2. Raciocínio de Vídeo e Áudio: Capacidade de correlacionar o que está sendo dito em um áudio com o que é mostrado em um vídeo simultaneamente, mantendo um fluxo único de raciocínio.

Ecossistema e Disponibilidade

O lançamento expande a família Nemotron 3, que já acumula mais de 50 milhões de downloads no último ano. Por ser um modelo de pesos abertos (open weights), a NVIDIA oferece transparência para que organizações customizem o modelo via NVIDIA NeMo, garantindo soberania de dados para setores regulados, como o financeiro e o de saúde.

O Nemotron 3 Nano Omni já está disponível para desenvolvedores através do Hugging Face, OpenRouter e pelo catálogo de microsserviços NVIDIA NIM. O suporte de hardware abrange desde sistemas locais, como o NVIDIA Jetson para computação de borda, até infraestruturas de data center em nuvem.

Empresas como Dell Technologies, Oracle e Palantir já iniciaram processos de avaliação e integração do modelo em seus respectivos ecossistemas de serviços de IA.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *