Home » O Google DeepMind apresenta o modelo de gêmeos de gêmeos no dispositivo para robôs

O Google DeepMind apresenta o modelo de gêmeos de gêmeos no dispositivo para robôs

by Daniel Carvalho

A Gemini Robotics On-Device tem como objetivo tornar os poderosos modelos de robótica mais acessíveis e adaptáveis. | Fonte: Google DeepMind

O Google DeepMind introduziu esta semana um modelo de robótica Gemini no dispositivo para destreza de uso geral e adaptação rápida de tarefas. Deepmind disse que essa ação da linguagem da visão, ou VLA, o modelo trará o raciocínio multimodal de Gemini 2.0 e o entendimento do mundo real para o mundo físico.

Gemini Robotics no dispositivo é um Robótica Modelo de fundação Para robôs de dois braços, projetados para exigir recursos computacionais mínimos. Como o modelo é otimizado localmente e opera independentemente de uma rede de dados, o DeepMind disse que é útil para aplicações sensíveis à latência. Também pode garantir robustez em ambientes com conectividade intermitente ou zero.

Além da Gemini Robotics no dispositivo, o DeepMind apresentou o Kit de Desenvolvimento de Software de Robótica Gemini (Sdk). Os desenvolvedores podem usá -lo para avaliar o modelo VLA para suas tarefas e ambientes, testá -lo no DeepMind’s Mujoco simulador de física e adaptá -lo rapidamente a novos domínios, com apenas 50 a 100 demonstrações. Os desenvolvedores podem acessar o SDK inscrevendo -se no programa de testadores confiáveis ​​da DeepMind.



DeepMind se baseia no momento Gemini 2.0

Faz apenas alguns meses desde que a DeepMind introduziu a Gemini Robotics e já está desenvolvendo seus recursos de generalização e destreza de tarefas. A unidade do Google disse que o modelo no dispositivo é:

  • Projetado para experimentação rápida com manipulação hábil
  • Adaptável a novas tarefas através do ajuste fino para melhorar o desempenho
  • Otimizado para executar localmente com inferência de baixa latência

A Gemini Robotics On-Device alcança forte generalização visual, semântica e comportamental em uma ampla gama de cenários de teste, afirmou a empresa. A plataforma também permite que os robôs sigam instruções de linguagem natural e completassem tarefas altamente dexterivas, como sacos descompactados ou roupas dobráveis. O DeepMind ainda oferecerá o modelo de robótica Gemini para aqueles que buscam resultados semelhantes sem limitações no dispositivo.

Este sistema não se limita a tarefas que funcionarão fora da caixa. O DeepMind disse que os desenvolvedores podem adaptar o modelo para obter um melhor desempenho para aplicações específicas. A empresa testou o modelo em Sete tarefas de manipulação dexteriana de graus variados de dificuldade, incluindo fechar uma lancheira, desenhar um cartão e derramar molho para salada.

DeepMind expande Gêmeos para mais modalidades de robôs

Enquanto o DeepMind treinava seu modelo no dispositivo apenas para Aloha Robôs, foi capaz de adaptar ainda mais o modelo a um robô Bi-Arma Franka FR3 e ao robô Apollo Humanóide por Apptronik.

No FR3 Robot, Deepmind, disse que o modelo de IA seguiu instruções de uso geral. Pode lidar Montagem do cinturão industrial tarefas que exigiam precisão e destreza.

No Apollo Humanóide, DeepMind adaptou o modelo a uma modalidade significativamente diferente. O mesmo modelo generalista pode seguir as instruções de linguagem natural e manipular objetos diferentes, incluindo objetos anteriormente vistos, de uma maneira geral, disse a empresa.

DeepMind afirmou que está desenvolvendo todos os seus modelos em alinhamento com seu Princípios da IA e aplicando um Abordagem de segurança holística abrangendo segurança semântica e física. Na prática, isso significa capturar Segurança semântica e de conteúdo usando o API ao vivo e interface os modelos com controladores críticos de segurança de baixo nível para executar as ações.

A empresa recomenda Avaliando o sistema de ponta a ponta em seu desenvolvimento recentemente desenvolvido Benchmark de segurança semântica e executando exercícios de equipes vermelhas em todos os níveis para expor as vulnerabilidades de segurança do modelo.

Deepmind acrescentou que é A equipe responsável de desenvolvimento e inovação (REDI) continua a analisar e aconselhar o impacto do mundo real de todos os modelos de robótica Gemini, encontrando maneiras de maximizar seu impacto social e minimizar o risco. Seu Conselho de Responsabilidade e Segurança (RSC) analisa as avaliações, fornecendo feedback para ajudar a maximizar ainda mais os benefícios e minimizar o risco.

Para obter uma compreensão mais profunda do uso e perfil de segurança do Gemini Robotics On Device e, para obter feedback, a empresa está inicialmente lançando-o para um grupo selecionado de testadores confiáveis.

Link original