A equipe de robótica do Google aplica experiência em aprendizado de máquina, engenharia e simulação de física para enfrentar os desafios enfrentados pelo desenvolvimento de robôs movidos a IA. | Fonte: DeepMind
Hoje, o Google DeepMind introduziu dois novos modelos de inteligência artificial: a Gemini Robotics, seu modelo baseado em Gemini 2.0, projetado para robótica, e a Gemini Robotics-Er, um modelo de Gêmeos com entendimento espacial avançado.
O DeepMind disse que tem progredido na maneira como Gemini resolve problemas complexos por meio de raciocínio multimodal entre texto, imagens, áudio e vídeo. Agora, com estes Novos modelosestá trazendo esses recursos para fora do digital e para o mundo real.
A Gemini Robotics, é um modelo avançado de ação de visão de visão (VLA) que foi construído no Gemini 2.0. Ele adicionou ações físicas como uma nova modalidade de saída para o objetivo de controlar diretamente os robôs.
A Gemini Robotics-ER oferece um entendimento espacial avançado, permitindo que os roboticistas administrem seus próprios programas usando as habilidades de Raciocínio Incorporado (ER) de Gemini.
O DeepMind disse que esses dois modelos permitem que uma variedade de robôs realize uma gama mais ampla de tarefas do mundo real do que nunca. Como parte de seus esforços, a DeepMind está em parceria com a Apptronik para construir robôs humanóides com a Gemini 2.0.
A unidade do Google também está trabalhando com testadores confiáveis para orientar o futuro da Gemini Robotics-ER. Eles incluem robôs ágil, robótica de agilidade, Boston Dynamics e ferramentas encantadas.
Registre -se agora para não perder!
Como tornar a IA útil no mundo real
De acordo com uma postagem de blog DeepMind, para ser útil e útil para as pessoas, os modelos de IA para robótica precisam de três qualidades principais:
- Eles precisam ser gerais, o que significa que eles são capazes de se adaptar a diferentes situações.
- Eles precisam ser interativos, para que possam entender e responder rapidamente a instruções ou alterações em seus ambientes.
- Eles precisam ser dexteros, o que significa que podem fazer os tipos de coisas que as pessoas geralmente podem fazer com as mãos e os dedos, como manipular cuidadosamente objetos.
Enquanto o trabalho anterior da organização demonstrou algum progresso nessas áreas, a Gemini Robotics representa um passo substancial no desempenho nos três eixos.
https://www.youtube.com/watch?v=SY20X_TYWPQ
Deepmind enfatiza a generalidade e a interatividade
A Gemini Robotics usa o entendimento mundial de Gêmeos para generalizar para novas situações e resolver uma ampla variedade de tarefas prontas, incluindo tarefas que nunca viu antes no treinamento. A Gemini Robotics também é hábil em lidar com novos objetos, diversas instruções e novos ambientes, afirmou o Google.
Ele disse que, em média, a Gemini Robotics mais do que duplica o desempenho em uma referência abrangente de generalização em comparação com outros modelos de VLA.
Além da gênero, a interatividade é fundamental. Para operar em nosso mundo dinâmico e físico, os robôs devem ser capazes de interagir perfeitamente com as pessoas e com o ambiente circundante e se adaptar às mudanças em tempo real.
Porque é construído sobre uma base de Gemini 2.0, disse Deepmind Robótica Gemini é intuitivamente interativo. Ele explora os recursos avançados de linguagem da Gêmeos e pode entender e responder aos comandos formulados em conversas diárias e em diferentes idiomas.
O modelo pode entender e responder a um conjunto muito mais amplo de instruções de linguagem natural do que os modelos anteriores, adaptando seu comportamento à entrada do usuário, disse DeepMind. Também monitora continuamente seus arredores, detecta mudanças em seu ambiente ou instruções e ajusta suas ações de acordo. Esse tipo de controle, ou “Steerability”, pode ajudar melhor as pessoas a colaborar com assistentes de robôs em várias configurações, de casa ao local de trabalho, informou a empresa.
https://www.youtube.com/watch?v=hyqs2oaif-i
Robôs de todas as formas e tamanhos requerem alta destreza
Deepmind disse que o terceiro pilar -chave para construir um robô útil está agindo com destreza. Muitas tarefas cotidianas que os seres humanos executam sem esforço exigem habilidades motoras finas e ainda são muito difíceis para os robôs.
Por outro lado, a Gemini Robotics pode enfrentar tarefas extremamente complexas e de várias etapas que requerem manipulação precisa, como dobrar ou embalar um lanche em uma bolsa Ziploc, explicou.
Além disso, a DeepMind disse que projetou a Gemini Robotics para se adaptar a robôs de diferentes fatores de forma. A empresa treinou o modelo principalmente em dados da plataforma robótica bi-brando, Aloha 2, mas também demonstrou que o modelo poderia controlar uma plataforma de dois braços baseada nos braços de Franka usados em muitos laboratórios acadêmicos.
O DeepMind observou que a Gemini Robotics também pode ser especializada em modalidades mais complexas, como o Robô Humanóide Apollo desenvolvido por Apptronik, com o objetivo de concluir as tarefas do mundo real.
https://www.youtube.com/watch?v=x-exzz-ciuw
Gemini Robotics-Er se concentra no raciocínio espacial
A Gemini Robotics-Er aprimora a compreensão de Gêmeos do mundo de maneiras necessárias para a robótica, concentrando-se especialmente no raciocínio espacial. Ele também permite que os roboticistas o conectem com os controladores de baixo nível existentes. O Deepmind disse que o modelo melhora significativamente as habilidades existentes do Gemini 2.0, como apontar e detecção 3D.
Combinando o raciocínio espacial e as habilidades de codificação de Gêmeos, a Gemini Robotics-ER pode instanciar recursos totalmente novos em tempo real, afirmou o DeepMind. Por exemplo, quando mostrado uma caneca de café, o modelo pode intuir uma compreensão apropriada de dois dedos para pegá-la pela alça e uma trajetória segura para abordá-la.
A Gemini Robotics-ER pode executar todas as etapas necessárias para controlar um robô imediatamente, incluindo percepção, estimativa do estado, entendimento espacial, planejamento e geração de código, de acordo com o Google. Em uma configuração de ponta a ponta, o modelo é duas a três vezes mais bem-sucedido que o Gemini 2.0.
Onde a geração de código não é suficiente, a Gemini Robotics-ER pode explorar o poder do aprendizado no contexto, seguindo os padrões de um punhado de demonstrações humanas para fornecer uma solução.
DeepMind considera a segurança do robô na abordagem de Gêmeos
Deepmind disse que, ao explorar o potencial da IA e da robótica, está adotando uma abordagem holística e em camadas para lidar com a segurança, do controle motor de baixo nível a um entendimento semântico de alto nível.
A Gemini Robotics-ER pode interagir com controladores críticos de segurança “de baixo nível” para fazer coisas como evitar colisões, limitar a magnitude das forças de contato e garantir a estabilidade dinâmica dos robôs móveis.
Com base nos principais recursos de segurança da Gêmeos, a organização permite que os modelos Gemini Robotics-ER entendam se é ou não uma ação potencial ou não em um determinado contexto e gerar respostas apropriadas.
https://www.youtube.com/watch?v=4mvgnmmp3c0
DeepMind procura pesquisar mais com o novo conjunto de dados
Para avançar na pesquisa de segurança da robótica em toda a academia e indústria, a DeepMind também lançou um novo conjunto de dados para avaliar e melhorar a segurança semântica em IA incorporada e robótica. No trabalho anterior, mostrou como um “Constituição do robô”Inspirado pelas três leis da robótica de Isaac Asimov, pode ajudar a levar a um grande modelo de idioma (LLM) a selecionar tarefas mais seguras para robôs.
Desde então, a organização desenvolveu uma estrutura para gerar automaticamente constituições orientadas a dados-regras expressas diretamente na linguagem natural-para direcionar o comportamento de um robô. Essa estrutura permitiria que as pessoas criassem, modificassem e apliquem constituições para desenvolver robôs mais seguros e mais alinhados com os valores humanos.
Finalmente, o novo Asimov conjunto de dados ajudará os pesquisadores a medir rigorosamente as implicações de segurança de ações robóticas em cenários do mundo real, disse DeepMind.