A Robótica da Agilidade desenvolveu um modelo de fundação de controle de corpo inteiro para o seu dígito humanóide. Fonte: Robótica de agilidade
A vantagem mais significativa de um robô humanóide é a capacidade de executar uma ampla variedade de tarefas em ambientes altamente restritos, de acordo com uma recente postagem no blog de robótica de agilidade. O mundo construído foi projetado com as pessoas em mente, e as máquinas que podem corresponder à nossa capacidade geral serão as mais valiosas.
Claro, isso não significa que os robôs humanóides tenham que se parecer exatamente conosco, que a empresa tem coberto antes.
A tarefa em questão é relativamente clara, mas executar o trabalho representa uma variedade de desafios. O robô deve manter seu equilíbrio, mover -se sem problemas e ser robusto a distúrbios ambientais, enquanto alcançam, agarram e manipulando com um alto grau de precisão. Acima de tudo, o robô nunca deve cair.
Robótica de agilidade dá ao Digit um ‘córtex motor’
Para esse fim, a Agility Robotics desenvolveu um modelo de fundação de controle de corpo inteiro para o seu robô Humanóide Digit para garantir que ele permaneça seguro e estável enquanto executa uma ampla variedade de tarefas. Funciona como o córtex motor no cérebro humano, tomando sinais de diferentes partes do cérebro – diferentes níveis de hierarquia de controle da agilidade no caso de Digit – para controlar movimentos voluntários e habilidades motoras finas.
Este modelo é uma rede neural LSTM relativamente pequena (memória de curto prazo) com menos de 1 milhão de parâmetros, que são treinados em Isaac Sim, da NVIDIA Simulador de física por décadas de tempo simulado em três ou quatro dias.
O córtex motor do Digit é aprendido puramente em simulação e transfere zero-shot para o mundo real. Ele pode ser solicitado com densos objetivos de posição de espaço livre e orientação para os braços e o torso alcançarem objetivos diferentes, incluindo caminhar e escolher e colocar objetos pesados. Pode aprender habilidades de manipulação a jusante no topo do córtex motor e coordenam da mesma forma comportamentos complexos usando modelos de idiomas grandes (LLMs).
A Robótica de Agilidade pode solicitar seu modelo usando vários métodos para realizar um conjunto diversificado de tarefas.
Em março, a empresa implantou uma versão inicial deste trabalho no evento GTC da NVIDIA para mostrar compras para compras para compras. Para esta demonstração, a política foi motivada por detecções de objetos de um detector de objetos abertos, elevados para 3D, e a execução foi gerenciada por meio de um loop de planejamento de máquina estadual:

O dígito demonstra manuseio de supermercado na NVIDIA GTC. Fonte: Robótica de agilidade
Este é um passo significativo para tornar o dígito mais robusto aos distúrbios, mesmo ao executar planos complexos de manipulação, disse Agilidade. A empresa também conseguiu solicitar o córtex motor usando uma prévia de pesquisa de Gemini:
https://www.youtube.com/watch?v=2LG-4MDX210
O controlador também é robusto para pegar objetos muito pesados:

Fonte: Robótica de agilidade
Por que isso é difícil?
Para realizar trabalhos úteis, um robô deve ser capaz de posicionar e mover seus efetores finais no mundo robusta, disse a Robótica de Agilidade. Para robôs de base fixa, esse é um problema bem compreendido; Controladores simples que usam algoritmos baseados em modelos, como cinemática inversa (IK) ou dinâmica inversa (ID), têm sido amplamente utilizados com grande efeito há décadas.
Da perspectiva de um usuário desse sistema, é preciso apenas fornecer a pose desejada do efetor final, e o robô de base fixa se moverá rapidamente para corresponder a essa pose de destino.
A Agility disse que deseja criar a mesma interface para os robôs humanóides: um onde o robô é informado simplesmente pelo movimento desejado de seus efetores finais e o robô se posiciona de maneira rápida e eficiente para atingir esses alvos.
Infelizmente, essa capacidade não é tão trivial em um robô pernas, afirmou. A física da locomoção das pernas tem dois modos: um onde uma perna está balançando livremente pelo ar e outro quando a perna é plantada no chão e aplicando forças no restante do robô. Esses dois conjuntos de física são separados por uma noção de fazer ou quebrar ‘”contato”, que acontece quando o robô coloca o pé ou levanta o pé do chão.
Essa complexidade tem um custo computacional pesado, e as suposições simplificadoras são quase sempre empregadas para facilitar o problema de controle e planejamento. Uma dessas suposições comum é que as pernas do robô permanecerão em contato com o solo, enquanto os efetores finais estão alcançando seus alvos ou manipulando objetos no mundo-essencialmente transformando uma plataforma de pernas em uma base fixa.
Esta é uma poderosa heurística que é o fundamento de muitos dos impressionantes avanços que o campo da robótica humanóide desfrutou recentemente, mas também é uma limitação fundamental no desempenho dos robôs modernos, escreveu agilidade robótica. Impedir que o robô ajuste dinamicamente a colocação dos pés limitará seu espaço de trabalho de manipulação e impedirá que ele reaja de forma inteligente e naturalmente às forças de perturbação que possa encontrar durante o curso de seu trabalho.
Uma interface mais ideal seria aquela em que o robô simplesmente rastreia os movimentos manuais desejados pelo usuário enquanto tomava medidas por conta própria quando necessário, evitando colisões com o meio ambiente e tentando muito não cair. A dificuldade de gerar planos de movimento de corpo inteiro dinamicamente viável em tempo real tornou historicamente esse tipo de interface intratável para robôs humanóides, pelo menos até recentemente.
Digite o aprendizado de reforço
O aprendizado de reforço profundo (RL) está rapidamente emergindo como o paradigma de controle dominante para robôs humanóides. Em vez de modelar explicitamente as equações de movimento da dinâmica híbrida do robô no controlador ou fazer suposições simplificadoras sobre o estado de contato de todo o sistema, é possível treinar uma rede neural em um simulador de física para atuar como controlador com o objetivo de rastrear um movimento de corpo inteiro e depois implantar essa rede neural sobre hardware.
Resultados recentes sobre o controle de corpo inteiro humanóides são impressionantes, altamente dinâmicos e requerem muito menos experiência e esforço para trabalhar em hardware do que usar métodos de controle baseados em modelos mais tradicionais. No entanto, a maior parte desse corpo de trabalho concentra-se em movimentos dinâmicos de corpo inteiro, como dançar e não conseguir o rastreamento preciso necessário para a manipulação móvel.
A Robótica da Agilidade está se concentrando na capacidade de aplicar forças no meio ambiente com as duas mãos e os pés, para que o Digit seja capaz de levantar e manobrar coisas pesadas.
Os controladores devem cobrir o espaço de trabalho
A maioria dos trabalhos de trabalho existente para controladores de corpo inteiro para robôs humanóides com RL (como GMT ou TORÇÃO) Use conjuntos de dados grandes e offline de dados de captura de movimento humano como ACUMULAR ou Lafan1 Para treinar redes de controle de corpo inteiro. Isso levou a resultados incrivelmente impressionantes e realistas, mas essas distribuições de trajetória geralmente não cobrem todo o espaço de trabalho de manipulação desejado, observou a robótica da agilidade.
Inevitavelmente, os alvos de posar da mão nesses conjuntos de dados offline cobrirão densamente uma região bem representada do espaço de trabalho e deixam os extremos da área de trabalho ou de outras regiões-chave esparsamente povoadas. No entanto, a agilidade afirmou que é importante que a distribuição de treinamento dos alvos de mão cubra uniformemente o espaço de trabalho completo para garantir que o robô possa realizar manipulações complexas que utilizam toda a sua extensão de maneira confiável.
Para garantir que seu córtex motor seja capaz de atingir qualquer ponto em nosso espaço de trabalho com alta precisão e confiabilidade, a agilidade emprega um esquema de amostragem aleatória, no qual escolhemos aleatoriamente posições e orientações uniformemente do espaço de trabalho e geramos velocidades de movimento de tradução e rotação aleatórias entre os pontos para criar trajetórias indecigadas de tempo para ambas as mãos e o torso. Ele treina seu córtex motor para alcançar esses pontos usando um termo de recompensa que considera o erro de tradução e rotacional entre a pose atual da mão e a pose de mão -alvo.

A agilidade robótica está treinando dígito usando um modelo de controlador de corpo inteiro. Fonte: Robótica de agilidade
Posição> Velocidade
Para treinar uma política de aprendizado de reforço que pode interagir com precisão com o mundo de várias maneiras, a agilidade da Robótica disse que deseja que o robô seja capaz de caminhar para posições específicas no mundo e ficar lá.
No entanto, a grande maioria da literatura sobre a aplicação da RL em robôs pernas treina redes neurais para rastrear as velocidades raiz do alvo (“corresponder a essa velocidade e direção”) em vez de posições radiculares (“Vá para este ponto”), como na velocidade baseada em velocidade baseada em velocidade VMPAssim, AmorAssim, FALCÃOAssim, Exbodão e Exbody2Assim, HumanPlusAssim, GMTAssim, R2S2Assim, MHC versus capacidade de posição CLONEAssim, Omnih2o e Passe o mouse.
Os controladores de treinamento para rastrear velocidades, em vez de posições para fins de locomoção, fornecem um sinal de recompensa muito mais rico e perdoador, por isso é geralmente uma escolha pragmática, disse Agilidade. Além disso, o rastreamento de uma posição raiz no hardware no tempo de teste requer (não trivialmente) algum tipo de odometria, como a implementação de um estimador de pose de base flutuante.
No entanto, um controlador de locomoção que está condicionado a uma velocidade de destino, em vez de uma posição alvo, requer um objeto de planejador de nível superior ou um teleoperador humano para fornecer orientação constante para corrigir a deriva ou explicar o erro de posição. Idealmente, um usuário diria ao controlador onde deveria estar no espaço livre e navegaria até lá e retornaria naturalmente a essa posição, mesmo se empurrado ou perturbado.
Promoção no espaço da tarefa é melhor do que o espaço de configuração
Outra questão é que, em trabalhos anteriores, os pontos de ajuste da parte superior do corpo são frequentemente parametrizados no espaço articular. Isso significa que, para realmente usar o controlador de corpo inteiro, você precisa de um traje de captura de movimento e um mapeamento do espaço de configuração humana para o espaço de configuração do robô, ou um planejador ou modelo para gerar planos de movimento do corpo superior, disse Agility Robotics.
Observou que essas são limitações graves porque exigem que a camada de planejamento de nível superior, o teleoperador humano ou o LLM precise ter um modelo do estado cinemático do robô. Seria muito mais conveniente para scripts a jusante, teleooperação e clonagem de comportamento que se baseiam no topo do controlador se a interface fosse simplesmente posições e orientações do espaço livre.
Isso também tem a vantagem de estar muito mais próximo da representação usada para Métodos de aprendizado de imitação de última geraçãoe significa que podemos prever os locais de objetos diretamente Usando modelos como Gêmeos para fornecer a política de execução.
Camadas de robótica de agilidade em comportamentos
A Robótica da Agilidade disse que está construindo ativamente e implantando robôs humanóides inteligentes que podem realizar trabalhos úteis em ambientes humanos. O “Motor Cortex” do Digit faz parte disso, disse a empresa. Funciona como uma camada de segurança “sempre ligada” que permite o controle reativo e intuitivo de nossos robôs.
“Podemos criar comportamentos complexos sobre esse córtex motor de nível inferior, incluindo o aprendizado de comportamentos de manipulação móvel”, acrescentou. “Consideramos este o primeiro passo em direção a um modelo de fundação de movimento seguro e robusto para robôs humanóides do mundo real”.
Para saber mais sobre esse tópico, confira este artigo do Dr. Alan Fern, co-diretor do Laboratório de Inteligência Artificial e Robótica Dinâmica da Universidade Estadual de Oregon: “O córtex motor humanoide emergente: um inventário de controladores treinados pela RL. ”
Notas do editor: Este post é sindicalizado da agilidade robótica ‘ blog com permissão.
Pras velagapudiDiretor de Tecnologia da Agility Robotics, falará sobre “Lições aprendidas com as primeiras implantações humanóides” no Robobusiness 2025. O principal evento para desenvolvedores e fornecedores de robótica comercial será nos dias 15 e 16 de outubro em Santa Clara, Califórnia. Ele apresentará faixas sobre humanóides, IA física, possibilitando tecnologias, design e desenvolvimento, robótica de campo e negócios. O registro está agora aberto.