Home » Ai2 diz que o novo modelo Molmoact 7B traz IA para o mundo físico

Ai2 diz que o novo modelo Molmoact 7B traz IA para o mundo físico

by Daniel Carvalho

A AI2 disse que seu modelo Molmoact é seguro, interpretável, adaptável e verdadeiramente aberto. | Fonte: AI2, Adobe Stock

O Instituto Allen para a IA, também conhecido como AI2, anunciou ontem o lançamento do Molmoact 7B, um modelo de IA incorporado que, segundo ele, traz modelos de inteligência artificial de ponta ao mundo físico.

Em vez de raciocinar através da linguagem e converter isso em movimento, a AI2 disse que Molmoact realmente vê seus arredores; entende as relações entre espaço, movimento e tempo; e planeja seus movimentos de acordo. O modelo gera tokens de raciocínio visual que transformam entradas de imagem 2D em planos espaciais 3D, permitindo que os robôs navegassem no mundo físico com maior inteligência e controle.

“A IA incorporada precisa de uma nova base que priorize o raciocínio, a transparência e a abertura”, afirmou Ali Farhadi, CEO da AI2. “Com o Molmoact, não estamos apenas lançando um modelo; estamos lançando as bases para uma nova era de IA, trazendo a inteligência de modelos poderosos de IA para o mundo físico. É um passo em direção à IA que pode raciocinar e navegar no mundo de maneiras mais alinhadas com o modo como os humanos se saem – e colaboram conosco com segurança e eficácia.”

AI2 é uma pesquisa de IA sem fins lucrativos baseada em Seattle instituto Com a missão de construir a IA para resolver os maiores problemas do mundo. Fundada em 2014 pelo co-fundador da Microsoft, Paul G. Allen, a AI2 disse que desenvolve pesquisas fundamentais de IA e novas aplicações por meio de modelos abertos em larga escala, dados abertos, robótica, plataformas de conservação e muito mais.

Ai2 afirma que Molmoact é o primeiro ‘modelo de raciocínio de ação’

Embora o raciocínio espacial não seja novo, a maioria dos sistemas modernos depende de arquiteturas fechadas e de ponta a ponta treinadas em conjuntos de dados proprietários maciços. Esses modelos são difíceis de reproduzir, caros de escalar e geralmente operam como caixas pretas opacas, de acordo com a AI2.

O instituto afirmou que Molmoact oferece uma abordagem fundamentalmente diferente. O modelo é treinado inteiramente em dados abertos, é projetado para transparência e é construído para a generalização do mundo real. Seus traços de raciocínio visual passo a passo permitem que os usuários visualizem o que um robô planeja fazer e orientar seu comportamento em tempo real, à medida que as condições mudam, disse a AI2.

Ai2 chamou Molmoact de “modelo de raciocínio de ação” (ARM) para indicar que pode interpretar instruções de linguagem natural de alto nível e razão através de uma sequência de ações físicas para realizá-las no mundo real.

Os modelos de robótica de ponta a ponta tradicionais tratam as tarefas como um único passo opaco, disse o instituto. Em vez disso, os braços interpretam instruções de alto nível e as dividem em uma cadeia transparente de decisões espacialmente fundamentadas:

  • Percepção com reconhecimento 3D: fundamentar a compreensão do robô sobre seu ambiente usando profundidade e contexto espacial
  • Planejamento visual de waypoint: descrevendo uma trajetória de tarefas passo a passo no espaço da imagem
  • Decodificação de ação: convertendo o plano em comandos precisos e específicos de robôs

Esse raciocínio em camadas permite que o Molmoact interprete comandos como “Classificar esta pilha de lixo” não como uma única etapa, mas como uma série estruturada de subtarefas. O modelo reconhece a cena, os grupos objetos por tipo, os compreende um por um e repete.

https://www.youtube.com/watch?v=-_wag1x25oe

Ai2 constrói molmoact para escalar rapidamente

O Molmoact 7B, o primeiro em sua família modelo, foi treinado em um conjunto de dados com curadoria de cerca de 12.000 “episódios de robô” de ambientes do mundo real, como cozinhas e quartos. A AI2 transformou essas demonstrações em seqüências de rendimento de robôs que expõem como as instruções complexas são mapeadas para ações fundamentadas e direcionadas a objetivos.

Juntamente com o modelo, a empresa está lançando o conjunto de dados Pós-Treinamento Molmoact, contendo ~ 12.000 “episódios de robô” distintos. Os pesquisadores da AI2 passaram meses selecionando vídeos de robôs realizando ações em diversas configurações domésticas. Isso inclui qualquer coisa, desde arranjar travesseiros em um sofá da sala até guardar a roupa em um quarto.

Apesar de seu forte desempenho, a AI2 disse que treinou o Molmoact com eficiência. Exigiu apenas 18 milhões de amostras, pré-treinamento em 256 unidades de processamento gráfico da NVIDIA H100 (GPUS) por cerca de 24 horas e ajustes finos em 64 GPUs por apenas mais dois.

Por outro lado, muitos modelos comerciais exigem centenas de milhões de amostras e muito mais computadas. No entanto, o Molmoact superou muitos desses sistemas em benchmarks -chave – incluindo uma taxa de sucesso de 71,9% em mais simples. Isso demonstrou que dados de alta qualidade e design atencioso podem superar os modelos treinados com muito mais dados e computação, disse a AI2.

AI2 mantém o Molmoact aberto e transparente

A AI2 disse que construiu o Molmoact para transparência. Os usuários podem visualizar os movimentos planejados do modelo antes da execução, com trajetórias de movimento sobrepostas nas imagens da câmera.

Além disso, os usuários podem ajustar esses planos usando linguagem natural ou correções rápidas de esboço em uma tela sensível ao toque-fornecendo controle de granulação fina e melhorando a segurança em ambientes do mundo real, como casas, hospitais e armazéns.

De acordo com a missão da AI2, o Molmoact é totalmente aberto e reproduzível. O Instituto está lançando tudo o que é necessário para construir, executar e estender o modelo: oleodutos de treinamento, conjuntos de dados pré e pós-treinamento, pontos de verificação do modelo e referências de avaliação.

O modelo e Artefatos modelo – incluindo pontos de verificação de treinamento e evalas – estão disponíveis no repositório de rosto abraçando da AI2.

Aprenda sobre o mais recente da IA no Robobusiness

https://www.youtube.com/watch?v=o6x1_gqq1zy

Este ano Robobusinessque será nos dias 15 e 16 de outubro em Santa Clara, Califórnia, apresentará o fórum físico da IA. Essa faixa contará com conversas sobre uma série de tópicos, incluindo conversas sobre segurança e IA, treinamento de reforço de simulação para realidade, curadoria de dados, implantação de robôs movidos a IA e muito mais.

Os participantes podem ouvir especialistas da Destreza, Robótica da ABB, UC Berkeley, Roboto, Graymatter Robotics, Diligent Robotics e Dexman AI. Além disso, o show começará com uma palestra de Deepu Talla, vice -presidente de robótica da Edge AI na Nvidia, sobre como a IA física está inaugurando uma nova era de robótica.

Robobusiness é o principal evento para desenvolvedores e fornecedores de robôs comerciais. O evento é produzido pela WTWH Media, que também produz O relatório do robô, Armazém automatizadoe o Robotics Summit & Expo.

A conferência deste ano incluirá mais de 60 alto -falantesum workshop de startups, a competição anual de pitchfire e numerosos oportunidades de networking. Mais de 100 expositores no piso do show mostrará suas mais recentes tecnologias, produtos e serviços de capacitação para ajudar a resolver seus desafios de desenvolvimento de robótica.

As inscrições estão agora abertas para Robobusiness 2025.



Link original