Meta hoje introduzido V-Jepa 2um modelo mundial de 1,2 bilhão de parâmetros treinado principalmente em vídeo para apoiar a compreensão, previsão e planejamento em sistemas robóticos. Construído na arquitetura preditiva de incorporação conjunta (JEPA), o modelo foi projetado para ajudar os robôs e outros “agentes da IA” a navegar em ambientes e tarefas desconhecidos com treinamento limitado específico do domínio.
O V-Jepa 2 segue um processo de treinamento em duas etapas, tudo sem anotação humana adicional. No primeiro estágio auto-supervisionado, o modelo aprende com mais de 1 milhão de horas de vídeo e 1 milhão de imagens, capturando padrões de interação física. O segundo estágio apresenta o aprendizado condicionado à ação usando um pequeno conjunto de dados de controle de robôs (cerca de 62 horas), permitindo que o modelo considere as ações do agente ao prever resultados. Isso torna o modelo utilizável para o planejamento e as tarefas de controle de circuito fechado.
A Meta disse que já testou esse novo modelo em robôs em seus laboratórios. A Meta relata que o V-Jepa 2 tem um bom desempenho em tarefas robóticas comuns, como e pick-and-place, usando representações de metas baseadas na visão. Para tarefas mais simples, como Pick and Place, o sistema gera ações candidatas e as avalia com base nos resultados previstos. Para tarefas mais difíceis, como captar um objeto e colocá-lo no local certo, o V-Jepa2 usa uma sequência de subgoals visuais para orientar o comportamento.
Nos testes internos, a Meta disse que o modelo mostrou uma capacidade promissora de generalizar para novos objetos e configurações, com taxas de sucesso variando de 65% a 80% em tarefas de pick-and-placa em ambientes anteriormente vistos.
“Acreditamos que os modelos mundiais inaugurarão uma nova era para a robótica, permitindo que os agentes da IA do mundo real ajudem com tarefas físicas e tarefas físicas sem precisar de quantidades astronômicas de dados de treinamento robótico”, disse o cientista da META, Yann Lecun.
Embora o V-JEPA 2 mostre melhorias em relação aos modelos anteriores, a Meta AI disse que permanece uma lacuna notável entre o modelo e o desempenho humano nesses benchmarks. A Meta sugere que isso aponta para a necessidade de modelos que possam operar em várias escalas de tempo e modalidades, como incorporar informações de áudio ou tátil.
Para avaliar o progresso no entendimento físico do vídeo, a Meta também está lançando os três referências a seguir:
- Intphys 2: Avalia a capacidade do modelo de distinguir entre cenários fisicamente plausíveis e implausíveis.
- Mvpbench: Testes se os modelos dependem de entendimento genuíno, em vez de atalhos de dados na resposta a perguntas.
- Causalvqa: Examina o raciocínio sobre causa e efeito, antecipação e contrafactuais.
Os pontos de verificação de código e modelo V-JEPA 2 estão disponíveis para uso comercial e de pesquisa, com meta com o objetivo de incentivar a exploração mais ampla de modelos mundiais em robótica e IA incorporada.
Meta se junta a outros líderes de tecnologia no desenvolvimento de seus próprios modelos mundiais. O Google DeepMind vem desenvolvendo sua própria versão, Genie, que pode simular ambientes 3D inteiros. E World Labs, uma startup fundada por Fei-FEI LI, levantou US $ 230 milhões para construir grandes modelos mundiais.