A Micropsi desenvolveu programação probabilística, e não determinística, robô. Fonte: Micropsi Industries
Com o sucesso da IA generativa, houve muita discussão sobre o potencial de trazer o tipo de inteligência flexível encontrada em grandes modelos de linguagem para o mundo físico. Isso é frequentemente chamado de “IA incorporada” e é uma das oportunidades mais profundamente transformadoras da economia global.
Gostaria de argumentar que o futuro da IA incorporado é brilhante, mas o caminho a seguir é muito menos direto que o caminho para a IA no domínio puramente digital. O caminho para um “chatgpt for robotics” tem vários speedbumps, e novos avanços são necessários para que a idéia se torne realidade. Isso tem implicações para os fundadores e investidores de startups, que tentarei destilar em algumas recomendações.
Mais automação robótica é uma inevitabilidade, e toda a incerteza reside na questão de comonão se. Desde a sua aquisição da Kiva Systems em 2012, a Amazon implantou mais de 750.000 robôs em seus armazéns. Startups e investidores estão tentando triangular os próximos aplicativos que podem atingir esse nível de alinhamento entre as capacidades robóticas e as necessidades de mercado.
A trajetória da IA é uma variável -chave nesse processo de triangulação, e novos modelos poderosos podem ser trocadores de jogo absolutos. Então, onde estamos no desenvolvimento desses modelos? Conversei com roboticistas experientes e aqueles que desenvolvem modelos de fundação robótica para entender melhor essa questão.
Registre -se agora para não perder!
Um passo de cada vez em direção à IA incorporada
O objetivo da pesquisa de IA incorporada de ponta é criar inteligência de robôs que seja de uso geral e não específico da tarefa-flexível o suficiente para lidar com casos de uso novos ou altamente dinâmicos, sem a necessidade de treinamento dedicado. A promessa de modelos de fundação robótica de uso geral é dupla.
Primeiro, eles expandiriam drasticamente o número de casos de uso endereçáveis pela robótica. Segundo, eles reduziriam os cronogramas de comercialização historicamente longos para os sistemas de robótica.
Ambas as promessas estão sendo cumpridas no domínio puramente digital por modelos de fundação como GPT-4, Gêmeos, Claude e Llama. Esses modelos abriram a porta para inúmeros novos casos de uso, colocando pequenos modelos de IA de fins únicos em uma pista rápida na obsolescência, pois o primeiro pode fazer o mesmo trabalho que o último, eliminando o investimento em engenharia necessário para fazer treinamento de modelos sob medida.
Os modelos de uso geral se tornaram a maneira de fato de construir quase tudo na IA. Pode-se especular que um novo modelo semelhante ao ChatGPT passará a dominar o desenvolvimento de aplicativos de robótica.
No entanto, não acho que este seja o caso no curto prazo. Em vez disso, minha expectativa é que as técnicas generativas de IA infundirão gradualmente a robótica, em vez de remodelar a paisagem da noite para o dia, e elas coexistirão com robótica clássica por algum tempo.
A robótica tem avançado constantemente graças às técnicas generativas de IA, mesmo que possam não ser o manchete. A construção de startups hoje já está usando técnicas que prometem inteligência mais flexível e generalizada e tempo mais rápido. Eles simplesmente não confiam em um único “modelo mundial” como base de sua aplicação.
Por exemplo, a política de difusão alavanca os modelos de difusão, a mesma técnica que sustenta os geradores de imagens da IA, para gerar comportamento do robô. Os modelos resultantes são altamente flexíveis e requerem menos dados de treinamento, mas por enquanto eles geralmente ainda são treinados de tarefa por tarefa. Outra técnica generativa de IA promissora são os campos de brilho neural (NERF), que podem reconstruir cenas 3D de imagens 2D e ter aplicativos em robótica, como a criação de novos dados de treinamento.
Os modelos de uso geral têm o potencial de se tornar a base para o desenvolvimento da robótica, e a promessa da abordagem foi destacada por modelos de pesquisa como o RT-X do Google e o π de inteligência física π0.
Um ponto de prova importante desses modelos é que eles demonstraram ser maiores que a soma de suas partes. Quando o treinamento de dados de várias tarefas é incluído, o modelo tem um desempenho melhor em uma tarefa individual do que se tivesse sido treinada apenas nessa tarefa.
No entanto, a abordagem enfrenta Speedbumps no caminho para a adoção relacionada a dados, determinismo e calculação. Mais avanços são necessários antes que essa categoria de modelos esteja pronta para a produção.
https://www.youtube.com/watch?v=A6IX6VZUK0C
Três Speedbumps com modelos de fundação
O primeiro Speedbump é que não parece haver um corpus de dados pronto para treinar um modelo de fundação sobre a interação com o mundo físico, em contraste com a abundância de dados de texto, imagem e áudio em escala na Web que tornaram os modelos de fundação existentes possíveis. Os modelos de percepção se tornaram muito poderosos, mas conectar a percepção à atuação é desafiadora.
Para atingir a escala necessária para um modelo de fundação verdadeiro, acredito que o investimento significativo precisará entrar em mecanismos para coletar mais dados, bem como a experimentação para entender a eficácia de diferentes tipos de dados de treinamento. Por exemplo, ainda não está claro até que ponto os vídeos de seres humanos executando tarefas podem contribuir para o desempenho do modelo. Acredito que, com uma combinação de ingenuidade e investimento, poderosos dados de treinamento em larga escala podem ser montados.
Uma trajetória que parece provável é que modelos poderosos com pré-treinamento significativo surgirão nos próximos anos, mas eles exigirão dados de treinamento suplementares adicionais para serem executivos em qualquer tarefa específica. Isso é semelhante ao ajuste fino de grandes modelos de linguagem, mas será mais essencial, porque menos recursos funcionarão “fora da caixa” com os modelos de robótica.
O segundo Speedbump refere -se ao determinismo e confiabilidade. Fora da robótica, a importância do determinismo varia amplamente de acordo com a aplicação e as aplicações generativas de IA mais bem -sucedidas são aquelas em que o determinismo não é importante. Na robótica, o determinismo é crítico. Deixando de lado a segurança, o retorno do investimento (ROI) da robótica geralmente depende da taxa de transferência e o tempo gasto na resolução de erros destrói a taxa de transferência.
Até agora, a pesquisa sobre modelos da Robotics Foundation enfatizou a novidade e não a confiabilidade. Há uma quantidade substancial de esforço que entra em métodos para mitigar o não determinismo dos modelos generativos de IA-amplamente, não apenas na robótica-, então acredito que esse problema possa ser resolvido, mas provavelmente não de uma só vez. Este é um argumento para uma coexistência de modelos determinísticos e não determinísticos.
Para equilibrar a flexibilidade com a confiabilidade, nossa empresa de portfólio Micropsi Industriesque automatiza tarefas de alta variância para alguns dos maiores fabricantes do mundo, usa redes neurais que são determinísticas e não probabilísticas.
O terceiro Speedbump for Robotics Foundation Models é que, na robótica, a computação geralmente precisa ser feita no limite, tornando a inferência um desafio. Os robôs devem ser econômicos e, hoje, muitas aplicações não suportarão o custo de adicionar GPUs suficientes para executar a inferência para os modelos mais poderosos.
Esse problema é potencialmente o mais tratável dos três que eu mencionei. Espera -se que os roboticistas tomem modelos grandes como ponto de partida e usem técnicas de destilação para criar modelos menores e mais focados com menos requisitos de recursos. No entanto, isso reduzirá necessariamente a generalidade dos modelos e é contrário à idéia de um robô que pode fazer qualquer coisa.
Nossa empresa de portfólio Robótica RGO Fornece seu mecanismo de percepção a uma ampla gama de OEMs de robôs móveis e, em toda essa base de fabricantes de robôs, espera que modelos menores e mais baratos continuem sendo populares em casos de uso sensíveis a custos. O hardware está melhorando continuamente no preço/desempenho; portanto, o que é prático para executar no limite evoluirá.
Técnicas como quantização também estão possibilitando reduzir efetivamente o tamanho de modelos grandes. Abordagens híbridas também são possíveis, nas quais algumas compuções são feitas na nuvem e em alguns dispositivos.
https://www.youtube.com/watch?v=KFQW8-STTTQ
Recomendações para o Genai, a Era incorporada
Enquanto o mundo é cada vez mais digital, ainda vivemos em um mundo físico, e a interação do digital com o físico tem escopo ilimitado para o crescimento.
Os observadores costumam perguntar por que a IA pode escrever um ensaio ou uma peça musical, mas não fazer algo servil como carregar a máquina de lavar louça. Este último provavelmente será viável no curto prazo, mas, além disso, a mesma pergunta está sendo feita sobre processos físicos em indústrias que valem trilhões de dólares. Isso torna a IA incorporada uma das oportunidades mais profundas da economia global.
A robótica está fazendo um tremendo progresso, e vejo robôs se tornando facilitadores críticos em indústrias onde nunca estavam presentes antes, enquanto os mercados de robótica estabelecidos estão se beneficiando de novas inovações incorporadas de IA. A IA generativa será um elemento transformador do caminho a seguir para a robótica, mas minha conclusão por enquanto é que será um processo gradual, e não um turno da noite para o dia que muda fundamentalmente como as empresas de robótica são construídas.
Ao mesmo tempo, seria tolice subestimar a capacidade dos inovadores de superar os desafios que descrevi, mas é muito difícil prever quando ocorrerá um avanço. Como resultado, minhas recomendações para empreendedores que iniciam as empresas de robótica hoje são:
- Concentre-se em um aplicativo de alto valor e determine a melhor maneira de abordar esse aplicativo, sem estar na abordagem de nenhuma abordagem. Conheça todas as nuances da aplicação de dentro para fora, porque muitas vezes o diabo nos detalhes é o que mata a viabilidade econômica de uma solução de robótica.
- Avalie onde novas técnicas generativas de IA podem resolver problemas anteriormente insolúveis. Veja a IA generativa como uma ferramenta e não uma solução em si.
- Espere que a maior parte do seu horário de engenharia seja dedicada à robustez e ao endurecimento, não aos novos recursos.
- Estude os manuais das empresas de robótica mais bem -sucedidas e veja quais aspectos fazem sentido imitar. Não acredito que a receita de uma empresa de robótica de sucesso, seja em relação à proposta de valor, desenvolvimento de produtos ou estratégia de entrada no mercado, mudou fundamentalmente.
Se você estiver trabalhando em uma nova startup de robótica ou inovando em torno da aplicação de IA generativa à automação do mundo físico, eu adoraria ouvir você.
Sobre o autor
James Falkoff é um parceiro em Convergeuma empresa de capital de risco com sede em Boston e Silicon Valley, focada na automação inteligente e na interseção dos mundos físicos e digitais. Ele é investidor no setor de tecnologia há 19 anos.