O modelo EBIND permite que as equipes de IA usem dados multimodais. Fonte: StockBuddies, AI, via Adobe Stock
À medida que os robôs enfrentam ambientes e tarefas cada vez mais complexos, a sua inteligência artificial precisa de ser capaz de processar e utilizar dados de muitas fontes. A Encord lançou hoje o EBIND, um modelo de incorporação que permite que as equipes de IA aprimorem as capacidades de agentes, robôs e outros sistemas de IA que usam dados multimodais.
“O modelo EBIND que lançamos hoje demonstra ainda mais o poder da abordagem centrada em dados da Encord para impulsionar o progresso na IA multimodal”, afirmou Ulrik Stig Hansen, cofundador e presidente da Encord. “A velocidade, o desempenho e a funcionalidade do modelo são possíveis graças ao conjunto de dados E-MM1 de alta qualidade em que foi construído – demonstrando mais uma vez que as equipes de IA não precisam ser limitadas pelo poder computacional para ultrapassar os limites do que é possível neste campo.”
Fundada em 2020, a Encord fornece infraestrutura de dados para IA física e multimodal. A sede em Londres empresa disse que sua plataforma permite que laboratórios de IA, empresas de dados humanos e equipes empresariais de IA selecionem, rotulem e gerenciem dados para modelos e sistemas de IA em escala. Ele usa fluxos de trabalho de agentes e humanos para que essas equipes possam trabalhar com vários tipos de dados.
EBIND construído no conjunto de dados E-MM1, cobre cinco modalidades
A Encord construiu o EBIND em seu recém-lançado E-MM1 conjunto de dados, que afirma ser “o maior conjunto de dados multimodal de código aberto do mundo”. O modelo permite aos usuários recuperar dados de áudio, vídeo, texto ou imagem usando dados de qualquer outra modalidade.
O EBIND também pode incorporar nuvens de pontos 3D de sensores lidar como modalidade. Isso permite que modelos multimodais downstream, por exemplo, entendam a posição, a forma e as relações de um objeto com outros objetos em seu ambiente físico.
“Foi muito difícil reunir todos os dados”, reconheceu Eric Landau, cofundador e CEO da Encord. “Os dados que chegam pela Internet costumam estar emparelhados, como texto e dados, ou talvez com alguns dados de sensores.”
“É difícil encontrar esses quíntuplos na natureza, então tivemos que passar por um exercício muito meticuloso de construção do conjunto de dados que alimentou o EBIND”, disse ele. O Relatório do Robô. “Estamos bastante entusiasmados com o poder que vimos de ter todas as diferentes modalidades interagindo de maneira simultânea. Este conjunto de dados é 100 vezes maior que o próximo maior.”
Os desenvolvedores de IA e robótica podem usar o EBIND para construir modelos multimodais, explicou Encord. Com ele, eles podem extrapolar a forma 3D de um carro com base em uma imagem 2D, localizar vídeo com base em comandos de voz simples ou renderizar com precisão o som de um avião com base em sua posição em relação ao ouvinte, por exemplo.
“É assim que você compara o som de um caminhão em um ambiente com neve à imagem dele, ao arquivo de áudio real, à representação 3D”, disse Landau. “E ficamos realmente surpresos que dados tão diversos e específicos realmente existissem e pudessem ser relacionados de um sentido multimodal.”
Graças à maior qualidade dos dados, Encord disse que o EBIND é menor e mais rápido que os modelos concorrentes, ao mesmo tempo que mantém um custo mais baixo por item de dados e suporta uma gama mais ampla de modalidades. Além disso, o tamanho menor do modelo significa que ele pode ser implantado e executado em infraestrutura local, reduzindo significativamente a latência e permitindo inferência em tempo real.
Encord torna o modelo de código aberto
A Encord disse que o lançamento do EBIND como um modelo de código aberto demonstra seu compromisso em tornar a IA multimodal mais acessível.
“Estamos muito orgulhosos do modelo de incorporação altamente competitivo que nossa equipe criou, e ainda mais satisfeitos por democratizar ainda mais a inovação em IA multimodal, tornando-a de código aberto”, disse Stig Hansen.
Encord afirmou que isto capacitará as equipes de IA, desde laboratórios universitários e startups até empresas de capital aberto, para expandir e aprimorar rapidamente as capacidades de seus modelos multimodais de maneira econômica.
“A Encord obteve um tremendo sucesso com nosso conjunto de dados E-MM1 de código aberto e metodologia de treinamento EBIND, que permitem que equipes de IA em todo o mundo desenvolvam, treinem e implantem modelos multimodais com velocidade e eficiência sem precedentes”, disse Landau. “Agora estamos dando o próximo passo, fornecendo à comunidade de IA um modelo que formará uma peça crítica de seus sistemas multimodais mais amplos, permitindo-lhes recuperar de forma contínua e rápida qualquer modalidade de dados, independentemente de a consulta inicial vir na forma de texto, áudio, imagem, vídeo ou nuvem de pontos 3D.”
Os casos de uso variam de LLMs e controle de qualidade até segurança
A Encord disse que espera que os principais casos de uso do EBIND incluam:
- Permitir que grandes modelos de linguagem (LLMs) entendam todas as modalidades de dados em um único espaço unificado
- Ensinar LLMs a descrever ou responder perguntas sobre imagens, áudio, vídeo e/ou conteúdo 3D
- Aprendizagem intermodal ou uso de exemplos de um tipo de dados, como imagens, para ajudar os modelos a reconhecer padrões em outros, como áudio
- Aplicativos de controle de qualidade, como detecção de instâncias em que o áudio não corresponde ao vídeo gerado ou localização de distorções em conjuntos de dados
- Usando embeddings do modelo EBIND para condicionar a geração de vídeo usando texto, objetos ou embeddings de áudio, como transferir um “estilo” de áudio para modelos 3D
A Encord trabalha com clientes como Synthesia, Toyota, Zipline, AXA Financial e Northwell Health.
“Trabalhamos em todo o espectro de IA físicaincluindo veículos autônomos, robôs tradicionais para fabricação e logística, humanóides e drones”, disse Landau. “Nosso foco são essas aplicações onde a IA está incorporada no mundo real, e somos agnósticos quanto à forma que ela assume.”
Os usuários também podem trocar diferentes modalidades de sensores, como detecção tátil ou mesmo olfativa ou dados sintéticos, disse ele. “Uma de nossas iniciativas é que agora estamos olhando para fontes multilíngues, porque muitos dos dados textuais estão fortemente relacionados ao inglês”, acrescentou Landau. “Estamos pensando em expandir o próprio conjunto de dados.”
“Os humanos absorvem vários conjuntos de dados sensoriais semelhantes para navegar e fazer inferências e decisões”, observou ele. “Não são apenas dados visuais, mas também dados de áudio e dados sensoriais. Se você tiver uma IA que exista no mundo físico, você gostaria que ela tivesse um conjunto semelhante de habilidades para operar tão eficazmente quanto os humanos no espaço 3D.
“Então, você deseja que seu veículo autônomo não apenas veja e sinta através do lidar, mas também ouça se há uma sirene no fundo, você quer que seu carro saiba que um carro da polícia, que pode não estar à vista, está chegando”, concluiu Landau. “Nossa visão é que todos os sistemas fisicalizados serão multimodais em algum sentido no futuro.”
