O Google DeepMind apresentou nesta quarta-feira (12), dois novos modelos de inteligência artificial (IA) baseados no Gemini 2.0 para tornar a tecnologia útil e prestativa no mundo físico. São eles: o Gemini Robotics, modelo avançado de visão-linguagem-ação (VLA), e o Gemini Robotics-ER, modelo com compreensão espacial avançada.
A big tech também anunciou parceria com a Apptronik para construir a próxima geração de robôs humanoides com o Gemini 2.0. Além disso, a empresa selecionou determinadas empresas para orientar o futuro do Gemini Robotics-ER, como Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools.
A Gemini Robotics pode lidar com tarefas extremamente complexas e de várias etapas que exigem manipulação precisa, como dobrar origami ou embalar um lanche em um saco Ziploc.
Os treinamentos foram feitos na plataforma robótica de dois braços ALOHA 2 e, também, nos braços Franka, usados ââem laboratórios acadêmicos. Para personificações mais complexas, a empresa deve seguir como exemplo o robô humanoide Apollo, da Apptronik.
Leia mais:
Já o Gemini Robotics-ER foi construído para focar no raciocínio espacial, executando todas as etapas necessárias para controlar um robô imediatamente, incluindo percepção, estimativa de estado, compreensão espacial, planejamento e geração de código.
O modelo pode desenvolver capacidades inteiramente novas no mesmo momento em que é provocado. "Por exemplo, quando lhe é mostrada uma caneca de café, o modelo pode intuir uma pegada apropriada com dois dedos para pegá-la pela alça e uma trajetória segura para se aproximar dela", explica a empresa.
A tecnologia se destacou em capacidades de raciocínio incorporado, incluindo detecção de objetos e apontar para partes deles, localização de pontos correspondentes e detecção de itens em 3D.
Fonte: Olhardigital