Cientistas da Universidade de Shanghai Jiao Tong e da Academia Chinesa de Ciências desenvolveram o EyeVLA, um dispositivo inovador que simula um "globo ocular robótico" capaz de proporcionar visão ativa a sistemas de Inteligência Artificial Incorporada. Essa tecnologia, apresentada recentemente, visa permitir que robôs e máquinas inteligentes interajam de forma mais eficiente com o mundo ao seu redor.
O EyeVLA se destaca por sua capacidade de girar o ponto de vista, ajustar o zoom e coletar imagens de maneira dinâmica, aproximando os robôs da forma humana de explorar ambientes. A pesquisa surgiu para enfrentar a limitação existente nas câmeras RGB-D fixas, que dificultam a combinação de um amplo campo de visão com detalhes finos em uma única cena.
O novo sistema supera a abordagem tradicional de percepção robótica, que é predominantemente passiva e depende de imagens estáticas. Ao contrário disso, o EyeVLA adota um modelo de visão ativa, guiado pela linguagem, permitindo que o robô decida qual aspecto do ambiente deve ser observado em seguida, com o intuito de reduzir incertezas durante suas tarefas. Essa abordagem unifica visão, linguagem e controle de câmera, proporcionando um fluxo de decisão mais eficiente.
No que diz respeito ao funcionamento do EyeVLA, o sistema utiliza um suporte pan-tilt 2D e uma câmera com zoom, com movimentos sendo convertidos em pequenos tokens que ajustam a visão de forma precisa. Além disso, a implementação do algoritmo Qwen2.5-VL possibilita que a visão e as ações sejam modeladas de maneira integrada, resultando em uma representação mais compacta e eficaz das operações realizadas pelo robô.
Apesar dos avanços, a tecnologia ainda enfrenta desafios em termos de demanda computacional e limitações de hardware, que dificultam sua aplicação em tempo real. Entretanto, o EyeVLA representa um importante passo na evolução dos robôs, permitindo-lhes decidir melhor como observar seus ambientes, não se limitando apenas a interpretar o que veem.







