同济子豪兄-vlm_arm:机械臂+大模型+多模态=人机协作具身智能体

2024年8月5日 单位
同济子豪兄-vlm_arm:机械臂+大模型+多模态=人机协作具身智能体
郝彦飞

机械臂接入GPT4o大模型,秒变多模态AI贾维斯

通过语音指令,让机械臂指哪打哪。听人话、看图像、找坐标、排动作、定格式

智能体Agent编排动作,多模态视觉大模型理解图像

最后通过手眼标定和逆运动学解算,依次完成动作

具身智能体Agent,让机器能理解人类的复杂指令,实现人机协作


源代码:https://github.com/TommyZihao/vlm_arm

机械臂:大象机器人Mycobot 280 Pi

开发环境:树莓派4B、Ubuntu 20.04

语音识别:百度AppBuilder-SDK短语音识别(极速版)

语音合成:百度AppBuilder-SDK短文本在线合成(TTS)

大语言模型:Yi-Large、Claude 3、ERNIE 4.0

多模态视觉语言大模型:GPT4o、Yi-Vision、Claude 3 Opus、Qwen-VL、CogVLM2、InternVL、Grounding DINO


开源地址:https://github.com/TommyZihao/vlm_arm?tab=readme-ov-file

相关文章:https://www.bilibili.com/video/BV18w4m1U7Fi/?vd_source=94bf943a9c6073d84d735c85f845c372

https://www.bilibili.com/video/BV1Cn4y1R7V2/?vd_source=94bf943a9c6073d84d735c85f845c372


其他参考方案:https://www.bilibili.com/video/BV1gF4m1F7xQ/?spm_id_from=333.788.recommend_more_video.-1&vd_source=94bf943a9c6073d84d735c85f845c372