同济子豪兄-vlm_arm：机械臂+大模型+多模态=人机协作具身智能体

2024年8月5日单位

郝彦飞

机械臂接入GPT4o大模型，秒变多模态AI贾维斯

通过语音指令，让机械臂指哪打哪。听人话、看图像、找坐标、排动作、定格式

智能体Agent编排动作，多模态视觉大模型理解图像

最后通过手眼标定和逆运动学解算，依次完成动作

具身智能体Agent，让机器能理解人类的复杂指令，实现人机协作

机械臂：大象机器人Mycobot 280 Pi

开发环境：树莓派4B、Ubuntu 20.04

语音识别：百度AppBuilder-SDK短语音识别（极速版）

语音合成：百度AppBuilder-SDK短文本在线合成（TTS）

大语言模型：Yi-Large、Claude 3、ERNIE 4.0

多模态视觉语言大模型：GPT4o、Yi-Vision、Claude 3 Opus、Qwen-VL、CogVLM2、InternVL、Grounding DINO

# 开源机器人