机械臂接入GPT4o大模型,秒变多模态AI贾维斯
通过语音指令,让机械臂指哪打哪。听人话、看图像、找坐标、排动作、定格式
智能体Agent编排动作,多模态视觉大模型理解图像
最后通过手眼标定和逆运动学解算,依次完成动作
具身智能体Agent,让机器能理解人类的复杂指令,实现人机协作
源代码:https://github.com/TommyZihao/vlm_arm
机械臂:大象机器人Mycobot 280 Pi
开发环境:树莓派4B、Ubuntu 20.04
语音识别:百度AppBuilder-SDK短语音识别(极速版)
语音合成:百度AppBuilder-SDK短文本在线合成(TTS)
大语言模型:Yi-Large、Claude 3、ERNIE 4.0
多模态视觉语言大模型:GPT4o、Yi-Vision、Claude 3 Opus、Qwen-VL、CogVLM2、InternVL、Grounding DINO
开源地址:https://github.com/TommyZihao/vlm_arm?tab=readme-ov-file
相关文章:https://www.bilibili.com/video/BV18w4m1U7Fi/?vd_source=94bf943a9c6073d84d735c85f845c372
https://www.bilibili.com/video/BV1Cn4y1R7V2/?vd_source=94bf943a9c6073d84d735c85f845c372