郝彦飞 LiveKit Agent+ OpenAI Realtime:实时语音GPT-4O的开源实现,本地化运行OpenAi的Realtime API,可实现实时AI电话、浏览器或app的实时AI语音交互 官网地址: https://docs.livekit.io/agents/ 源码地址: https://github.com/livekit/agents 视频介绍: https://www.youtube.com/watch?v=L42ZLe59v8Y... 底层工具 开源Apache-2.0 license
郝彦飞 WiLoR: 实时的高精度手部3D重建与追踪 代码: https://github.com/rolpotamias/WiLoR 项目主页: https://rolpotamias.github.io/WiLoR/... 底层技术 开源
郝彦飞 NocoDB:一个开源的 Airtable 替代品。 NocoDB 通过连接到任何关系数据库并将它们转换为智能电子表格界面来工作!这允许你与团队协作构建无代码应用程序。NocoDB 目前适用于 MySQL、PostgreSQL、Microsoft SQL Server、SQLite、Amazon Aurora 和 MariaDB 数据库。 此外,NocoDB 的应用程序商店还允许你结合 Slack、Microsoft Teams、Discord、Tw... AGPL-3.0开源 底层工具 数据处理
郝彦飞 VideoLingo:Netflix级字幕切割、翻译、对齐、甚至加上配音,一键全自动视频搬运AI字幕组 官网: https://videolingo.io/ 源码地址: https://github.com/Huanshere/VideoLingo... 底层工具 开源Apache-2.0 license 视频处理
郝彦飞 GenAI Agents:涵盖16种场景的agents,包含AI数据分析、AI生成动画gif、AI生成音乐、AI论文评分 This repository provides tutorials and implementations for various Generative AI Agent techniques, from basic to advanced. It serves as a comprehensive guide for building intelligent, interactive AI s... AI Agent 应用场景 开源
郝彦飞 EasySpider:一个可视化浏览器自动化测试/数据采集/爬虫软件 A visual no-code/code-free web crawler/spider易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。 官网: https://www.easyspider.net/ 视频介绍: https://www.bilibili.com/video/BV1... 底层工具 开源 爬虫
郝彦飞 notebooklm:谷歌推出的人工智能笔记本电脑 NotebookLM,是2023年谷歌发布的一个实验性产品,由Google 实验室的一个小团队构建,旨在利用语言模型的强大功能和前景与现有内容相结合,更快地获得关键见解。将其视为虚拟研究助理,可以总结事实、解释复杂的想法并集思广益新的联系。2024年,NotebookLM再度升级,采用全新Gemini 1.5 Pro模型,实现类似语音助手的音频功能,分析材料,并可以用自然理解能力解释它,甚至回答问... RAG 非开源
郝彦飞 SuperMemory:你的私人智能书签助手! Build your own second brain with supermemory. It's a ChatGPT for your bookmarks. Import tweets or save websites and content using the chrome extension. What is this? Build your own second brain with s... MIT开源 RAG 底层工具
郝彦飞 MinerU:一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。 MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 主要功能 删除页眉、页脚、脚注、页码等元素,保持语义连贯 对多栏输出符合人类阅读顺序的文本 保留原文档的结构,包括标题、段落、列表等 提取图像、图片标题、表格、表格标题 自动识别文档中的公式并将公式转换成latex 自动识别文档中的表格并将表格转换成latex 乱码PDF自动检测并启用... AGPL-3.0开源 信息挖掘 底层工具
郝彦飞 同济子豪兄-vlm_arm:机械臂+大模型+多模态=人机协作具身智能体 机械臂接入GPT4o大模型,秒变多模态AI贾维斯 通过语音指令,让机械臂指哪打哪。听人话、看图像、找坐标、排动作、定格式 智能体Agent编排动作,多模态视觉大模型理解图像 最后通过手眼标定和逆运动学解算,依次完成动作 具身智能体Agent,让机器能理解人类的复杂指令,实现人机协作 源代码: https://github.com/TommyZihao/vlm_arm 机械臂:大象机器人Mycobo... 开源 机器人
郝彦飞 IoA:AI Agent的互联网时代来临,面壁智能发布agent协同协议 Imagine if AI agents could collaborate like humans do on the internet. That's the idea behind Internet of Agents (IoA)! It's an open-source framework that aims to create a platform where diverse AI ag... AI Agent 开源 面壁智能
郝彦飞 AgentScope:阿里发布开源可视化构建workflow的agent开源框架,可视化实现多体agent的构建 源码地址: https://github.com/modelscope/agentscope 文档地址: https://modelscope.github.io/agentscope/en/index.html 参考教程: AgentScope:阿里发布开源可视化构建workflow的agent开源框架,可视化实现多体agent的构建... AI Agent 开源 阿里