1、痛点
不知道大家最近有没有这种感觉:传统的文字搜索引擎(比如某度)越来越难用了。
平时想查点新的干货——比如“某某AI工具怎么使用”、“某某旅游指南”——搜出来的要么是满篇的营销号拼凑废话,要么是年代久远的过时水帖。
为什么?因为现在真正高价值的信息、一手的经验,全藏在 短视频里。短视频APP俨然已经成为了这个时代最高质量的知识载体。
但随之带来一些问题:
- 痛点一:部分视频信息密度低 有些视频,博主会在前面反复铺垫、循环的说一些废话,但是迟迟不到重点,在最后几分钟才会讲出核心内容,为了这 短短的几分钟核心内容,你不得不全程看完视频,时间成本极高。
- 痛点二:没法搜索 目前的搜索引擎对视频这种形式的不支持搜索,比如视频中有个核心观点很好,但是某度搜索是搜索不到的
- 痛点三:去我的收藏夹吃灰吧 因为提炼笔记太费时间,很多人会选择把这些有价值的视频点击收藏,然后心中默念一句:”去我的收藏夹吃灰吧”,假装自己以后肯定会去复看和整理笔记出来
既然现在 AI 这么火爆,既然我都给自己手搓了类似于贾维斯的钢铁侠管家“WeClaw”(也就是最近大火的“小龙虾”同款),那这种机械且耗时的“内容提纯”体力活,为什么不能让我的 AI 管家全权代劳呢?
2、成果展示
另外我还开发了1个桌面APP版本,可以独立使用,不需要对接”小龙虾”:
可以看到使用过程非常丝滑,我只需要把视频的分享链接发给AI助理,它就能调用我的工具进行:视频的下载、语音的提取、AI总结笔记,最后告诉我整个视频的核心内容是什么,大大提升了我的效率,再也不用去把又臭又长的视频完整看完后苦哈哈的做笔记了
3、揭秘黑科技
竞品分析: 市面上有一些类似的工具,但我去试用了下,它们的原理是对视频逐帧调用多模态大模型识别,然后进行总结,这个方式的缺点很明显就是费钱(费token),好处就是对视频类型不挑
我的目的是做笔记,那么对应的视频基本干货都在文字里,也就是说画面其实不重要,重点在视频中的音频
基于这个分析,我的思路就出来了:视频->抽取音频->转文字->大模型总结->输出结果,为此我硬核手搓了背后的核心引擎——VidNote。
核心能力:
先看下整个流程图

1、视频下载
我接入了强大的开源解析神器 yt-dlp,横跨全网 1000+ 个视频平台。只要是个链接,直接扔进去,它就能把视频/音频扒拉下来供后续处理,让你实现真正的“跨平台内容萃取”。
2、视频抽取音频 这边我借助强大的FFmpeg实现,视频文件(如 MP4)本质上是一个“打包的集装箱”,里面混合装载着独立的视频轨道和音频轨道。FFmpeg 的工作就是进行解封装(Demuxing),打开集装箱并将音视频流剥离开来。
3、音频转文字(ASR) 拿到纯净音频后,下一步就是通过 ASR(自动语音识别) 提取内容。为了保证极高的字词准确率,我选用了 OpenAI 开源的强大模型——Whisper。
Whisper 经过了海量多语种数据的训练,不仅能精准识别不同语言,更能结合上下文语境进行理解。工作时,它会将音频分割成小段切片,利用底层的深度神经网络提取声学特征,再将其精准转化为文字。
这边也说明下为啥选Whisper,因为它是本地模型不要钱,百度等云服务器厂商虽然也提供ASR的API,但是需要付费使用
4、AI总结笔记 我们会把上一步取得的全部文稿喂给 AI(结合精心调优的 Prompt 提示词)。它能以一目十行的速度,瞬间读完一两个小时的视频内容,并精准提炼出核心大纲和关键知识点。
在这个过程中,AI 不仅会对口语化的表达去粗取精、润色纠错,还会按照完美的逻辑框架为你重新排版。最终输出的是一份脉络清晰、重点突出的 Markdown 结构化笔记,直接把咱们吸收新知识的效率拉满!
5、关键帧截图 光有纯文字怎么够?一篇完美的学习笔记,必须图文并茂。同样还是借助“老伙计” FFmpeg,程序会按照特定的时间间隔,或者智能侦测视频画面场景的分镜切换,从原本连续的视频流中精准抓取最具代表性的“关键帧”保存为高清图片。
最终,这些包含核心板书或重要画面的截图会像书签一样,与大模型精炼出的文本节点完美融合,帮你自动拼装成一份直观清爽的专属图文总结!
4、如何拥有它
桌面版 APP 的完整源码我们已经正式开源,并提交至 GitHub 仓库:https://github.com/gujiangfei1221/VidNote。大家可以按照 ReadMe 里的教程直接下载安装,体验“开箱即用”的快感!
目前项目正处于快速迭代的初期阶段。如果在下载部署或使用过程中遇到任何报错、环境配置问题,或者你有更炸裂的 Feature 想法,欢迎直接在 GitHub 提交 Issue,或者在下方评论区留言交流!😎
最后,如果你觉得这个“全自动数字笔记助理”项目真的对你有所启发或帮助,千万别忘了去 GitHub 帮我点上一颗宝贵的 Star ⭐️,这是对开源作者莫大的鼓励!赶快去试试,彻底解放你的双手吧!
5、洞见
最近网上开始流行”养龙虾”这个名词,也越来越火爆,好像不养个龙虾,就和AI时代脱节了
我觉得”养”这个字非常传神,不管是官方的OpenClaw还是我手搓的WeClaw,部署并不是难题,难点在于明确自己的痛点场景并调教openclaw,能自动化的完成这个场景,这才是核心,而这个识别场景、调教openclaw解决场景对使用者提出了产品、技术的两层要求
所以虽然”小龙虾”很火爆,但是大家需要对它有个清晰的认知。
最后,大家如果觉得我的文章对大家有帮助,欢迎大家关注我的公众号,我会持续分享一些我对AI工具的想法、实践
