让“小龙虾”替你看视频做笔记!丢个视频链接,自动生成图文总结

gujiangfei 于 2026-03-15 发布

1、痛点

不知道大家最近有没有这种感觉:传统的文字搜索引擎(比如某度)越来越难用了。

平时想查点新的干货——比如“某某AI工具怎么使用”、“某某旅游指南”——搜出来的要么是满篇的营销号拼凑废话,要么是年代久远的过时水帖。

为什么?因为现在真正高价值的信息、一手的经验,全藏在 短视频里。短视频APP俨然已经成为了这个时代最高质量的知识载体。

但随之带来一些问题:

既然现在 AI 这么火爆,既然我都给自己手搓了类似于贾维斯的钢铁侠管家“WeClaw”(也就是最近大火的“小龙虾”同款),那这种机械且耗时的“内容提纯”体力活,为什么不能让我的 AI 管家全权代劳呢?

2、成果展示

另外我还开发了1个桌面APP版本,可以独立使用,不需要对接”小龙虾”:

可以看到使用过程非常丝滑,我只需要把视频的分享链接发给AI助理,它就能调用我的工具进行:视频的下载、语音的提取、AI总结笔记,最后告诉我整个视频的核心内容是什么,大大提升了我的效率,再也不用去把又臭又长的视频完整看完后苦哈哈的做笔记了

3、揭秘黑科技

竞品分析: 市面上有一些类似的工具,但我去试用了下,它们的原理是对视频逐帧调用多模态大模型识别,然后进行总结,这个方式的缺点很明显就是费钱(费token),好处就是对视频类型不挑

我的目的是做笔记,那么对应的视频基本干货都在文字里,也就是说画面其实不重要,重点在视频中的音频

基于这个分析,我的思路就出来了:视频->抽取音频->转文字->大模型总结->输出结果,为此我硬核手搓了背后的核心引擎——VidNote

核心能力: 先看下整个流程图 无标题-2026-03-06-2059.png

1、视频下载 我接入了强大的开源解析神器 yt-dlp,横跨全网 1000+ 个视频平台。只要是个链接,直接扔进去,它就能把视频/音频扒拉下来供后续处理,让你实现真正的“跨平台内容萃取”。

2、视频抽取音频 这边我借助强大的FFmpeg实现,视频文件(如 MP4)本质上是一个“打包的集装箱”,里面混合装载着独立的视频轨道和音频轨道。FFmpeg 的工作就是进行解封装(Demuxing),打开集装箱并将音视频流剥离开来。

3、音频转文字(ASR) 拿到纯净音频后,下一步就是通过 ASR(自动语音识别) 提取内容。为了保证极高的字词准确率,我选用了 OpenAI 开源的强大模型——Whisper

Whisper 经过了海量多语种数据的训练,不仅能精准识别不同语言,更能结合上下文语境进行理解。工作时,它会将音频分割成小段切片,利用底层的深度神经网络提取声学特征,再将其精准转化为文字。

这边也说明下为啥选Whisper,因为它是本地模型不要钱,百度等云服务器厂商虽然也提供ASR的API,但是需要付费使用

4、AI总结笔记 我们会把上一步取得的全部文稿喂给 AI(结合精心调优的 Prompt 提示词)。它能以一目十行的速度,瞬间读完一两个小时的视频内容,并精准提炼出核心大纲和关键知识点。

在这个过程中,AI 不仅会对口语化的表达去粗取精、润色纠错,还会按照完美的逻辑框架为你重新排版。最终输出的是一份脉络清晰、重点突出的 Markdown 结构化笔记,直接把咱们吸收新知识的效率拉满!

5、关键帧截图 光有纯文字怎么够?一篇完美的学习笔记,必须图文并茂。同样还是借助“老伙计” FFmpeg,程序会按照特定的时间间隔,或者智能侦测视频画面场景的分镜切换,从原本连续的视频流中精准抓取最具代表性的“关键帧”保存为高清图片。

最终,这些包含核心板书或重要画面的截图会像书签一样,与大模型精炼出的文本节点完美融合,帮你自动拼装成一份直观清爽的专属图文总结!

4、如何拥有它

桌面版 APP 的完整源码我们已经正式开源,并提交至 GitHub 仓库:https://github.com/gujiangfei1221/VidNote。大家可以按照 ReadMe 里的教程直接下载安装,体验“开箱即用”的快感!

目前项目正处于快速迭代的初期阶段。如果在下载部署或使用过程中遇到任何报错、环境配置问题,或者你有更炸裂的 Feature 想法,欢迎直接在 GitHub 提交 Issue,或者在下方评论区留言交流!😎

最后,如果你觉得这个“全自动数字笔记助理”项目真的对你有所启发或帮助,千万别忘了去 GitHub 帮我点上一颗宝贵的 Star ⭐️,这是对开源作者莫大的鼓励!赶快去试试,彻底解放你的双手吧!

5、洞见

最近网上开始流行”养龙虾”这个名词,也越来越火爆,好像不养个龙虾,就和AI时代脱节了

我觉得”养”这个字非常传神,不管是官方的OpenClaw还是我手搓的WeClaw,部署并不是难题,难点在于明确自己的痛点场景调教openclaw,能自动化的完成这个场景,这才是核心,而这个识别场景、调教openclaw解决场景对使用者提出了产品、技术的两层要求

所以虽然”小龙虾”很火爆,但是大家需要对它有个清晰的认知。

最后,大家如果觉得我的文章对大家有帮助,欢迎大家关注我的公众号,我会持续分享一些我对AI工具的想法、实践 qrcode_for_gh_356e67a890f6_258.jpg