1、痛点

不知道大家最近有没有这种感觉：传统的文字搜索引擎（比如某度）越来越难用了。

平时想查点新的干货——比如“某某AI工具怎么使用”、“某某旅游指南”——搜出来的要么是满篇的营销号拼凑废话，要么是年代久远的过时水帖。

为什么？因为现在真正高价值的信息、一手的经验，全藏在 短视频里。短视频APP俨然已经成为了这个时代最高质量的知识载体。

但随之带来一些问题：

痛点一：部分视频信息密度低 有些视频，博主会在前面反复铺垫、循环的说一些废话，但是迟迟不到重点，在最后几分钟才会讲出核心内容，为了这短短的几分钟核心内容，你不得不全程看完视频，时间成本极高。
痛点二：没法搜索 目前的搜索引擎对视频这种形式的不支持搜索，比如视频中有个核心观点很好，但是某度搜索是搜索不到的
痛点三：去我的收藏夹吃灰吧 因为提炼笔记太费时间，很多人会选择把这些有价值的视频点击收藏，然后心中默念一句：”去我的收藏夹吃灰吧”，假装自己以后肯定会去复看和整理笔记出来

既然现在 AI 这么火爆，既然我都给自己手搓了类似于贾维斯的钢铁侠管家“WeClaw”（也就是最近大火的“小龙虾”同款），那这种机械且耗时的“内容提纯”体力活，为什么不能让我的 AI 管家全权代劳呢？

2、成果展示

另外我还开发了1个桌面APP版本，可以独立使用，不需要对接”小龙虾”：

可以看到使用过程非常丝滑，我只需要把视频的分享链接发给AI助理，它就能调用我的工具进行：视频的下载、语音的提取、AI总结笔记，最后告诉我整个视频的核心内容是什么，大大提升了我的效率，再也不用去把又臭又长的视频完整看完后苦哈哈的做笔记了

竞品分析： 市面上有一些类似的工具，但我去试用了下，它们的原理是对视频逐帧调用多模态大模型识别，然后进行总结，这个方式的缺点很明显就是费钱（费token），好处就是对视频类型不挑

我的目的是做笔记，那么对应的视频基本干货都在文字里，也就是说画面其实不重要，重点在视频中的音频

基于这个分析，我的思路就出来了：视频->抽取音频->转文字->大模型总结->输出结果，为此我硬核手搓了背后的核心引擎——VidNote。

核心能力： 先看下整个流程图无标题-2026-03-06-2059.png

1、视频下载 我接入了强大的开源解析神器 yt-dlp，横跨全网 1000+ 个视频平台。只要是个链接，直接扔进去，它就能把视频/音频扒拉下来供后续处理，让你实现真正的“跨平台内容萃取”。

2、视频抽取音频 这边我借助强大的FFmpeg实现，视频文件（如 MP4）本质上是一个“打包的集装箱”，里面混合装载着独立的视频轨道和音频轨道。FFmpeg 的工作就是进行解封装（Demuxing），打开集装箱并将音视频流剥离开来。

3、音频转文字（ASR) 拿到纯净音频后，下一步就是通过 ASR（自动语音识别） 提取内容。为了保证极高的字词准确率，我选用了 OpenAI 开源的强大模型——Whisper。

Whisper 经过了海量多语种数据的训练，不仅能精准识别不同语言，更能结合上下文语境进行理解。工作时，它会将音频分割成小段切片，利用底层的深度神经网络提取声学特征，再将其精准转化为文字。

这边也说明下为啥选Whisper，因为它是本地模型不要钱，百度等云服务器厂商虽然也提供ASR的API，但是需要付费使用

4、AI总结笔记 我们会把上一步取得的全部文稿喂给 AI（结合精心调优的 Prompt 提示词）。它能以一目十行的速度，瞬间读完一两个小时的视频内容，并精准提炼出核心大纲和关键知识点。

在这个过程中，AI 不仅会对口语化的表达去粗取精、润色纠错，还会按照完美的逻辑框架为你重新排版。最终输出的是一份脉络清晰、重点突出的 Markdown 结构化笔记，直接把咱们吸收新知识的效率拉满！

5、关键帧截图 光有纯文字怎么够？一篇完美的学习笔记，必须图文并茂。同样还是借助“老伙计” FFmpeg，程序会按照特定的时间间隔，或者智能侦测视频画面场景的分镜切换，从原本连续的视频流中精准抓取最具代表性的“关键帧”保存为高清图片。

最终，这些包含核心板书或重要画面的截图会像书签一样，与大模型精炼出的文本节点完美融合，帮你自动拼装成一份直观清爽的专属图文总结！

桌面版 APP 的完整源码我们已经正式开源，并提交至 GitHub 仓库：https://github.com/gujiangfei1221/VidNote。大家可以按照 ReadMe 里的教程直接下载安装，体验“开箱即用”的快感！

目前项目正处于快速迭代的初期阶段。如果在下载部署或使用过程中遇到任何报错、环境配置问题，或者你有更炸裂的 Feature 想法，欢迎直接在 GitHub 提交 Issue，或者在下方评论区留言交流！😎

最后，如果你觉得这个“全自动数字笔记助理”项目真的对你有所启发或帮助，千万别忘了去 GitHub 帮我点上一颗宝贵的 Star ⭐️，这是对开源作者莫大的鼓励！赶快去试试，彻底解放你的双手吧！

最近网上开始流行”养龙虾”这个名词，也越来越火爆，好像不养个龙虾，就和AI时代脱节了

我觉得”养”这个字非常传神，不管是官方的OpenClaw还是我手搓的WeClaw，部署并不是难题，难点在于明确自己的痛点场景并调教openclaw，能自动化的完成这个场景，这才是核心，而这个识别场景、调教openclaw解决场景对使用者提出了产品、技术的两层要求

所以虽然”小龙虾”很火爆，但是大家需要对它有个清晰的认知。

最后，大家如果觉得我的文章对大家有帮助，欢迎大家关注我的公众号，我会持续分享一些我对AI工具的想法、实践