看任何片，不论是欧美大片，还是国语经典，甚至是语言不可描述的影片，字幕都是不可缺少的一环。

过去看粤语片，其他地区听不懂觉得要个字幕很正常，但普通话为啥还要字幕呢？过去就很纳闷，但接触到的人越来越多，发现地域差异与方言影响，以及大家听觉感知的个体差异后，也能够慢慢理解了。

再有就是，部分朋友可能还会做做自媒体。字幕在自媒体时代的作用已经远不止“辅助听力”那么简单，它已经成为增强观众粘性、提升观看体验、甚至塑造内容风格的重要工具。如果你打算认真做自媒体视频，字幕一定要系统性规划，并且可以考虑早早引入一些自动化工具。

那咱们本期就来介绍这么一款🐮🍺的开源自动字幕生成工具，卡卡字幕助手（VideoCaptioner）。

68747470733a2f2f68312e617070696e6e2e6d652f66696c652f313733313438373431303137305f70726576696577312e706e67.png

这个项目其实去年年底就有群友发现并推荐，但当时测试体验感觉就是准确率高一些外也没啥别的特色。最近恰巧有位群友问，有没有那种影片的字幕生成工具。。。我一下子就给想起来了~时隔四个月的更新现在已经非常赞，因此来介绍给大家。

目前卡卡字幕有Windows客户端，也支持Docker一键部署超级轻量版（网页版限制视频大小200MB）。

项目介绍

卡卡字幕助手（VideoCaptioner）操作简单且无需高配置，支持网络调用和本地离线（支持调用GPU）两种方式进行语音识别，利用可用通过大语言模型（open Ollama DeepSeek等）进行字幕智能断句、校正、翻译，字幕视频全流程一键处理！为视频配上效果惊艳的字幕。

最新版本已经支持 VAD 、人声分离、字级时间戳批量字幕等实用功能

🎯 无需GPU即可使用强大的语音识别引擎，生成精准字幕
✂️ 基于 LLM 的智能分割与断句，字幕阅读更自然流畅
🔄 AI字幕多线程优化与翻译，调整字幕格式、表达更地道专业
🎬 支持批量视频字幕合成，提升处理效率
📝 直观的字幕编辑查看界面，支持实时预览和快捷编辑
🤖 消耗模型 Token 少，且内置基础 LLM 模型，保证开箱即用

Windows端

打开GHUB，搜索VideoCaptioner。

截屏2025-04-09 15.19.32.png

项目主页，点击下图箭头所示。

截屏2025-04-09 15.20.32.png

作者提拱了蓝奏云和直接下载，根据自己的情况哪个快用哪个。

截屏2025-04-09 15.21.36.png

下载完毕后安装即可。

功能眼花缭乱，使用前可以先配置大模型，主流的Ai都已经支持，包括DeepSeek。

屏幕截图 2025-04-09 160132.png

支持全自动一条龙：视频语音识别-生成字幕-字幕翻译-自动合成视频。我们也可以不选一条龙，手动对字幕先行校对以获得更好的最终效果。

第二个文件是语音识别提取的字幕文件，第三个文件是翻译后的字幕文件，第四个是自动合成字幕的成品视频。完全OK。

如果想要调整字幕的格式，样式，可以到字幕样式排布部分进行单独设计。

Docker部署和使用

Docker版本轻量，可以应急用用来提取中英文字幕以及进行多语言字幕翻译，完整体验建议还是下载Windows客户端。

以威联通NAS为例，通过Docker Compose一键部署。

services:
  video-captioner:  
    image: ywsj/video-captioner
    container_name: video-captioner
    ports:
      - "8501:8501"  
    volumes:
      - /share/Container/video-captioner/temp:/app/temp  
    environment:
 
    restart: always

环境变量这俩可以自行补上。