侧边栏壁纸
博主头像
是羊刀仙啊博主等级

闲不下来!

  • 累计撰写 138 篇文章
  • 累计创建 41 个标签
  • 累计收到 1 条评论

目 录CONTENT

文章目录

她说的每一句我都听懂了🥰,AI自动字幕全流程工具:卡卡字幕助手

羊刀仙
2025-04-09 / 0 评论 / 0 点赞 / 24 阅读 / 4027 字 / 正在检测是否收录...
温馨提示:
本文最后更新于 2025-04-09,若内容或图片失效,请留言反馈。部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

看任何片,不论是欧美大片,还是国语经典,甚至是语言不可描述的影片,字幕都是不可缺少的一环。

过去看粤语片,其他地区听不懂觉得要个字幕很正常,但普通话为啥还要字幕呢?过去就很纳闷,但接触到的人越来越多,发现地域差异与方言影响,以及大家听觉感知的个体差异后,也能够慢慢理解了。

再有就是,部分朋友可能还会做做自媒体。字幕在自媒体时代的作用已经远不止“辅助听力”那么简单,它已经成为增强观众粘性、提升观看体验、甚至塑造内容风格的重要工具。如果你打算认真做自媒体视频,字幕一定要系统性规划,并且可以考虑早早引入一些自动化工具。

那咱们本期就来介绍这么一款🐮🍺的开源自动字幕生成工具,卡卡字幕助手(VideoCaptioner)。

68747470733a2f2f68312e617070696e6e2e6d652f66696c652f313733313438373431303137305f70726576696577312e706e67.png

这个项目其实去年年底就有群友发现并推荐,但当时测试体验感觉就是准确率高一些外也没啥别的特色。最近恰巧有位群友问,有没有那种影片的字幕生成工具。。。我一下子就给想起来了~时隔四个月的更新现在已经非常赞,因此来介绍给大家。

目前卡卡字幕有Windows客户端,也支持Docker一键部署超级轻量版(网页版限制视频大小200MB)。

项目介绍

卡卡字幕助手(VideoCaptioner)操作简单且无需高配置,支持网络调用和本地离线(支持调用GPU)两种方式进行语音识别,利用可用通过大语言模型(open Ollama DeepSeek等 )进行字幕智能断句、校正、翻译,字幕视频全流程一键处理!为视频配上效果惊艳的字幕。

最新版本已经支持 VAD 、 人声分离、 字级时间戳 批量字幕等实用功能

🎯 无需GPU即可使用强大的语音识别引擎,生成精准字幕
✂️ 基于 LLM 的智能分割与断句,字幕阅读更自然流畅
🔄 AI字幕多线程优化与翻译,调整字幕格式、表达更地道专业
🎬 支持批量视频字幕合成,提升处理效率
📝 直观的字幕编辑查看界面,支持实时预览和快捷编辑
🤖 消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用

Windows端

打开GHUB,搜索VideoCaptioner

截屏2025-04-09 15.19.32.png

项目主页,点击下图箭头所示。

截屏2025-04-09 15.20.32.png

作者提拱了蓝奏云和直接下载,根据自己的情况哪个快用哪个。

截屏2025-04-09 15.21.36.png

下载完毕后安装即可。

功能眼花缭乱,使用前可以先配置大模型,主流的Ai都已经支持,包括DeepSeek。

屏幕截图 2025-04-09 160132.png
QQ20250409-160205.png

支持全自动一条龙:视频语音识别-生成字幕-字幕翻译-自动合成视频。我们也可以不选一条龙,手动对字幕先行校对以获得更好的最终效果。

QQ20250409-162710.png

第二个文件是语音识别提取的字幕文件,第三个文件是翻译后的字幕文件,第四个是自动合成字幕的成品视频。完全OK。

QQ20250409-165657.png

如果想要调整字幕的格式,样式,可以到字幕样式排布部分进行单独设计。

QQ20250409-165932.png

Docker部署和使用

Docker版本轻量,可以应急用用来提取中英文字幕以及进行多语言字幕翻译,完整体验建议还是下载Windows客户端。

以威联通NAS为例,通过Docker Compose一键部署。

services:
  video-captioner:  
    image: ywsj/video-captioner
    container_name: video-captioner
    ports:
      - "8501:8501"  
    volumes:
      - /share/Container/video-captioner/temp:/app/temp  
    environment:
 
    restart: always

环境变量这俩可以自行补上。

QQ20250409-151709.png

截屏2025-04-08 17.43.24.png

如上文,web输入NAS_IP:8501即可访问服务。

截屏2025-04-08 17.53.17.png

支持大部分的视频格式。

找了一个著名人士演讲系列视频,上传上去,等待提示上传成功。点击开始识别。

截屏2025-04-09 14.44.47.png

能够自动分段,支持字数统计,可根据单词定位进度条。

截屏2025-04-09 14.45.43.png

上面导出字幕后,可以直接用第二个功能进行字幕翻译成我们的母语。

截屏2025-04-09 14.50.41.png

目前翻译支持英语、简体中文、繁体中文、日本語、韩语、粤语、法语、德语、西班牙语、俄语、土耳其语、葡萄牙语。注意,是字幕翻译,字幕识别就中英文好用。

又测试了一段霉霉采访。

截屏2025-04-09 15.08.26 拷贝.png

中文普通话测试也没问题,带点地方口音也都能准确识别,但是像那种鬼畜魔音就不行啦。

截屏2025-04-09 15.44.41.png

总体的准确率还可以,为了提升准确率,有条件的可以补充上那两个环境变量。

0

评论区