CapsWriter-Offline(更多详情可访问作者项目地址)是一款完全免费开源的离线语音输入神器,无需联网即可实现低延迟、高精度的可视化语音识别。它基于一个陈旧的开源项目,通过 Python 重新开发,在原有基础上进行了深度改造与功能升级,新增了实用的热键操作、智能声音提示、云端剪贴板功能、语音翻译模块,同时优化了 GUI 图形设置界面,升级了标点符号与语音识别引擎。
这款软件完美替代那些需要联网调用API 或付费使用的语音输入工具,不仅界面简洁直观,无需注册登录,功能完全开放,而且支持离线翻译。无论是会议记录,还是在各类带有输入框的软件(如文档编辑、游戏聊天窗口等)中,都能轻松解决频繁切换中英文输入法的烦恼。该软件支持 CPU 处理,同时兼容 Cuda 加速,适配 Win10 至 Win11 系统,近期已完成更新,有需要的用户可以下载体验。软件特性:离线高效输入:支持完全离线运行,无使用时长限制。在高性能CPU 上实现低延迟、高准确率输入,支持中英混合输入与简繁体自由切换,可自动识别阿拉伯数字、调整中英间距并添加标点,无需额外复制粘贴操作。
多语种智能交互:搭载中、粤、英、日、韩等多语言识别引擎,较传统Whisper 识别效果更佳。输入时,光标处麦克风实时显示录音状态,完成识别后以声音提示输出结果。
双模式翻译输出:提供离线翻译与DeepLX 在线翻译两种模式,自动将识别语音转为目标语言并直接输出,满足不同场景需求。
沉浸式录音体验:采用防干扰设计,开启录音后自动静音系统其他音频,减少环境干扰,保障语音输入的纯净度与专注度。
云端便捷管理:支持录音文本按日期或关键词自动分类存档,识别内容可秒传至云剪贴板,兼容iOS 设备分享,实现跨平台高效协作。
音视频转录利器:将音视频文件拖至客户端,即可快速生成srt、txt 等通用字幕文件,满足会议纪要、视频字幕制作等多种需求。
个性化词汇扩展:可通过编辑hot-en.txt、hot-zh.txt 等文本文件,自定义添加热词与关键词规则,客户端自动加载,优化特定词汇识别效果。
灵活部署配置:默认支持客户端随服务端自动启动,支持多开操作,适配多客户端协同使用,满足团队或多场景应用需求。
以上功能均可在可视化设置界面或py 配置文件中自由定制,打造专属语音输入体验。
使用说明:详细完整说明教程请戳> >
https://github.com/H1DDENADM1N/CapsWriter-Offline?tab=readme-ov-file#-%E7%89%B9%E6%80%A7
以下仅作简明版扼要:1. 为方便用户快速上手,特别提供一键整合的懒人包版本,开箱即可使用。该版本已集成所有必要组件,无需繁琐的 py 部署操作(与项目拆分版本需手动合并不同)。解压前请暂时关闭杀毒软件及 Windows 防火墙,避免误删文件。
解压后,双击start_server_gui.exe启动服务端,等待系统自动加载 py 依赖环境和标点语音引擎。当界面底部出现 “连接成功” 提示时,即可开始使用,加载时长因电脑配置而异。
软件默认设置为长按Caps Lock键激活麦克风录音,松开即完成语音识别并输入文字。若剪贴板有历史粘贴记录,可随意复制任一文件进行清空。服务端与客户端均设有系统托盘图标,右键点击 “QUIT” 即可退出程序。
---------------------------------------------------------------------------------------------------------------------------
2. 基础快捷键操作指南(默认配置,使用前请排查按键冲突)
Caps Lock:按住开始录音,松开即刻识别语音并输入文字,操作类似语音聊天。
Left Shift + Caps Lock:语音识别后,自动进行离线英文翻译并输入结果。
Right Shift + Caps Lock:识别后启用在线翻译(默认翻译为日文),完成后直接输入译文。
双击CapsLock:快速切换简体、繁体中文语音输入模式。
长按CapsLock:恢复传统大写字母锁定功能。
Ctrl + Alt + P:选中中文文本,一键完成离线英文翻译并替换原文。
Ctrl + Alt + [:对选中的文本进行在线翻译,并直接替换为翻译内容。
Ctrl + Alt + F:调用Everything 工具,快速搜索选中的文字内容。
Ctrl + 鼠标滚轮:自由调整UI 界面文字大小,方便查看与操作。
拖放操作:将音视频文件拖至client 客户端窗口,自动生成 SRT 格式字幕。
云贴功能:点击云贴按钮,即可将文本框内容上传至云剪贴板,同步生成分享链接与二维码。
---------------------------------------------------------------------------------------------------------------------------
※若需要修改相关设置,请先双击运行edit_config_gui.exe,比如允许多开服务端、修改端口、自定义修改为不常用的按键录音、录制内音;或关掉长按模式换为单击前后两次形式(适合较长语音)等。修改完配置后建议直接长按保存服务/客户端 配置并重启服务端(可在系统托盘处右击服务端图标的“Restart Client”),否则已修改的配置并不会生效。【若有不确定的选项建议勿修改,免得产生未知bug 】
---------------------------------------------------------------------------------------------------------------------------
3. 开机自启设置方法(非必需,适合追求便捷的用户;若已修改配置或非首次使用,建议谨慎操作,也可通过系统或第三方工具实现自启)
首先,右键点击服务端程序start_server_gui.exe,创建其快捷方式。接着,打开文件资源管理器,将shell:startup命令复制到路径栏并回车,系统会自动跳转至启动文件夹。最后,将刚创建的快捷方式拖入该文件夹,即可实现开机时自动启动服务端与客户端。此外,还能在软件设置中开启自动最小化至系统托盘的功能,让使用更省心。
如下:
---------------------------------------------------------------------------------------------------------------------------
4. 当涉及人名同音字、数量词、网络热词等特殊词汇的识别时,需手动在 hot-rule.txt文件中添加对应规则,否则软件将按默认词库输出内容。
此外需注意,目录下的txt文件虽允许自由修改内容,但不推荐更改文件名。这些文件与已编译的 py 配置文件紧密关联,若无专业能力同步调整相关配置,随意重命名极易引发各类异常问题。
---------------------------------------------------------------------------------------------------------------------------
5. 使用时,只需将音视频文件拖拽至客户端程序 start_client_gui.exe,即可自动启动转录流程。需注意,该字幕转录功能依赖 server 服务端完成加载,若服务端未就绪,可能导致程序闪退或无法运行。
转录完成后,生成文件将自动保存在音视频源文件所在目录:
json 文件:精准记录每个字词的时间戳;
txt 文件:以分行形式呈现识别结果;
merge.txt 文件:输出带标点的完整文本段落;
srt 文件:通用字幕格式,支持导出至 PR 等剪辑软件进一步编辑。
若字幕存在细微误差,可直接修改txt文件内容,随后将修改后的 txt 文件拖入 client 客户端,系统会自动同步修正其余格式字幕文件。需说明,此功能为辅助特性,纯中文或英文内容的识别效果更佳,与专业字幕工具相比仍存在一定差距。
其余功能自行体验。。。
---------------------------------------------------------------------------------------------------------------------------
※已测 Win 10 LTSC 及Win 11 24H2 官方原版系统均可在飞行模式下离线正常使用并输出(如下,极限时长可自测,但其它精简类系统无法保证)~~~---------------------------------------------------------------------------------------------------------------------------
PS:
安全与隐私保障:本软件经火绒安全检测无拦截风险,代码完全公开透明。由于采用py 整合打包编译机制,可能导致部分杀毒软件误判报警。为确保本地化隐私安全及离线使用体验,软件安装包体积相对较大。若存疑虑,可在虚拟环境运行或通过抓包工具验证安全性,对此介意者请勿下载使用,或删除软件目录后选用其他工具。
性能影响因素:软件的处理效率与识别准确率受多种条件制约,包括设备CPU 性能(支持低配设备)、语音输入时长、语速快慢、环境噪音等。通常情况下,CPU 性能越高、音频时长越短、语速适中、语音清晰且语种常见时,处理速度与识别精度更佳,但存在一定波动;反之则效果会相应降低。
服务端界面:(可任意处右键菜单复制粘贴、全选、撤销等)
相关设置:(此处已改为不常用的insert [即Ins ] 键激活录音,均可自行开合任意选项)
参考原文:https://mp.weixin.qq.com/s/gjWS6CrnyIwDRt_lGIdhbw
轻轻一点就关注, 好运连连挡不住,点个关注吧。