NV 宝盒
官方网站
更新日志
- 修复空间音效会导致NVDA退出后有残留进程;
- 优化CPU资源使用;
- 适配最新NVDA开发板。
简介
本插件为 NVDA 添加了验证码识别、OCR识别、天气/股票/基金/汇率查询、聊天问答、离线实时翻译、UI代理、与AI语音通话、安卓设备辅助、讯飞离线语音,VVTTS语音、对象监视、空间音效、以及腾讯 QQ、微信、YY 语音的增强支持等功能。
说明
聊天问答
- 使用 NVDA + z打开虚拟菜单,左右光标找到大模型能力,上下光标找到聊天问答选项回车,或者直接按字母 C;
- 当打开了聊天问答对话框后,TAB可以在每一个控件中切换;
- 默认停留在"请输入消息"的编辑框,在这里输入询问内容;
- "关联上下文"组合框,这边可以选择已经询问过的对话,找到某个对话可以继续交流,也可以用删除键删除;
- "发送"按钮,点击可以发送消息;
- "消息记录"编辑框,这里可以查看与机器人对话的聊天记录。
离线实时翻译
- 使用 NVDA + z打开虚拟菜单,左右光标找到大模型能力,上下光标找到实时翻译选项回车,或者直接按字母 T;
- 此选项是一个开关,可以在“英译中”、“中译英”和“关闭”三个状态中循环切换;
- 首次使用会弹出下载模型的对话框,需要点击下载后才能使用,模型文件较大,下载请耐心等候;
- 下载模型过程中有可能失败,如果遇到此情况,可以在对话框中导入本地的模型(可从其他分发来源获得);
UI代理
- 使用 NVDA + z打开虚拟菜单,左右光标找到大模型能力,上下光标找到UI代理选项回车,或者直接按字母 U;
- 在对话框中,输入您想运行的任务,例如“请帮我关闭所有打开的窗口”或“请帮我在浏览器中搜索2025年最新的歌曲”等;
- 按下回车键或点击“提交”按钮;
- 此时模型将可以理解您的需求并完全接管你的电脑,他将有完整的操控权限;
- 如果你发现他操作的东西并不符合你的需要,或者你想要让他停止,你可以随时按下NVDA+Esc键。
与AI语音通话
- 前置条件,需要有麦克风设备;
- 使用 NVDA + z打开虚拟菜单,左右光标找到大模型能力,上下光标找到与AI语音通话选项回车,或者直接按字母 V;
- 语音通话功能启动后,他将实时感知你电脑的屏幕,你可以随时询问关于屏幕上显示的信息;
- 除了屏幕上的信息,你也可以和他聊天,让他帮你进行网络搜索等。
NV 宝盒语音合成器
- 语音合成器支持讯飞离线语音和VVTTS语音。
- 支持播放加倍功能。
- 多语音规则:
- 3.1 多语音规则可以让某个语音角色朗读特定内容,例如让某个语音库朗读手机号的时候使用清晰的小燕语音,除此之外就使用VVTTS;
- 3.2 多语音至少有一个语音,也就是默认的语音规则,可以朗读所有其他规则无法朗读的文本,参数是通过 NVDA 设置中的语音分类调节的;
- 3.3 管理除默认规则之外的规则,可以按 NVDA+N 打开菜单,选择"选项"回车,然后找到"NV 宝盒语音合成器设置..."回车打开管理器对话框;
- 3.4 在对话框上找到"添加语音规则"按钮并使用空格激活,在弹出的对话框中找到"名称"编辑框,输入规则名称(使用英文,例如a),TAB找到"正则"编辑框,输入一个正则表达式(例如\d+),然后点击确定;
- 3.5 返回到了管理器对话框,在这里可以调节刚刚我们新增的a规则,可以调节语音、音量、语速等参数,然后我们点击确定;
- 3.6 这个时候读屏遇到任何数字都会用你新增的a规则语音进行朗读了;
- 3.7 如果想要删除这个规则,还是来到刚才的对话框,在"规则"组合框中选择a,TAB找到"删除语音规则"按钮空格激活,然后点击确定;
- 3.8 常用的正则表达式:
- "[A-Za-z_]+"匹配任何英文字母;
- "\d+"匹配任何数字;
- "1[3456789]\d{9}"匹配任何手机号;
- "".+?""匹配任何使用双引号包裹的内容……
- 3.9 更多的正则表达式用法可以参考菜鸟教程: 这里。
nvtts 功能
- 场景:
- windows 11 子系统,语音库与 NVDA 语音完美结合;
- 抖音做直播,不想让大家听到自己读屏声音;
- 应该还有其他用处,暂时没想到。
- 开启条件:必须已经连接安卓设备,然后按 NVDA + z打开虚拟菜单,左右光标找到关于宝盒,上下光标找到宝盒设置选项回车,或者直接在菜单上按快捷键 F12,点击"安装 NVTTS 服务端到手机"按钮。
- 启用服务端:安装好服务端后会自动在安卓设备上打开 nvtts 的界面,我们点击文本转语音,然后将系统的首选语音改成 nvtts。
- 然后我们按 NVDA + z 打开虚拟菜单,左右光标找到综合功能,选择nvtts开关,或者直接按快捷键 T,没有特殊情况就可以连接成功,安卓设备的语音会用 nvda 输出了。
- 仍然选择第 4 步骤的菜单,我们再次点击就可以断开,这样安卓设备的语音将不会用 nvda 输出了。
QQ 增强
- 支持 QQ 内嵌网页的导航,操作与 Chrome 一致,支持单件导航,具体涵盖以下场景:
- 群文件;
- 精华消息;
- 群投票;
- 空间动态;
- 验证消息;
- 群公告(包括弹窗正文阅读);
- 其他网页应用;
- 输入框的兼容支持(若您已安装"QQ输入框补丁"插件请先卸载,因本插件已包含其所有功能)
- 输入框的 / 表情输入支持,使用该功能请先在 QQ 消息输入框按下 Application 键并选中"使用快捷键输入表情(&U)",随后 按下 /("斜杠")即可上下光标选择相应表情。
- 目前已支持 270 多个表情;
- 浏览到的表情回车即可填充到输入框,点击发送按钮即可发送。
- 会话窗口的 Ctrl + Tab 支持。
- 屏蔽了 QQ 下载群文件不停地朗读"更新时间"的问题。
YY 增强
- YY 9.0 及以上版本,打开频道后,光标会自动聚焦到内嵌网页,配合强大的网页浏览功能,频道里面的操作非常无障碍。
宝盒虚拟菜单
- 打开虚拟菜单的快捷键是 NVDA + z;
- 该快捷键可在 "NVDA 菜单" ➡ "选项" ➡ "按键与手势" ➡ "NV 宝盒"类别下更改;
- 接到一些反馈,虚拟菜单里面的功能乱七八糟,随着功能不断增加,就如同杂货铺,因此从2.3版本开始,虚拟菜单增加了功能分类,在菜单上左右光标可以切换不同的分类,上下光标选择项目。
打开宝盒设置
- 第一种方式,使用 NVDA + z打开虚拟菜单,左右光标找到关于宝盒,上下光标找到宝盒设置选项回车,或者直接按快捷键 F12。
- 第二种方式,按 NVDA + n打开 NVDA 的主菜单,下光标找到选项右光标展开,找到设置回车,在分类列表选择NV 宝盒。
验证码识别
- 使用 NVDA + z打开虚拟菜单,左右光标找到浏览对象识别,上下光标找到验证码选项回车,或者直接按字母 V。
- 对导航对象(默认情况下与键盘焦点同步)所在处进行截图并识别验证码。
OCR 文字识别
- 使用 NVDA + z打开虚拟菜单,左右光标找到浏览对象识别,上下光标找到文本选项回车,或者直接按字母 G。
- 对导航对象(默认情况下与键盘焦点同步)所在处进行截图并识别文字;
- 有讯飞印刷体识别、讯飞手写识别、讯飞通用文字识别、腾讯云通用文字识别,默认使用讯飞的印刷体识别器,可以在宝盒设置中更改默认的识别器。
物体图像识别
- 使用 NVDA + z打开虚拟菜单,左右光标找到浏览对象识别,上下光标找到物体选项回车,或者直接按字母 C。
- 对导航对象(默认情况下与键盘焦点同步)所在处进行截图并识别图像;
- 此功能是通用物体识别,包含2W类常见物体,例如当你浏览网页,购物网站、新闻网站、社交网站上有大量图片,如果你想知道图片上面是什么东西,就可以使用这个功能,但对于软件UI的按钮、编辑框这些就别折腾了,因为识别的结果也不是你想要的。。
场景图像识别
- 使用 NVDA + z打开虚拟菜单,左右光标找到浏览对象识别,上下光标找到场景选项回车,或者直接按字母 S。
- 对导航对象(默认情况下与键盘焦点同步)所在处进行截图并识别图像;
- 所谓的场景是有人类活动的一片广阔的区域或有意义的场面,例如卧室 客厅、纯人物图、市场 集市、草地 田地 花园、网吧 游戏厅 棋牌室等,可以使用这个功能对社交网站(例如微博、facebook、twitter、Instagram)上面用户发布的生活照片进行识别。
场所图像识别
- 使用 NVDA + z打开虚拟菜单,左右光标找到浏览对象识别,上下光标找到场所选项回车,或者直接按字母 P。
- 对导航对象(默认情况下与键盘焦点同步)所在处进行截图并识别图像。
- 所谓的场所是一个具有代表性的地点区域,可以是高层建筑,也可以是广阔的区域,例如航站楼、牧场、住宅、电梯/楼梯、公园/花园、舞台、建筑工地、拳击场等,可以使用这个功能对社交网站、搜索引擎上面的图片元素进行识别。
对导航对象截图
- 使用 NVDA + z打开虚拟菜单,左右光标找到综合功能,上下光标找到浏览对象截图到剪贴板选项回车,或者直接按快捷键 printscreen(截图键)。
- 对导航对象(默认情况下与键盘焦点同步)所在处进行截图。
- 应用场景: 方便网页下载图片,解决某些无显示器的电脑识别二维码等。
剪贴板图片识别
- 使用 NVDA + z打开虚拟菜单,左右光标找到综合功能,上下光标找到剪贴板图片识别选项回车,或者直接按快捷键 scrolllock(滚动锁定键)。
- 对剪贴板图片进行识别;
- 有讯飞印刷体识别、讯飞手写识别、讯飞通用文字识别、腾讯云通用文字识别,默认使用讯飞的印刷体识别器,可以在宝盒设置中更改默认的识别器。
剪贴板文字翻译
- 使用 NVDA + z打开虚拟菜单,左右光标找到综合功能,上下光标找到剪贴板翻译选项回车,或者直接按快捷键 f。
- 对剪贴板文字进行翻译;
- 有离线翻译和谷歌翻译,默认使用谷歌翻译引擎,可以在宝盒设置中更改默认的翻译引擎。
查看天气
- 使用 NVDA + z打开虚拟菜单,左右光标找到生活查询,上下光标找到天气选项回车,或者直接按字母 W。
- 查看的是实时天气情况,包含温度、湿度、风速、风向、污染和生活指数等信息。
查看基金
- 使用 NVDA + z打开虚拟菜单,左右光标找到生活查询,上下光标找到基金选项回车,或者直接按字母 X。
- 查看的是自己关注的基金信息。
查看股票
- 使用 NVDA + z打开虚拟菜单,左右光标找到生活查询,上下光标找到股票选项回车,或者直接按字母 Z。
- 查看的是自己关注的股票信息。
- 在对话框中您还可以直接与AI讨论(例如让他帮你分析K线图)。
查看汇率
- 使用 NVDA + z打开虚拟菜单,左右光标找到生活查询,上下光标找到汇率选项回车,或者直接按字母 E。
- 查看的是最新的汇率信息。
识别安卓屏幕
- 使用 NVDA + z打开虚拟菜单,左右光标找到安卓辅助,上下光标找到截图并识别选项回车,或者直接按字母 S。
- 对安卓屏幕(需要安卓与电脑建立连接)进行截图并识别;
- 有讯飞印刷体识别、讯飞手写识别、讯飞通用文字识别、腾讯云通用文字识别,默认使用讯飞的印刷体识别器,可以在宝盒设置中更改默认的识别器。
安卓屏幕截图到剪贴板
- 使用 NVDA + z打开虚拟菜单,左右光标找到安卓辅助,上下光标找到截图到剪贴板选项回车,或者直接按字母 D。
- 对安卓屏幕(需要安卓与电脑建立连接)进行截图并把图片文件复制到电脑剪贴板。
安卓安装 APP
- 使用 NVDA + z打开虚拟菜单,左右光标找到安卓辅助,上下光标找到安装应用选项回车,或者直接按字母 I。
- 安装 APK 软件包到安卓(需要安卓和电脑建立连接,实验性功能),注意,如果 APK 文件名包含中文可能会安装失败。
其他
- 验证码识别后可选择复制到剪贴板,在"NVDA设置对话框"的"NV 宝盒"下进行设置;
- 基金查询需要在"NVDA设置对话框"的"NV 宝盒"分类中填写自己关注的基金代码,多个基金代码可以使用英文逗号","分割,当您按下查询热键时,可在关注的多个基金中循环切换。
- 股票查询需要在"NVDA设置对话框"的"NV 宝盒"分类中填写自己关注的股票代码,多个股票代码可以使用英文逗号","分割。
- 安卓连接有两种方法,无线连接和USB数据线连接:
- 4.1. 连接之前需要启用开发者模式,操作方法是找到设置,找到关于,找到安卓版本连续点击5次即可开启开发者模式;
- 4.2. 如果是小米设备,在设置中找到我的设备进入,找到全部参数进入,找到MIUI版本,连续点击5次即可进入开发者模式;
- 4.3. 在设置中找到开发者选项,一般在更多设置里面,在开发者选项页面启用USB调试模式,然后使用USB数据线连接安卓和电脑,就可以愉快的玩耍了;
- 4.4. 安卓截图后识别的结果可以进行点击,但是有些安卓厂商为了安全考虑可能禁用了 ADB 点击,需要我们在开发者选项中启用点击功能,例如小米设备需要启用"USB调试(安全模式)"复选框,才能正常工作;
- 4.5. 无线连接,首先需要用4.3步骤的办法用usb连接到电脑(保证数据线是和电脑处于连接状态),再让电脑和安卓连接同一个WIFI网络,然后打开安卓的WIFI详情页面获取安卓的局域网 IP(例如小米设备在设置中点击wlan,在已经连接的网络右侧有个网络详情按钮点进去,然后找到 IP 地址那一行: fe80::52b4:6528:e04f:2e60 192.168.101.2,其中192.168.101.2就是安卓 IP 地址);
- 4.6. 如果想要连接 windows 11 的安卓子系统,可以在子系统界面点击"刷新不可用的 VM IP 地址"按钮,然后点击"复制 VM IP 地址"按钮,这样 IP 地址会复制到剪贴板,可以直接使用;
- 4.7. 把刚才得到的 IP 地址输入(或粘贴)到 NV 宝盒设置页面的设备局域网 IP 地址的编辑框中,然后在开发者选项页面找到无线调试并启用,重启一下 NVDA,然后记得把数据线拔掉,到此无线连接完成;
- 天气查询需要在"NVDA设置对话框"的"NV 宝盒"分类中填写自己关注的天气地区,填写的格式是"省份,城市,县区(可选)",注意需要使用英文逗号","分割,例如"四川省,成都市,金牛区"。
历史更新
V1.5
- QQ登录页面的号码选择下拉框不会跑焦点了;
- QQ下载群文件不再反复朗读下载提示;
- QQ消息 输入框焦点的进一步优化;
- 优化了与网络相关的功能,不会导致 NVDA 卡住;
- 增加了"基金查询"(NVDA + X),需要在设置面板中填写要查询的基金代码。
V1.6
- 增加了"股票查询"(NVDA + Z),需要在设置面板中填写要查询的股票代码;
- 股票代码区分深市和沪市,沪市股票以"sh"开头,深市股票以"sz"开头。
V1.7
- 调整减小表情选择的蜂鸣音;
- 修正0开头的基金无法查询,例如008086;
- 新增识别安卓屏幕的功能,适用场景,安卓网页读屏读的不好,某些页面有验证码,或者是某些焦点不能点击等。
V1.8
- 修复退出 nvda 迟缓的问题;
- 新增彩云天气接口,天气数据更加全面;
- 修正识别安卓屏幕会跳出 cmd 窗口;
- 修正某些软件(例如QQ)和某些网页无法进行 OCR 或验证码识别。
V1.9
- 修正天气查询风速的显示错误;
- 新增导航对象的截图功能;
- 新增剪贴板图片识别(功能还不稳定,容易导致nvda退出,慎重使用);
- 支持安卓设备无线连接。
V2.0
- 新增安卓截图到剪贴板;
- 新增安装 APP 到安卓;
- 新增对微信3.3及以上版本的微信表情面板的朗读,需要开启工具提示的播报;
- 新增 YY 语音9.0及以上的频道支持;
- 新增对 IntelliJ IDEA 对话框的自动朗读,一款开发人员使用个 java 等语言的编程环境;
- 废除 NVDA + w, g, h, x, z 等的快捷键,使用 NVDA + z打开虚拟菜单代替;
- 新增虚拟菜单模式,打开虚拟模式在菜单中用上下光标选择,回车确定,也可以使用对应的快捷键激活菜单。
V2.1
- 新增优图 OCR 文字识别;
- 虚拟菜单支持循环切换;
- 虚拟菜单新增宝盒设置的入口;
- 修正某些地区天气无法查看;
- 宝盒设置新增默认识别器选项;
- 完善 YY 频道的支持。
V2.2
- 新增nvtts功能,可以让安卓设备使用nvda的语音输出信息;
- 将所有显示安卓信息的地方改成了安卓,为了适配 windows 11 安卓子系统;
- 虚拟菜单新增宝盒帮助入口;
- 虚拟菜单新增打开安卓设置,对于使用安卓子系统更方便;
- 宝盒设置里面新增安装 NVTTS 服务端按钮,在使用 nvtts 功能前需要让安卓设备安装服务端才能正常工作。
V2.3
- 修正2.2版本帮助文档的一些错误;
- 新增讯飞通用 OCR 文字识别器;
- 新增讯飞手写 OCR 文字识别器;
- 新增讯飞物体图像识别器;
- 新增讯飞场景图像识别器;
- 新增讯飞场所图像识别器;
- 新增讯飞离线语音,扩展了NVDA的语音合成器;
- 虚拟菜单进行了功能分类。
V2.4
- 基金查询新增用户评论信息;
- 删除腾讯优图通用文字识别器;
- 新增在线 Paddle 文字识别器;
- 增加讯飞离线语音库离线装机量;
- 对讯飞离线语音库进行优化;
- 修正讯飞通用文字识别器无法使用。
V2.4.1
- 优化讯飞语音的破音情况;
- 修正某些机器因为丢失 msvcr100.dll 导致无法使用讯飞语音的问题;
- 新增一个 Paddle 的服务器,由贝贝ABC(enabc.net)提供。
V2.5
- 修正股票查询功能;
- 股票查询新增分时K线图、日K线图、周K线图、月K线图;
- 新增汇率查询功能;
- 修正讯飞语音库操作过快导致的不稳定情况(例如朗读过时信息、遇到大写后音高无法恢复或朗读的不是预期文字等);
- 讯飞语音新增数字读法选项;
- 修正当用户文件夹名称是中文时无法使用讯飞语音的问题;
- 修正NV宝盒语音合成器遇到大量文本导致读屏卡死;
- OCR新增腾讯云通用文字识别器;
- NV 宝盒语音合成器新增VVTTS语音,有较高的响应速度,支持朗读繁体中文;
- NV 宝盒新增多语音规则,可以让不同语音朗读特定的内容。
V3.0
- 综合功能新增记事本,可以快速打开记事本应用;
- 综合功能新增重启资源管理器;
- 生活查询新增AI助手,可以帮助你解答各种问题;
- 对clion和rider两款编程工具做一些强化支持,例如f2的查错自动朗读;
- 把NV宝盒语音合成器的音频输出接口升级到WASAPI;
- 把联网库从urllib更换到requests,调用各种识别接口更稳定。
V3.1
- 增加谷歌翻译能力;
- 删除在线paddle文字识别器;
- 修复百度翻译无法使用的问题。
V3.2
- 升级AI助手,现在可以支持人设自定义;
- 一些其他修复。
V3.3
- 天气查询修复。
V3.4
- 增强语音合成器跟手度。
V4.0
- 将“生活查询”分类中的“AI助手”更名为“聊天问答”,并将其移动至“大模型能力”分类中;
- 新增UI代理(UI Agent),有关此功能的描述,请参见“UI代理”一节。
V4.1
- 新增大模型语速调节功能;
- 新增使用CTRL打断模型语音的功能;
- 修正UI代理任务可能的死循环问题。
V4.2
- 新增“与AI语音通话”的功能。
V4.3
- 重新设计的“股票助手”,现在您可以与AI讨论,他是一个可以看懂K线图的助手;
- 全新的UI代理模型,现在无论是响应速度还是准确性方面,都有相当大的提升,助力您完成更加复杂的视觉UI任务。
V4.4
- 修正UI代理不执行任务的错误。
V4.4.1
- 支持NVDA2026.x。
V4.4.2
- 修复一些BUG。
V4.5.0
- 修复股票查询的卡顿问题;
- 修复与AI聊天问答无法使用的问题;
- 修复一些BUG。
V4.5.1
- 大幅度优化UI代理的执行速度,现在更流畅稳定;
- 优化语音通话的错误处理。
V5.0
- 新增基于大模型的离线高质量实时翻译;
- 一些体验优化。
V5.1
- 修复UI代理无法使用;
- 修正验证码识别无法连接服务器。
V5.2.1
- 解决新用户无法使用讯飞语音(因官方提供的许可用量用尽),现在所有新用户可以正常使用且无限制了;
- 适配64位NVDA;
- 新增对64位NVDA下VVTTS语音的兼容支持,且与之前相比更流畅。
V5.2.2
- 修复语音合成器的BUG。
V5.3
- 新增空间音效;
- 64位NVDA支持使用离线模型识别验证码;
- 修复与AI语音通话无法使用;
- 去除讯飞在线语音(因不实用且容易给用户带来困扰);
- 一些其他BUG修复和稳定性增强。
V5.3.1
- 优化空间音效,使用更专业的算法;
- 修复在设置中开关空间音效后需要重启程序的问题;
- 一些其他BUG修复。
V5.3.2
- 修复更新插件后需要重新下载离线翻译模型;
- 更快的模型下载速度;
- 移除百度翻译,使用离线翻译代替;
- 升级到更好的谷歌翻译接口;
- 稳定性增强。
V5.3.3
- 修复大模型无法使用的问题。
V5.3.4
- 常规维护。
维护