照片:Marki Williams
语音识别软件使得在电脑上导航和沟通变得轻松,无需打字。
这种灵活性对于只是需要暂时摆脱键盘的人来说非常方便,但对于语言处理障碍或身体残疾的人来说尤为重要。如果你手部灵活性有限或慢性疼痛,发送一条快速的短信或者打字写备忘录可能会很困难,甚至完全不可行,但这种软件可以让这些任务相对轻松。
经过考虑18个选项后,我们发现Apple Voice Control和Nuance Dragon Home 15比我们测试过的其他语音识别工具更准确、高效和易用。
但是语音识别软件(也称为语音转文本或语音识别软件)背后的技术存在一些问题。这些应用程序具有较高的学习曲线,而人类在其中编程的固有偏见意味着它们的准确性可能会有所不同,尤其是对于具有不同口音、社会方言和方言(如非洲裔美国人的俚语英语)或言语障碍的人来说。尽管如此,对于能够在技术限制内工作的人来说,我们的选择是许多需要使用文字处理工具的人的最佳选择。
我们的选择:Apple Voice Control
Apple的Voice Control比竞争对手更易于使用,更频繁地产生准确的转录。它还提供了一个强大的命令中心,使得更正变得轻而易举。
Apple的Voice Control已经预装在macOS、iOS和iPadOS上,所以任何拥有苹果设备的人都可以免费使用。在我们的测试中,它大部分时间都能产生准确的转录,尤其是对于使用标准美式口音的演讲者。与谷歌、微软和Windows的竞争工具相比,它们在准确性测试中的平均得分低了15分。在我们的测试人员中,那些手部灵活性有限的人喜欢Voice Control的辅助技术功能,这使得他们可以轻松地无需使用手部导航操作系统和编辑信息。但是,Voice Control提供的体验虽然是我们在苹果设备上找到的最好的,但它经常会误解地区或其他美国口音或言语障碍(如口吃)的测试人员说的单词或整个短语。尽管对于历史上依赖于同质数据源的语音识别建模来说,这种准确性问题是可以预料的,但其他工具(特别是仅适用于Windows的Nuance Dragon Home 15)在这方面表现稍好。如果同时运行多个处理器密集型程序,Apple的工具也可能稍微滞后,这会降低测试人员的工作效率。
我们的选择:Nuance Dragon Home 15
Dragon Home 15是我们测试的任何操作系统中最准确的语音识别工具,但它的高昂价格让人望而却步。
价格为200美元的Nuance Dragon Home 15是我们测试的最昂贵的语音识别工具,但它是拥有Windows PC的人的最佳选择。与我们试用的所有语音识别软件一样,刚开始使用Dragon Home时需要一定的学习曲线,但是Dragon的教程非常好,可以帮助你入门。我们的语言处理障碍测试人员表示,Dragon Home是他们尝试过的最准确的语音识别选项之一,并且强大的命令功能使他们能够快速导航他们的机器。与我们的苹果选择一样,Dragon Home在处理各种美国方言和国际口音时遇到了困难;对于那些具有“中性”美式口音的测试人员,它的表现更好。 它也难以消除所有的背景噪音,但您可以通过使用外部麦克风或耳机来减轻这些问题。虽然Dragon Home的转录速度是我们测试的所有工具中最快的,但这并不是毫无保留的积极因素:我们的一半小组成员表示,他们更喜欢较慢的实时转录,而不是Dragon Home的逐句转录方法,因为他们发现在屏幕上出现句子之间的较长暂停会分散他们的注意力。
我们推荐的一切 {#everything-we-recommend}
研究
- 为什么你应该相信我们
- 适合和不适合的人群
- 我们的选择和测试方法
- 适用于苹果设备的最佳听写工具:Apple Voice Control
- 适用于Windows PC的最佳听写工具:Nuance Dragon Home 15
- 如何使用听写软件
- 在使用听写软件时,你是否应该担心隐私问题?
- 竞争对手
- 参考资料
为什么你应该相信我们
作为Wirecutter的高级编辑,我已经花了五年的时间涵盖复杂的主题,撰写了关于狗的DNA测试、阻挡蓝光的眼镜、电子邮件退订工具和家庭暴力施虐者使用的技术操纵策略等主题的文章。在早期,我是Nuance公司的Dragon软件的早期用户之一,但由于其性能差和学习曲线陡峭,我很快就放弃了这款软件。从那时起,我偶尔会在需要发送快速消息时使用设备上的听写和辅助工具,比如在做早餐时手上沾满了粘糊糊的东西,或者在梳理头发时手上沾满了发胶。在撰写本指南时,我使用了我们推荐的工具来听写约三分之一的文本。
我还与微软的软件工程师和残疾人权益倡导者Meenakshi Das以及残疾人创业者孵化器2Gether-International的首席执行官Diego Mariscal进行了交流,讨论了各种残疾人士使用听写工具的局限性。我与普林斯顿大学博士候选人Sayash Kapoor讨论了人工智能的伦理问题。我参加了Kapoor的导师Arvind Narayanan, PhD的一场题为“歧视定量方法的局限性”的讲座The Limits Of The Quantitative Approach To Discrimination。我与斯坦福大学人类中心人工智能研究所的联合主任Christopher Manning讨论了听写软件的发展。我还咨询了Wirecutter的无障碍报道编辑Claire Perlman,以确保我对本指南的处理方式具有无障碍性、细致入微,并能反映残疾人群体的需求。
最后,我组建了一个由九名具有不同听写软件使用经验的人组成的测试小组,其中包括几名患有从言语障碍到手部灵活性受限到严重脑损伤的残疾人。我们的测试人员还自报了从“中性”美国口音到“模糊”的路易斯安那口音再到“明显”的印度口音不等的口音。
适合和不适合的人群
辅助技术,如语音转文本工具,可以帮助您在驾车时发送免提短信,或者在不触摸键盘的情况下打字完成学期论文。
我们编写本指南时考虑了两类用户:残疾人依赖听写软件进行交流的人,以及手部自由使用的人,他们在需要脱离键盘工作时偶尔使用这些工具。 然而,我们更加关注残障人士,因为听写软件可以更好地为这一群体提供服务,最终使他们更容易接触世界和交流。对于手部灵活性有限或无法灵活运动、肢体差异或语言处理障碍的用户来说,语音识别软件非常有用,因为它使他们能够在自己喜欢的环境中自由交流。例如,我们的小组成员中有学习障碍的人表示,他们喜欢在使用语音识别软件完成项目时进行思维漫游或“脑洞”,他们感觉不必第一次就完美地把一切都写下来。然而,我们的方法也有局限性:我们关注的是每个工具与文本文档的集成和编辑能力,而不是口头导航整个计算机屏幕的能力,这是一些患有脑性麻痹、帕金森病、四肢瘫痪和其他神经系统残疾的人所需要的功能,尤其是如果他们没有说话问题和有限或无法控制运动。我们的选择提供了一些辅助功能,如网格导航、文本编辑和语音命令,使设备使用更加便捷,但我们为我们测试的大多数语音识别软件都缺乏这些高级选项。除了缺乏辅助功能之外,这些软件程序的其他潜在障碍还包括它们与各种口音的兼容性。
听写软件的偏见
正如我们在测试中发现的那样,一个人对“糟糕”的定义可以因他们的口音和说话能力而大不相同。我们的AI专家们一致认为,听写软件中使用的自然语言处理(NLP)技术的局限性在面对来自世界各地的各种口音、方言和语音模式时显露无遗。普林斯顿大学AI伦理学博士候选人Sayash Kapoor表示,NLP工具通常在Reddit和维基百科等网站上进行训练,这使它们对边缘化性别和黑人、土著人和其他有色人种社区的人存在偏见。结果是,大多数听写软件在英国和美国英语等标准口音上效果最好。我们的专家告诉我们,一些语音转文本工具甚至没有对不同方言和社会语言进行精细建模,更不用说性别认同、种族和地理位置了。
事实上,一项研究发现,亚马逊、苹果、谷歌、IBM和微软的语音转文本工具存在“严重的种族差异”,因为黑人说话者的平均词错误率几乎是白人说话者的两倍。这个局限不仅影响说话者能否轻松地口述他们的工作,还影响他们能否有效地更正短语和给出格式化命令,这是实现无缝或痛苦用户体验的关键。语音识别工具中的固有偏见也延伸到言语障碍。Wirecutter联系了几位口吃或其他类型的言语和语言障碍的人,如脑性麻痹或帕金森病引起的障碍,邀请他们加入我们的测试小组。但大多数人拒绝了,他们提到过去使用听写工具的经历不佳。残疾人权利倡导者Meenakshi Das是一位口吃者,她表示她不使用任何语音转文本工具,因为整个行业需要更多的工作来使软件真正具备无障碍性。(Das是微软的软件工程师,微软拥有Nuance,Nuance是我们推荐的Windows PC最佳听写工具的生产公司。) Das和Kapoor都注意到了加速器正在努力消除口音、言语障碍和语言处理障碍的偏见差距,以便让这些群体能够使用口述工具。例如,2022年10月,伊利诺伊大学宣布与亚马逊、苹果、谷歌、Meta、微软和非营利组织合作,推出了语音无障碍项目,旨在改善残疾人和具有多样化言语模式的人的语音识别能力。
但在真正包容的语音转文本工具出现之前,这些未得到服务的群体可以查看我们关于如何充分利用当前可用软件的建议。
我们的选择和测试方法
我们向专家征求了有关语音转文本工具的见解,并阅读了软件评论、同行评审的研究、残疾人论坛和组织网站,以了解什么是一款出色的口述工具。
我们确定了18个口述软件包,并比较了它们的功能、平台兼容性、隐私政策、价格和第三方评论。我们寻找的功能包括各种有用的语音命令、导航的便利性、可自定义的命令和词汇、多语言支持以及内置的提示工具或教程。那些在我们的标准上排名最高的程序,通常提供了强大的功能和广泛的平台可用性,进入了我们的测试短名单:
- Apple口述(macOS,iOS,iPadOS))
- Apple语音控制(macOS,iOS,iPadOS))
- Gboard上的Google助手
- Google文档语音输入
- Microsoft Word口述
- Nuance Dragon Home 15
- Otter
- Windows语音识别
- Windows语音输入
我们将这些工具默认设置为美式英语,并在我们的计算机和移动设备上轮流使用每个工具几个小时。之后,我们根据准确性、使用便捷性、速度、噪音干扰和应用兼容性对它们的表现进行评分。我们重点关注准确率,进行了一系列的对照测试,以了解口述工具对150到200字的口语样本、Alicia Keys歌曲《No One》的歌词以及一篇同行评审的疫苗研究中的科学术语的识别情况。然后,我们将得分最高的口述工具推进到我们的小组测试环节。
在为期三周的时间里,九名小组成员对我们的半决赛选手进行了测试。我们多样化的测试人员群体包括那些从言语障碍到手部灵活性受限再到严重脑外伤的残疾人。他们自报的口音范围从美式英语到加泰罗尼亚语再到印度语。所有小组成员在使用口述软件方面都有不同程度的经验。 - Aum N.,34岁,从事质量保证工作,有印度口音
- Ben K.,41岁,一位编辑,有“中等”口吃和“标准”美式口音
- Chandana C.,64岁,一位分析师,有“明显”的印度口音
- Claire P.,31岁,一位编辑,患有关节弯曲症这种肌肉骨骼残疾
- Davis L.,27岁,一位音频制作人,有“模糊”的路易斯安那口音
- Franc C. F.,38岁,一位来自西班牙的软件工程师
- Juan R.,52岁,曾在一次车祸中受重伤,导致严重脑外伤,现在记忆力和阅读理解能力有限
- Polina G.,49岁,一位ADHD工程经理
- Vicki C.,33岁,一位肩部受伤和重复性应力伤害的软件工程师
小组成员使用各种语音转文本工具发送短信、起草电子邮件和编写软件,之后他们详细记录了自己的体验,并确定了哪些工具他们会愿意经常使用或自行购买。 为了确定我们的选择,我们结合了专家们的经验、我们的控制测试结果以及专家的推荐。
苹果设备上最好的听写工具:苹果语音控制 {#the-best-dictation-tool-for-apple-devices-apple-voice-control}
Windows PC上最好的听写工具:Nuance Dragon Home 15 {#the-best-dictation-tool-for-windows-pcs-nuance-dragon-home-15}
如何使用听写软件
我们的专家一致认为,没有完美的听写软件,但大多数这类软件的功能在使用过程中会不断改善。以下是如何充分利用语音转文字工具的方法:
- 认真学习教程。 这些工具中有一些学习曲线较陡,需要掌握特定的数字、标点和格式命令。在开始听写自传之前,请确保阅读软件的说明手册,并将其命令快捷方式列在附近。
- 设置主要语言。 我们测试的工具中不到一半允许您设置非原产国的主要语言。但如果您的工具有此选项,请务必使用。这可以使软件在转录时区分“theater”和“theatre”,甚至识别您的口音。
- 为了立即准确,请发音清晰。为了长期成功,请自然地说话。 许多听写工具提供词汇构建器或声称能够随着时间学习您的语音模式,因此不要强迫自己听起来像机器——除非您想每次听写时都使用那种生硬的声音。
- 考虑使用专用麦克风。 语音转文字工具(包括我们的首选)在您将嘴巴靠近麦克风并在安静的环境中工作时效果更好。通常情况下,您可以通过使用专用的外部USB麦克风或无线或有线耳机来消除大部分背景干扰和转录错误,这些设备能清晰地捕捉到您的声音。
- 注意开关的开关状态。 有些工具在几秒钟的静音后进入睡眠模式,或者它们可能会捕捉到您不想转录的旁边对话。如果您停下来整理思绪或转身回答同事的问题,请确保在讲话之前将听写工具设置正确。
在使用听写软件时,您是否应该担心隐私问题?
当您对着麦克风说话以便语音转文字工具将您的话语转录下来时,您会放弃一些隐私。就像您在电话中说话时一样,附近的任何人都可能听到您说的话。许多听写工具将您的音频输入到他们的学习算法中,以改进他们的服务或向您销售某些东西。在某些情况下,公司甚至可能将您的所有语音转文字记录和转录交给执法部门。最终,如果您处理的是敏感数据并且有其他沟通方式——我们知道对于许多需要这些工具的人来说这是不可能的——最好不要将您的信息与语音转文字程序共享。当然,我们也可以对发送不安全的短信或将文档上传到云端说同样的话。
以下是我们选择的制造商对您的数据的处理方式:
苹果
苹果的语音控制只在您的设备上进行听写和命令处理,不会与第三方共享或保存个人数据。但是,您在兄弟程序Dictation和Siri中说的一些信息可能会传输到苹果的服务器上。(因为包括我们的一些专家在内的许多人使用Dictation和Siri,我们得出结论认为这些差异值得注意。) 通常情况下,除非你在设备上进行语音输入到搜索框或服务需要第三方应用程序访问,否则苹果无法访问你在设备上创建的语音和Siri音频记录。苹果可能会收集Siri请求的转录、语音转录、IP地址和联系信息以执行应用程序任务、改进其服务并推广其产品。每当苹果与第三方应用程序进行交互时,例如用于会议记录的转录服务,该语音数据可能会被发送到苹果,或者你可能会受到该应用程序的单独条款、条件和隐私政策的约束。当你选择加入苹果的“改进Siri和语音输入”时,苹果保存的音频记录和转录可以被其员工访问,并且数据将保留两年,尽管公司可以自行决定延长保留期限。
苹果还使用你的音频和转录来推广产品和服务。你可以选择不允许苹果审核你的音频文件,方法是在***系统设置***(移动设备上的***设置***)***> 隐私和安全 > 分析和改进***中进行设置;你可以通过***系统设置***(移动设备上的***设置***)***> Siri和搜索 > Siri和语音输入历史*** 来删除你的六个月历史记录。然而,根据Gizmodo的报道,即使你选择退出,根据iOS 14.6,苹果可能仍然收集一些分析数据。
至于与第三方共享的信息,某些提供商必须在交易结束时删除个人信息或采取未公开的措施来保护你的数据。根据法律要求,苹果可能会向执法机构披露你的信息。
Nuance
Nuance拥有Dragon软件,经常收集语音输入数据。该服务可以访问你输入的任何敏感信息,包括医疗记录或专有信息,并且不总是需要你直接同意才能这样做。例如,在其隐私政策中,Nuance表示:“如果我们代表直接与患者接触的第三方处理个人数据,将由第三方负责获得同意。”并且人工转录数据的“片段”将由人员进行审核,以改进Nuance的服务。在你停止使用该服务后,Nuance将保留数据三年,并且你可以要求该公司删除你的数据记录。
此外,尽管Nuance收集诸如IP地址和注册信息之类的电子数据以推广其产品,但该公司表示不会将客户数据出售给第三方。然而,Nuance的关联公司和合作伙伴可能通过其销售部门或客户服务部门访问数据。与苹果一样,Nuance可能会根据法律要求共享个人数据。
除了特别考虑语音输入软件之外,还要注意检查你正在进行语音输入的任何软件的数据保留政策(无论是Microsoft Word、Google Docs还是其他任何软件),这些软件都属于制造商自己的隐私实践。
竞争对手
Apple Dictation(macOS、iOS、iPadOS))与我们的选择Apple Voice Control表现类似,但它缺乏许多人在语音转文本工具中希望拥有的强大功能,包括关键命令功能。
我们不推荐使用Microsoft Word Dictate、Otter或Windows Voice Recognition,因为它们的转录延迟时间和准确率都不理想,准确率范围从54%到76%,远远落后于Apple Voice Control的87%和Dragon Home的82%。此外,Otter平台不适合文档语音输入,因为它与文字处理工具集成不良好;它更适合用于现场活动的闭路字幕。
Braina Pro工具在2000年代中期很受欢迎,但其网站已经过时,并且多年来没有任何用户评论。 Google Assistant on Gboard 接口仅适用于支持Gboard的移动设备,这意味着对于桌面用户和没有Android或iOS智能手机的人来说是无用的。
在我们的测试中,Google Docs语音输入 无法准确捕捉社会方言和非正式语言。它对于有言语障碍的人也不起作用,格式化功能差,对于无法使用鼠标和键盘的人几乎不可能使用。
IBM的Watson语音转文本 是一种按分钟计费的转录服务,首500分钟后收费。而且免费计划在一个月的不活动后会删除您的转录历史记录。我们认为这些缺点足以使其失去资格。
Windows语音输入 不如Windows语音识别功能强大,我们发现其辅助命令有限。
我们考虑了几个针对Chrome的特定应用程序,包括Chromebook口述,Speechnotes和SpeechTexter,但由于它们的功能有限和使用限制,使它们对大多数人来说无法访问,所以我们跳过了对它们的测试。
我们还考虑了以下选项,但很快了解到它们是为特定商业用途而设计的:
- Amazon Transcribe 是为商业产品而建立的。
- Speechmatics 是为商业产品设计的,例如视频会议的实时转录,因此对于普通人来说过于昂贵和无法访问。
- Suki Assistant 是为医学口述而设计的。
- Verbit 提供业务转录服务。
本文由Ben Keough和Erica Ogg编辑。
来源
-
Meenakshi Das,残疾人权利倡导者和软件工程师,微软,文字采访,2022年9月30日
-
Sayash Kapoor,普林斯顿大学信息技术政策中心博士候选人,电话采访,2022年10月6日
-
Christopher Manning,斯坦福大学人类中心人工智能研究所联合主任,Zoom采访,2022年10月5日
-
Diego Mariscal,2Gether-International创始人、首席执行官和首席残疾人官员,Zoom采访,2022年10月26日
-
Steve Dent,亚马逊、苹果、微软、Meta和谷歌改善残疾人语音识别,Engadget,2022年10月3日
-
Su Lin Blodgett,Lisa Green,Brendan O'Connor,社交媒体中的人口方言变异案例研究:非裔美国英语(PDF),2016年经验方法在自然语言处理会议上的论文,2016年11月1日
-
Prabha Kannan,轮到我说话了吗?教授语音助手何时说话,斯坦福大学人类中心人工智能研究所,2022年10月10日
-
Allison Koenecke,Andrew Nam,Emily Lake,Sharad Goel,自动语音识别中的种族差异,美国国家科学院学报,2020年3月23日
-
学习的语音识别,LD OnLine,国家技术创新中心(NCTI)的“技术工作”简报,2010年8月1日
-
Arvind Narayanan,《定量方法在歧视问题上的局限性》, James Baldwin讲座系列, 普林斯顿大学非洲裔美国研究系, 2022年10月11日
原创文章,作者:纽约时报精选,如若转载,请注明出处:https://pingcer.com/nytimes/best-dictation-software/