DeepL凭借在线文本翻译而声名鹊起,该公司声称自己的在线文本翻译比Google等公司的服务更细致、更精确–这一宣传使这家德国初创公司的估值达到 20 亿美元,并拥有超过 10 万名付费客户。 现在,随着人工智能服务的热度持续升温,该公司又在平台上增加了另一种模式:音频。 现在,用户可以使用 DeepL Voice 听别人用一种语言说话,并自动实时翻译成另一种语言。
英语、德语、日语、韩语、瑞典语、荷兰语、法语、土耳其语、波兰语、葡萄牙语、俄语、西班牙语和意大利语是 DeepL 目前可以”听到”的口语。 同时,DeepL Translator 目前支持的 33 种语言都有翻译字幕。
DeepL Voice 目前还不能以音频或视频文件的形式提供翻译结果:该服务主要针对实时、现场对话和视频会议,并以文本而非音频的形式提供。 在第一种情况下,您可以将您的翻译设置为智能手机上的”镜像”,即把手机放在会议桌上,让双方都能看到翻译的单词,或者设置为您与他人并排分享的转录。 在视频会议服务中,翻译会以字幕的形式出现。
公司创始人兼首席执行官 Jarek Kutylowski(如上图)在接受采访时暗示,这可能会随着时间的推移而改变。 这是 DeepL 在语音领域的第一个产品,但不可能是最后一个。他补充说:”[语音]是明年翻译行业的发展方向。”
还有其他证据支持这一说法。 DeepL 最大的竞争对手之一Google也开始在其 Meet 视频会议服务中加入实时翻译字幕。 此外,还有许多人工智能初创公司正在开发语音翻译服务。 其中包括人工智能语音专家 Eleven Labs(Eleven Labs Dubbing)和其他公司(如Panjaya)的努力,后者使用”Deepfake”语音和与音频匹配的视频创建翻译。 后者使用 Eleven Labs 的 API,而据 Kutylowski 称,Eleven Labs 本身也在使用来自 DeepL 的技术来支持其翻译服务。
音频输出并不是唯一尚未推出的功能。到目前为止,语音产品还没有 API。 DeepL 的主要业务集中在 B2B 领域,库蒂洛夫斯基表示,公司正在与合作伙伴和客户合作,直接使用该产品。
Kutylowski说:”目前支持DeepL 字幕的视频通话服务只有Teams,它覆盖了我们的大多数客户”。 目前还不知道 Zoom 或 Google Meet 将于何时或是否会集成 DeepL Voice。
对于 DeepL 的用户来说,这款产品会让他们感觉期待已久,这不仅仅是因为我们已经被大量其他以翻译为目的的人工智能语音服务所充斥。 Kutylowski说,早在2017年,也就是DeepL 推出的那一年,这就已经成为客户的头号要求 。
等待的部分原因是,DeepL 在构建其产品时采取了一种相当深思熟虑的方法。 在人工智能应用领域,许多其他公司都会对其他公司的大型语言模型进行依赖和调整,而 DeepL 则不同,它的目标是从头开始构建自己的服务。 今年 7 月,该公司发布了一款针对翻译进行了优化的新型 LLM,并称其性能优于 GPT-4、Google和微软,这主要是因为它的主要用途是翻译。 围绕这一点,它还不断提高其书面输出和词汇表的质量。
同样,DeepL Voice 的独特卖点之一是它可以实时工作,这一点非常重要,因为目前市场上的很多”人工智能翻译”服务实际上都是延时工作的,这使得它们很难/不可能在现场情况下使用,而这正是 DeepL 要专门解决的用例。 Kutylowski暗示,这也是这款新的语音处理产品专注于基于文本的翻译的另一个原因:它们的计算和生成速度非常快,而处理和人工智能架构在以同样快的速度生成音频和视频方面还有很长的路要走。
你可能会认为视频会议和会议是 DeepL 语音的可能用例,但 Kutylowski 指出,该公司设想的另一个主要用例是在服务行业,例如餐厅的一线员工可以使用这项服务帮助他们更轻松地与客户沟通。
这可能很有用,但也凸显了这项服务的一个缺陷。 在这个世界上,我们对数据保护的认识突然提高了许多,对新服务和新平台如何窃取私人或专有信息的担忧也增加了许多,但人们对自己的声音以这种方式被收集和使用的热衷程度还有待观察。
Kutylowski坚称,虽然声音将被传送到其服务器进行翻译(处理过程不在设备上进行),但其系统不会保留任何内容,也不会用于培训其法律硕士,最终将与客户合作,确保他们不违反 GDPR 或任何其他数据保护法规。
暂无评论内容