微软在今年5月份的Re/Code大会和7月份的WPC 2014上,分别展示过Skype Translator,也就是实时翻译功能。这个功能曾被许多行业人士认为可能会威胁到同传行业的发展。现在用户可以直接在Windows 8.1和Windows 10上体验到Skype实时翻译功能的预览版。值此之际,我们来看看Skype实时翻译功能究竟是如何工作的。 后台技术的运用
在实时翻译功能的预览版本阶段,越多用户体验、测试实时翻译功能,机器学习技术收集到的数据将会更加丰富。用户在使用Skype实时翻译功能的时候,通话内容会被系统当作数据记录下来。当这些庞大的数据输入到机器学习系统后,机器学习系统会构建一个统计模型,分析用户对话的上下文内容。当用户说出一句话的时候,机器学习系统会把这句话与统计模型中的数据进行比对,然后再把语音转化为文字、或者文字转化为外国语言。 除了机器学习技术外,Skype实时翻译功能还使用了专门优化过的语音识别技术(Speech Recognition)和自动机器翻译技术(Machine Translation),这两个技术相应完成语音识别、自动机器翻译两个任务。在完成语音识别、自动机器翻译两个任务的过程中,系统还要针对用户的说话措辞进行调整,让语言更加流利通顺,甚至在把翻译结果展现在屏幕之前,系统还要为翻译出来的语句加入标点符号、适配单词大小写。 语音识别技术已经是一个研究了许多年的课题,但是过去这个技术也遇到过难题,因为要解决识别灵敏度、噪音干扰等问题。
机器翻译技术其实也被运用在网页版必应翻译中,研究人员把语法和统计模型结合起来一起使用,让Skype实时翻译功能更好地应对会话式的翻译任务。 此外,微软还在Skype实时翻译功能中加入了一个“机器人”,在翻译和转录交换的过程中,它负责创建通话、发送语音流媒体到语音引擎。 未来的挑战虽然Skype实时翻译功能看起来很先进,但是这个功能同样面对着重重挑战。我们知道,全世界已知语言共有5651种,公认的独立语言有4200种,其中100万以上人口使用的有19种。使用人数最多的语种是汉语,使用国家最多的语种是英语(30多个国家)。世界上约有500种语言得到了人们较为深入地研究,有1500种几乎无人研究过,占全世界四分之三的语言还没有文字。微软研究院希望这个功能可以拉近人类与人类之间的距离,跨越人类与人类之间沟通的障碍,因此语言种类繁多已经成为了Skype实时翻译功能的最大挑战。就Skype实时翻译功能预览版来说,目前已经支持翻译多达40种语言的即时文本信息,但是语音翻译暂时只支持英语和西班牙语。 有些人虽然说着同样的语言,但是每一个人的语言表达方式是存在差别的。例如,人类的言语过程中,会根据语境来停顿,或者使用“嗯”、“啊”之类的词语,通过机器学习技术,可以实现语句的停顿,但是Skype实时翻译功能还不能很好地照顾到那些用词细节,有些或许能翻译出来,有些可能就难以翻译出来。有关团队希望能尽量收集到用户的反馈,以解决这个问题。 另外还有口头语言翻译。人类是独一无二的,我们的口头语言受到国家地区、文化、宗教信仰等因素的影响。Skype实时翻译功能已经在口头语翻译这一块努力了很久,我们期待微软研究院在未来能提高、改善Skype实时翻译口头语的能力。 |