今日话题
10432017-09-04 14:59:28

为了让Siri更智能 苹果想出了这些新颖的招数

  • Siri 即将起飞


      就在昨天,我们才刚刚讨论了 Siri 部门的换帅。如今掌管 Siri 业务的不再是原先的内容主管艾迪·库伊,而是软件工程主管克雷格·费德里吉。费德里吉负责监管 iOS、macOS 等苹果旗下的操作系统。很明显,苹果这是要将 Siri 更加深度地整合进系统中了。甚至于在人们对未来的展望中,Siri 有可能成为一个核心的平台。

      Siri 的即将起飞是毋庸置疑的,因为只要对苹果的动态稍有了解的,就会发现这个语音助手已经渗透进了苹果旗下的每一个平台中,iOS、macOS、watchOS 和 tvOS 都是如此。也就是从近几年开始,苹果就一直在致力于 Siri 的部署,其态度越发明显。

      但是 Siri 如果想要真正成为一个有巨大潜力的语音助手,那它就必须得基本功扎实,也就是足够智能。在这一点上,人们曾经以为那是苹果的传统弱势,但事实已经证明了它并没有放弃 AI 技术领域的研究,而且现在的态度相比过往更具侵略性。

      不过说了那么久的苹果要发力,发力有没有效果呢?这些我们还是得实际的进展才行。好在苹果最近在自己的机器学习博客上更新了数篇文章,有趣的是它们全都和 Siri 有关。
  • 苹果的进展

      早在今年 7 月的时候,苹果就开设了一个新的官方博客,专门刊载自家 AI 及机器学习的技术进展。苹果这样做的目的很简单,一是为了向人们宣传自己的技术实力,第二则是吸引更多的技术人才。该博客的第一篇技术文章主要和图片识别有关,之后就全部是 Siri 相关的内容了,可见苹果的重视程度。

      目前苹果博客中与 Siri 有关的这些文章中,最主要的是看和说这两个方面,即文本显示,以及合成语音。这两个方面,涵盖了我们现在能够接触到的 Siri 的大部分体验。


      除了语音之外,Siri 在回答我们的问题时也会给出一定的文本反馈。可能人们认为 Siri 给出的那些文本全部都是预存好的,但其实涉及到日期、时间、地址、汇率这些信息的显示时,是需要一定的技术含量的。苹果表示,Siri 之所以能够将这些信息以一种符合规格的方式列出来,多亏了一种名为“逆反文本标准化(ITN)”的技术。ITN 能够让统计模型的应用变得更加简单、紧凑,且容易训练。

      尽管在我们看来,Siri 显示的文本是和它说出的语音是一致的,但实际上有时候还是会有所不同,那就是格式的问题。我们举时间显示的例子,如果没有 ITN 系统,Siri 在显示文本时就会照着语音念的那样:“现在的时间是十点零五分。”虽然这样也不是不行,但有了 ITN 之后,它就会转换成更容易阅读,更标准化的“现在的时间是 10:05”。

      格式标准化的问题看似很好解决,实际上苹果表示按语句串去逐条训练的话,成本高昂,而且对数据量的要求太高。因此它才提出 ITN 的概念,用以更快地解决信息格式标准的问题。简单来说,在把握了句子核心含义的前提下,ITN 能够将语音说出来的信息加上标签,然后进行相应的转换。比如当语音说出“十点零五分”时,系统将这些信息各自分成诸如“十点”、“零五分”这样的信息,然后加上对应的标签加以区分,转换为实际文本显示的格式“10:05”。

      这样的文本显示结果有时候还要加上最后的处理,以让它更加规范,比如显示货币时的“一点零零元”,不仅要将“一点零零”转化为“1:00”,“元”还得变成“¥”符号放在最前面。这样的训练就相当于引入了规律,这样就能让系统更快地掌握某种格式的正确写法了,无论数值和单位如何变化。


      至于“说”这部分则更为重要,因为 Siri 作为语音助手,就是主要通过语音和我们互动的。、目前业界广泛采用的语音合成技术主要有单元选择和参数合成两种方案。单元选择因为是直接从录制库里摘取句段,所以语音的质量会很高,但可能会有生硬和不灵活的问题。参数合成当然显得更智能、更灵活,但缺点就是语音质量普遍较低。Siri 在这之中,选择了两者混合的方案。

      语音合成首先得有人来录制声音,文本内容包括书本文字、指令、笑话等。这些内容当然不能直接用,还得将它们分割成基本的“组件”,然后根据以后的实际内容,使用强制对齐手段来组成新的句子。这些语音随后用来创建数据库,被添加诸如上下文、声学特质等信息,形成声纹组成的段。

      要让合成语音变得更加自然,有两个要素是必不可少的。首先,合成的声音听起来必须符合语言韵律;其次,组合而成的句子在声纹段的结合处不能有明显的不协调感。这两个要素数值化后,分别被称为目标代价函数和拼接代价函数。苹果在 Siri 背后隐藏的最关键的技术被称为“深度混合密度网络(MDN)”,它能够被用来准确预估这两个函数,分配波形特征值。

      最终,苹果表示自己得到了想要的结果,并承诺 iOS 11 中的 Siri 新语音将“更自然,更流畅,让 Siri 的个性更加闪耀”。
  • 未来还有什么


      从苹果的这些研究成果来看,它确实是在致力于让 Siri 得到真正的进化,而这些都和机器学习技术有着密不可分的关系。Siri 如何与 AI 技术相结合,苹果提出了自己独到的看法。

      我们不知道 Siri 以后会发展到什么程度,但至少现在它走得很稳健。通过这些技术说明,可以看到苹果正在一步步提升它的基础能力。更重要的是这些技术的实现并不遥远,随着 iOS 11 的到来,这样的体验也会到来。

      那么未来还会有什么呢?Siri 的业务已经转交到了更适合的人选手上,而苹果的技术博客肯定还会继续更新下去,让人们看到更多东西。至少从现在开始,我们作为普通的用户,可以真正去期待它改变自己的生活了。
锋友跟帖
人参与
人跟帖
现在还没有评论,请发表第一个评论吧!
正在加载评论
  • 威锋客户端

  • 用微博扫我

返回顶部
关闭