使用者利用Web浏览器就可以连线到所有的应用程式和服务,而不必再拘泥于使用者的界面。但以网际网路为中心为运算架构,主要会出现两个缺点,分别是缺乏移动性(因为使用者仍需依赖物理网路去存取讯息),及只能使用单一设备(因为电脑是唯一的存取设备)
语音应用程式概述
目前的电话和PDA 都拥有强大的计算功能,而与这些设备相关的各种技术,如互连结、相互作业等,实现了普及运算(Pervasive Computing)的构想。 IBM 的前任CEO – Louis Gerstner将普及运算定义为:十亿人用一万亿个连线设备,与百万个电子商务进行互动。而电话(无线和有线)和 PDA是大多数使用者都拥有的设备。尽管这些设备的网路和浏览器技术不同,但是将网际网路内容扩充到这些设备中是必要的,因为这些设备非常地普及。
语音应用程式是普及运算愿景一个重要的部分,因为在众多的应用程式中,输入或输出都是透过电话或行动设备,而不是以GUI来进行。也因为有这么多人使用电话或行动设备,所以企业可以使用语音应用程式来拥有这个广大的用户群。
语音应用程式通常有两类,第一类应用程式是将这些应用程式作为呼叫系统,从Web的设施中检索讯息。此类应用程式的范例包括一些语音入口网站︰它们提供天气预报、股票报价、交通讯息、电影清单,及客户服务讯息等。
第二类是使用这些语音应用程式呼叫到系统,对Web的资料库进行特定交易。此类应用程式的范例包括了一些语音入口的网站,并用于员工福利、员工考勤卡管理、财务交易、旅游预定、行程安排、电子关系管理(ERM)、销售自动化,及订单管理等。
随着语音识别准确度和VoiceXML规范标准化程度的提高,语音应用程式一定会受到消费者的青睐,因为这些语音应用程式简单、便捷和普及。
表一 传统Web应用程式与语音应用程式作业流程的比较表 |
Web
应用程式 |
语音应用程式 |
使用者透过
URL 存取页面 |
使用者透过拨电话号码存取应用程式 |
Web
浏览器向
Web 伺服器发出对某个
HTML 页面的
HTTP 请求 |
语音浏览器向外部
Web 伺服器发出对某个
VoiceXML 文件的
HTTP 请求 |
Web
浏览器呈现
HTML
以建立可视网页,该页面回应键盘和滑鼠输入 |
语音浏览器可以透过语音或按键输入,将VoiceXML
表现为对话和提示 |
那么VoiceXML是什么呢?它是以XML为基础的标签语言,用于开发分散式语音应用程式。 VoiceXML也是W3C和VoiceXML论坛所采用的业界标准,它容许开发人员使用熟悉的标签语言和伺服器端逻辑,来提供电话和其它移动设备可存取的应用程式,其特性包含语音识别、合成语音输出、录制口述输入、输出预先录制的音讯、对话流程控制,及呼叫转移等。
使用者与语音应用程式所进行的互动如(图一)所示︰
VoiceXML使用者介面(VUI)
VUI是语音应用程式的关键部分,使用者必须和它进行互动,以执行应用程式所支援的工作。从高层面来说,VoiceXML所开发的应用程式是给使用者所用的语音应用程式。不过从基本面来说,VUI的作用如下:
- * 向使用者提供该应用程式所运作的思维模式,及所提供的功能讯息。
- * 收集语音或透过电话键盘,产生出双音多频(DTMF)的声音形式输入法。
- * 输出合成的语音或事先录制的音讯。
- * 支援使用者完成工作流程。
- * 支援使用者或系统错误的回复。
因为VUI能传送的讯息不像高频宽多媒体的GUI那样多,所以它们的能力还是有限。 VUI是「隐形」的,因为它们只存在于使用者的思想中,且VUI还是单模式界面,而声音是其唯一的输入/输出媒介,但这样的单模式界面并不像多模式的GUI界面那样有效地通信。因此,语音应用程并不适合下列的情形︰
- * 使用者的环境非常复杂。
- * 需要提供大量的资料,并用于检视或比较。
- * 输出内容很大,且视觉上很复杂。
- * 使用其它输入设备(如键盘或滑鼠)会更容易完成的工作
语音应用程式适用于下列的情形︰
- * 声音是为便捷的输入方式,如驾驶车辆时。
- * 使用者透过自助服务以节省时间和金钱,并提高生产率。
- * 企业语音系统或呼叫中心的服务。
- * 使用者有生理障碍时。
支援使用者输入的VUI元件包括︰
- * 说话方式︰符合主动语态中的单字或片语。
- * DTMF按键︰提供一次输入给应用程式
- * 被导向到VUI的其他语音︰可以录制语音,以备今后透过相同或另一个应用程式来进行播放。
支援使用者输入的VUI元件包括︰
- * 提示︰将音讯讯息提供给使用者,提示他们需要输入指令给应用程式。
- * 让提示或其他地方拥有数字化录音的播放。
- * TTS(语音合成)︰来自纯文字语音内容的合成。
- * 提示中的选单︰向使用者提供选项清单。
- * 表单︰VUI的后功能,为应用程式收集讯息
UI和GUI之间的区别
对某些习惯GUI或以字元为界面的人来说,VUI可能是个新概念。这里列出了VUI和其它类型UI之间的主要区别︰
- * VUI是隐形的,只存在于思想中,因此必须尽可能设计成对使用者的记忆力和认知过程最小的要求;这也是VUI和GUI之间最主要的区别。
- * VUI是单模式界面,其中声音媒介是唯一的输入/输出模式。这样的单模式界面,并不像其它UI能够传递大量的讯息,或有效地与使用者通信。
- * VUI需要有最小分支的简单工作流程,让使用者在操作时,不会感到无趣。
- * 使用者环境在语音应用程式的执行和效能中起了关键作用,VUI在用于这样的环境时,会同时与使用者的其它行为「竞争」,如一边在行走或驾驶时,一边使用着语音应用程式。因此,它们应该具有更强的容错能力,及更良好的错误处理特性。相比之下,电脑就只能适用于和GUI进行互动,并以使用者的步调驾驭UI中的工作流程;当使用者进行工作流程时,其环境对GUI的执行通常没有影响。
- * 目前VUI元素并未和GUI元素(例如「Home」、「Back」、「Refresh」等有任何的关联,而是用其它方法来处理具有GUI特性的相关应用程式。
GUI
元件或特性 |
VUI
对应物 |
Back
按钮 |
声音指令,例如「Go
Back」,让使用者一次后退一步 |
Home
按钮 |
声音指令,例如「Go
Home」,让使用者到达已知的开始点(例如应用程式中的主选单或开始点) |
萤幕布局、色彩、图像和样式 |
录制的音讯、TTS
声音、声音类别和声调 |
跳出选单或视窗,提示错误讯息或错误恢复 |
音调、TTS
或录制的音讯,提示错误讯息和恢复 |
Help连结或线上环境的即时帮助 |
将分层的Help讯息作为声音讯息 |
连结到其他Web
网页 |
像混合式驱动(mixed
initiative)语态这样的已程式化功能,让使用者跳到语音应用程式中的其它应用程式和模组中 |
表单输入、选择清单和单选按钮 |
带有栏位和变数的VoiceXML
表单,为表单元素撷取栏位输入 |
其他使用者回馈的「处理中」指示 |
用于表达系统正在执行的音讯沙漏声调、音乐或声音讯息 |
VUI 使用者特性
在概念化和开发语音应用程式之前,研究并记录下语音应用程式所针对的用户群的\特性,是非常重要的一点。任何语音应用程式的目标使用者,与 PC/GUI 导向的使用者或多或少有些相同,但是VUI使用者的有些特性是需要特别去注意。
人们通常不会用电脑去存取语音应用程式,而是利用电话或手机。虽然有一些平台使用VoIP和SIP来支援以电脑为基础的电话,但是这样的用户端非常地少。此外,而将有关语音应用程式的知识(能做什么和不能做什么,以及它们的显著特性)教给使用者,也是非常地重要。
举例来说,使用者不该认为人与人对话方式,不能应用在语音应用程式上等。而已经习惯了浏览器的网际网路使用者将会发现,他们不再需要后退、重新整理、超连结和栏位表单等概念。综合上述的论点来看,刚接触语音应用程式的使用者应该清楚了解语音应用程式的特性与有效性。
语音应用程式安全性
在布署语音应用程式之前,我们必须分别考虑Web基础设施(语音应用程式所在的地方,或产生语音应用程式的地方)的安全性,以及平台/电话基础设施的安全性。若使用者打算遵循内部模型来托管其语音应用程式主机,就必须要仔细地评估每个元件。而打算用闸道模型来布署的使用者,则应该对语音应用程式闸道供应商作详细地审查。精通布署和管理安全网站的使用者将会发现,使用可信度高的语音应用程式闸道供应商是有利的,因为它可以提供强大的服务协定(Special Libraries Association,SLA)。
在讨论主要的安全性考虑事项之前,读者必须注意到电话远不及网际网路浏览器在用户端的安全。不过在电话上装一个窃听器,远比破坏网际网路的安全阶层(Secure Sockets Layer,SSL)要容易得多,但具有讽刺意味的是,企业经营者大多会认为,透过电话将敏的消息即时提供给代理商来进行安全交易,会比使用网际网路来得更为安全。以下为安全性的几个主要考虑事项:
物理安全性
与语音应用程式互动的任何硬体、软体、日志资料和其它元件所在的资料库,都应该有严格的物理安全性,以避免被其它使用者进行未授权的存取。而为了预防灾难的发生,应建立多个资料中心,以确保资料库的可靠性和延展性。
使用者安全性
对关键系统的存取,必须严格地控制每位有权限的使用者,并给予每人应有的最低权限。
网路安全性
语音应用程式产品应使用业界标准的最佳网路安全性守则(如隔离不可路由的网路、防火墙、主机安全性、SSL和IP过滤器等),以防骇客会闯入、偷窃和攻击其资料库。
语音应用程式平台安全性
因为VoiceXML引擎是语音应用程式平台的核心,所以必须十分注意平台本身的内部安全性问题。这个平台应该确保隔离在同一台或不同机器上,进行的呼叫者的Session作业。当所有应用程式状态(包括 cookie 和已录制的音讯档案)超出了作用范围,并且不再需要时,其平台应使用有效的垃圾收集程式来清除它们。
使用者原则
语音应用程式可以用来收集使用者的大量个人讯息。正如网站一样,公司应该合法地遵循有关收集、储存、使用和散布客户讯息的授权的隐私原则。
语音生物测定学
语音生物测定学是一种验证说话者的技术,该技术超出了语音范畴,并尝试使用说话者声音独特的生物测定学特性来辨别说话者。
它是用来对使用者作认证之最不具「入侵性」和最自然的技术,而且比单独使用个人ID(PIN)和密码验证更为安全。语音认证是使用如音位频率变更测量技术,来比对呼叫者的声波纹与先前所记录的声波纹。在不久的将来,语音测定技术将会在安全和个人化的语音商务(V – Commerce)方面扮演重要的角色。例如Nuance和SpeechWorks 等厂商已推出与语音应用程式整合的语音验证产品。
语音生物测定学的工作原理是,将使用者的语音特性数字化,并产生储存的模型语音印迹(如同范本一般),每次当使用者试图存取安全资料时,电脑就会拿它出来进行参照。生物测定学技术将每个读出的词,简化成每个段落,如子词一样的音节、音位、三音子(triphone)或相似的声音单元,并由几个主要频率(称为共振峰)组成。每个段落都有三或四个主要的音调,可以用数字的形式来捕获它们,并在表或声谱上绘图。这种音调表会产生说话者的独特语音印迹。
语音印迹会被储存为数字表,而诧每段中的每个主要频率,都会以二进位项表示。且因为所有的表项不是1就是0,所以可以从下到上将每一列作为长型二进位程式码来读取。当某人说出他/她的密码时,会抽取一个或多个程式码词,并把它与此人的储存模型作比较。
当使用者试图对受保护资料作撷取的动作时,电脑会先将其语音模式与其之前储存的语音模型,以及存在资料库中的所有其它语音印迹,进行比较的动作。由于人类的一些声音特性是相同的,所以从要认证的范本中,除去一些公共的元素。当除去所有与其它人符合的元素之后,这时系统只会剩下使用者声音的独特特性,而这些独特特性也是确定成功认证的唯一特性。
结语
VoiceXML是一个强大的标签语言,它会以Web为基础来为交谈式语音应用程式和资料库内容作传递讯息的动作,并以音讯作为输入(语音或按键音)/输出(机器语音或录音)的形式。不过要将VoiceXML应用到生活上,必须要解决几项难题,如使用者的认知、网路安全性的认证等。假如这些难题都被解除了,那么今后的网路平台都不再只靠手动,用语音也可以轻松地操作。
<本文资料由台湾IBM提供,由程裕翔整理,作者为美商电脑公司独立软体顾问,更多资料请参考IBM Taiwan开发者网站:http://www2.tw.ibm.com/developerWorks/>
|
|
为了有效整合网站的资讯,目前研究学者将『关键词自动总机系统』进一步发展出语音入口网站技术(VoiceXML Voice
Portal)。此技术的应用就是方便使用者以口头的方式来获得网站的资讯,就好比如Yahoo入口网站一样,利用单一入口提供线上目录的查询,所不同的是前者是透过语音输入,后者是用文字输入。相关介绍请见「新一代人机介面
– 语音辨识技术」一文。 |
|
不本篇文章是让读者了解到,通过VoiceXML语言可以建立XML的听觉世界。并把VoiceXML文档建立在语音应用上,以及提供了一个展现VoiceXML特征和不同于HTML或XHTML的基本概念。你可在「你好,声音世界」一文中得到进一步的介绍。 |
|
2004 年3 月底,W3C公布了VoiceXML
2.0,并增加了新的语音识别语法格式,使用户能够用声音回应萤幕的提示。通过声音流览器解释VoiceXML
2.0脚本,电脑技能听懂用户的口头要求,又能说出用户所需的资讯。在「VoiceXML让你与电脑交谈」一文为你做了相关的评析。 |
|
|
|