CTIMES- 用語音來使喚機器吧 :

│新東西市集│東西講座│影音頻道│出版中心│智動化專區│

元件次系統自動控制

最新動態

解析2025產業趨勢：MIC所長 x CTIMES編輯

產業快訊

整合創新X智造未來TIMTOS 2025 聚焦AI新商機

汽配及移動科技產業，參展熱烈報名中!

CTIMES / 文章 /

用語音來使喚機器吧

【作者：郭志忠】 2004年08月26日星期四

瀏覽人次：【7231】

二十世紀是人類科技起飛的時代，許多重要的發明都在這個世紀誕生，如個人電腦、網際網路、個人無線通訊、以及寬頻通訊的發展等。不過在這當中，有一個重要的元素就是新世代的人機互動技術。從機器的觀點來看，可以使機器具有類似人的感知與表達能力而更有智慧性；而從人的觀點來看，可以用更自然人性的方式來獲得機器設備自動化的服務。

在人類日常生活經驗中，最主要的還是觸覺、視覺，及聽覺等這幾種互動方式。而人與機器也是以幾種人體知覺，來作為互動的方式，如(表一)。

表一　五種人體知覺作為人機互動方式分類

人體知覺	觸覺	視覺	聽覺	嗅覺	味覺
人體感官	手	眼	耳	鼻	口
人體操作與表達	按壓、旋扭、碰觸、踩踏	文字、表情、手勢、姿勢	語音、肢體聲響
傳播媒介	物理接觸	電磁波	聲波	空氣微粒	化學物質
機器Sensor	鍵盤、滑鼠	攝影機	麥克風	氣體感測器	化學感測器
機器Display	彈簧、馬達	螢幕	喇叭	氣體噴霧劑	化學藥劑

語音語言處理核心技術

語音語言是人類最重要的溝通互動方式，並可視為人與人之間的標準化通訊協定，以下就先從各個核心技術開始說明。

電話語音辨識技術

電話語音辨識技術是一種整合電腦電話及語音辨識的技術，應用這項技術可以使多項語音服務自動化，且更有效率。例如(圖一)為工研院自動總機系統的使用流程圖，透過自然的口語問句，可以查詢工研院約6500人的電話分機號碼，並自動進行轉接。其中的核心技術包括：

* 語音辨識（Speech Recognition）：可以辨識單詞語音，或是連續語音中的關鍵詞（關鍵詞粹取：Keyword Spotting）技術。如(圖一)中的語音輸入 - 「電通所王大明」，也可以改成「請問王大明的分機」或「我想找王大明先生」等，只要有包含「王大明」這個關鍵詞，它都可以辨識得出來。

* 詞語驗證（Utterance Verification）：確認所辨識之語音是否為該候選詞彙，可用以判斷非法詞彙而加以拒絕。

* 語音插話（Voice Barge-in）：電話語音輸出時，藉此技術可允許語音在輸入插話的同時，辨識出其中的語句。例如當系統還在播放「工研院自動總機您好，…」之輸出提示語音時，熟悉的使用者可以不等系統「說」完，就直接「插話」說出要找的人名。

《圖一　工研院自動總機系統使用流程圖》

語音辨識晶片韌體

語音辨識是一項運算複雜度高，又容易受噪音影響而大幅降低辨識率的技術。為了讓語音辨識器在記憶體和運算速度有限的晶片上運作，除了讓可辨識詞彙減少外，研發單位還必須適當地縮減語音模型，並發展一項運算量極小的抗噪音技術和聲音自動偵測機制，讓語音辨識器可以在DSP和8051晶片上運作。

因此，該語音辨識器除了小詞彙量的限制外，仍具有非特定語者（不需使用者輸入訓練語音）、聲音自動偵測、抗噪和即時等特點。此項技術可應用於聲控玩具、手機的語音撥號，及汽車上的冷氣、影音系統或中控鎖等。

車內環境語音辨識

汽車駕駛在開車時，若可以用語音來控制影音播放或冷氣溫度調節等動作，將可有效減少駕駛者因眼睛離開前方道路而發生危險的機會。然而一般的語音辨識器易受車內噪音干擾而降低辨識率，所以為了強化車內語音辨識器的效能，實驗單位得在頻譜上做雜訊去除處理，並以專利的方法求取特殊語音頻帶的能量參數。

而實驗結果顯示，在不同的行駛速度條件下，語音的辨識率並不會有明顯的變化，並藉此克服汽車噪音對語音辨識所造成的障礙。

語者驗證

語者驗證是利用語者聲音上的個人特徵，來進行身份的確認。有別於傳統的身分驗證方式，語者不需攜帶圖章、鑰匙、磁卡，或是其他身分識別工具，而是利用本身的聲音特性。使用者只需說出適當的語句，語者驗證系統便會抽取、比對語音中的特徵參數進行身分確認，對使用者而言十分便利。但是人的聲音本身會隨著時間而逐漸改變，所以適當的語者調適機制，能有效減緩此種特性對語者驗證造成不良的影響。

(圖二)為語者驗證系統架構圖，VAD（Voice Active Detection）為語音偵測模組，用來偵測輸入語音段落。Speaker Model代表某一特定語者之語音特徵參數模型；而Anti Model則代表其他語者的語音特徵參數模型。語者驗證就是藉由比對輸入語音與這兩個模型的相似性，以決定接受或拒絕其驗證結果。

《圖二　語者驗證系統架構圖》

文字轉語音合成技術

文字轉語音合成技術是透過電腦處理後，將任意輸入的文字轉換成語音輸出。使用者不需要針對特定文字內容預錄語音，只要將文字內容輸入電腦，電腦即會自動處理包括日期、時間、電話、金額、項次等數字的正確讀法，同時也可以處理常見特殊符號、英文縮寫等正確讀法。這項技術採用具有中文斷詞容錯能力的韻律合成，並生成音質無衰減及具有韻律變化的合成語音，提供近似真人的發音。

語音合成技術應用的範圍非常廣泛，例如：中文朗讀機、電子郵件電話隨聽系統、人機口語交談系統、網路有聲導覽、電腦電話整合（CTI）、語音入口網站（Voice Portal）、數位助理（PDA）、語言教學軟體、身心障礙輔助等應用。

《圖三　工研院文字轉語音合成技術設計與合成系統流程圖<資料來源：http://atc.ccl.itri.org.tw/>》

語音訊號強化技術

使用如免持聽筒電話、視訊會議等免手持通訊系統，通常都以免手持式麥克風（Microphone）與揚聲器（Loudspeaker）作為輸入／輸出裝置。但使用這種裝置於汽車或會議室等密閉空間時，常會面臨語音品質不佳的問題，其發生的原因通常是由聲學迴音（Acoustical Eecho）及背景噪音等造成，如(圖四)。語音訊號強化技術的目的，就是要設法去除麥克風輸入訊號中，所隱藏的迴音及噪音，並提升此類免手持通訊系統的通話品質。

《圖四　聲學迴音與背景噪音所造成的不良通話品質》

中文斷詞與名詞辨識

相對於英文書寫中每個字（word）之間都會有空白間隔，使斷詞更為容易，但中文在這方面就顯得較為困難。因為中文自然語言處理中，最小的基本單位是「詞」；而在中文書寫中，每個最小的單位是「字」。因此在中文的文章中只有字的界線而無詞的界線。只有正確地將文章的斷詞，才能使更高層次的自然語言分析模型（關鍵詞組、句法、語義等）得以進行，所以中文斷詞是個相當基礎且非常重要的工作。

而如果可以將文章中特殊名詞，如人名、時間、數字、組織名稱等辨識出來，則將會有效地提升斷詞準確度。當然中文斷詞與名詞辨識的成效，將影響許多自然語言處理（NLP）的應用成敗，例如文件管理，資訊檢索、語音辨識、機器翻譯等。

《圖五　工研院中文斷詞與名稱辨識系統架構》

語音語言整合應用技術

在不同的平台或情境的條件下，整合各種語音核心技術，並結合各種資訊、通訊技術，以發展出更複雜的應用技術。

資訊家電語音介面技術

目前的資訊家電，如PDA和SmartPhone等，隨著科技不斷地精進下，在體積與功能上也漸趨短小精幹，因此更需要輕薄短小，及適合人機溝通的語音介面來進行輔助。目前的資訊家電語音介面技術具有快速、方便和高辨識率的優點，可讓使用者輕易地經由語音命令，來完成資訊家電的操作與服務功能。

這種介面程式內建HMM語音模型，不須經過使用者的訓練，即可同時辨識1000個以上詞彙，辨識率達93%以上，另外文字轉語音核心可用來閱讀Email等Internet上的文字資訊。

這種介面適用於各資訊家電產品，以及WinCE和Linux等作業系統；不過因本身是純軟體化的設計，所以不需大量的硬體需求。此外，辨識與文字轉語音核心包裝成函式庫的設計，可輕易的配合客戶的應用軟體修改使用。

口語對話系統

口語交談系統是以口語來和機器作溝通的技術，為了要使機器能像人一樣對答，必須包含以下的模組：語音辨認模組（Speech Recognition）、語言理解模組（Language Understanding）、交談管理模組（Dialogue Management）、語言生成模組（Language Generation）、語音合成模組（Speech Synthesis）。

使用者在輸入語音訊號（Speech）後，由語音辨認模組轉換成文字（Text）。而語言理解模組會藉由語法和語意分析，將文字轉換成代表意念的語意框架（Semantic Frame）。此時，交談管理模組會依據這些語意框架來決定交談流程，產生系統回應的語意框架，再傳至語言生成模組生成文字語句（Text）。最後再由語音合成模組將生成的語句，轉成語音回答使用者（Speech）。

《圖六　口語對話系統流程圖》

語音代理人

「語音代理人」技術是線上即時對話系統（On - Line Spoken Dialogue System）的延伸，除了線上對話之外，還提供離線工作委派（Off - Line Task Delegation）的功能，如使用者可提出「明天早上六點半叫我起床」、「台積電漲到五十元時通知我」等需求。因此「語音代理人」技術須扮演兩個不同角色：

1. 與使用者溝通並確認委派的工作內容，如同一般的對話系統。

2. 離線執行委派的工作，例如監控執行委派工作的條件、向其他系統要求相關資料等，如同代理人（Agent）的角色。

《圖七　口語對話系統流程圖》

跨語言交談介面技術

跨語言交談介面的輸入／輸出可以是文字、手寫字或語音，其核心技術包含語音辨識、手寫字辨識、翻譯機制，及語音合成等。語音翻譯技術目前的技術發展現況係以特定領域應用為主，在語音辨識及語音合成方面，則是採用一種語言配置一個語音辨識引擎與及一個語音合成引擎的做法。至於翻譯機制的部分，則以兩階段中介語（Interlingua）法間接式翻譯為主，也就是將語音辨識結果經語法（Syntactic）與語意（Semantic）分析後，透過翻譯模組做翻譯，並再將翻譯結果合成語音後輸出。

《圖八　跨語言交談介面流程圖》

結語

在人機互動的介面中，語音技術是最傳統也是最具實用性。不過除了語音之外，還有以影像為主的影像視覺技術，或以仿人型態的多元模式技術等。雖然目前這些技術還未完全研發完成，但已有一些研究單位已經在應用了，如國內的工研院等。此外，許多家電用品也可見到語音技術的蹤跡，如PDA或聲控電扇、電燈等。在語音技術日趨成熟之際，相信也會帶動起其它人機互動介面的技術，讓家電能夠更人性化，並了解人類的需求。

＜作者為工研院電通所前瞻技術中心副主任＞