產業與經濟
中文語音聲控夯 大陸專利申請蓬勃

張瑋容╱北美智權報 編輯部

2012.10.02
         

隨著 Siri 開始說中文,各種中文聲控語音服務也不斷推陳出新,使用者習慣即將改變。大陸在語音專利申請方面,近幾年方興未艾,主要集中於G10L(語言分析或合成;語言識別)、H04L(數位資訊的傳輸,例如電報通信)、H04M(電話通信)等技術分類項目;中文語音搜尋服務也漸漸取代傳統打字方式。


語音辨識技術由來已久,隨著 iOS 6的推出、Siri 開始講中文,中文語音辨識技術可說是各大廠商討論及努力的方向。語音識別以及語音合成技術語音識別技術,也被稱為自動語音識別(英語:Automatic Speech Recognition, ASR),其目標是將人類的語音中的辭彙內容轉換為電腦可讀的輸入,並且以自然語言對答、回應需求。

除了手機積極發展語音系統之外,汽車、家電等也積極走向智慧化,發展聲控功能。除此之外,網頁搜尋也漸漸從打字發展到語音搜尋,Siri 所掀起的語音搜尋風潮,預計未來也將造成網頁搜尋習慣的改變。而儘管語音技術發展歷程已久,仍有些技術上的問題有待突破,辨識技術所涉及的領域包括:信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等,從近年的專利申請也可看出其技術突破情形及發展方向。

北美智權報在 68 期文章中曾介紹「口音多、聲控技術中國最難!」關於中國大陸語音辨識市場的發展概況,在探討各家廠商的發展策略方向後,為使相關業者初步掌握大陸語音辨識領域的專利技術發展趨勢,本文將藉由蒐集相關專利申請資料、結合關鍵詞檢索的方式,一窺語音辨識領域技術發展與國際專利(IPC)分類的對照關係,以對大陸中文語音辨識發展的趨勢做初步分析,供國內廠商參考。

儘管 IPC 分類統計會因為特定技術在不同產業領域的應用而產生分類上的誤差,但仍可透過該技術領域的重點技術,來從中掌握現階段個別產業的專利布局及技術發展。以下即依據在大陸申請的相關專利(包括未授權的專利申請和已授權的專利),進行語音辨識領域專利技術趨勢的分析。然而,由於發明專利申請特有的公開制度,一般專利數據都存在兩年左右的檢索盲點,因此2011年以前的數據能比較準確的反應語音辨識技術的發展趨勢。

一、中國語音辨識專利申請概況

自1985開始有語音相關專利申請開始,截至目前今年10月初止,大陸在語音領域的發展已有將近30年之久。如表一所示,大陸在語音領域申請件數共計6031件,目前大陸申請的語音辨識領域的專利主要分佈在21個四級IPC分類中,但主要的專利申請集中分佈在 G10L(   語言分析或合成;語言識別)、H04L(數位資訊的傳輸,例如電報通信)、H04M(電話通信)等技術分類項目中。語音辨識的核心技術是語言分析或合成,因此從技術的角度看,語音辨識技術是一個高技術含量的領域,要具有較高技術實力備援的企業才能進入該領域的技術研發。若要成為產業鏈上的主導者,廠商需要產業環境的成熟和產業鏈上每個環節的配合。新技術的應用,需歷經原有系統的更新換代及使用者的習慣養成,這也增加了語音技術普及的時間成本。莫怪乎中國語音技術發展了將近30年,在語音控制領域仍未能開枝散葉。儘管如此,從專利申請的熱絡看來,市場精彩程度未來可期。

表一、中國在語音領域申請件數及範圍分佈
分類號 定義範圍 發明專利件數 實用新型專利件數
B60R 其他類不包括的車輛,車輛配件或車輛部件 25 67
G06F 電數位資料處理 665 162
G10L 語言分析或合成;語言識別 2192 298
G11B 基於記錄載體和換能器之間的相對運動而實現的資訊存貯 45 56
H04L 數位資訊的傳輸,例如電報通信 922 74
H04M 電話通信 1372 294
H04N 圖像通信,例如電視 191 86
H04Q 選擇 619 63
資料來源:SIPO      統計製表:張瑋容     搜尋日期:2012年10月1日
搜索條件:各分類號 / 名稱:語音

二、近五年大陸語音辨識領域不同類型專利申請件數分析

如前所述,在21個四級IPC分類中,主要的專利申請集中分佈在 G10L(語言分析或合成;語言識別)、H04L(數位資訊的傳輸,例如電報通信)、H04M(電話通信)等技術分類項目中。語音辨識領域專利,不會出現「外觀設計專利」的申請,此表二僅統計「發明專利」及「實用新型專利」的部份。受公開日的限制,2011年及2012年的數據可能尚未準確,因為仍有專利未公開,這也是專利檢索上的盲點。儘管如此,從每個項目的發明和實用新型專利申請的件數看來,2011年和2012年並沒有因為專利申請尚未公開、而呈現申請數量較少的情形,意即近兩年來,大陸在語音方面的技術發展較往年積極活絡,中文語音控制的市場預計也將在今明年更加明朗。

表二、中國近五年2008~2012年語音領域專利申請件數
  2008 2009 2010 2011 2012
B60R 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型
3 2 3 5 1 6 2 11 5 5
G06F 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型
63 9 63 11 50 7 58 20 58 17
G10L 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型
238 20 200 14 203 32 217 69 249 45
G11B 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型
4 3 4 5 8 10 3 4 3 3
H04L 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型
130 3 104 9 76 3 81 26 113 13
H04M 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型
206 20 172 35 144 27 103 43 116 38
H04N 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型
23 3 25 11 30 20 30 22 20 13
H04Q 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型 發明 實用新型
150 11 40 2 9 4 3 9 8 9
資料來源:SIPO      統計製表:張瑋容     搜尋日期:2012年10月1日
搜索條件:公開(公告)日/年份 + 各分類號 + 名稱:語音

三、崛起的中文「語音搜尋」服務

中文語音辨識技術的崛起,連帶使搜尋服務也往語音搜尋方向移動。大陸在語音技術領域中著墨較久遠的科大訊飛公司,聯想集團為其股東之一,日前由聯想與科大訊飛合作開發的「樂語音」,支援中文語音,也支援大陸內地的主流方言,可以藉由對漢語的識別自動調用應用程式,並幫助用戶完成操作。大陸知名搜尋引擎百度,今年年中才成立了百度多媒體部門,專門從事語音、圖像等方面的研究。百度現也提供語音搜尋服務,用戶可以透過如「掌上百度」、「百度手機地圖」等入口來體驗語音搜尋服務。大陸新版的聊天通訊軟體騰訊QQ在多功能輸入欄裏出現了一個「語音輸入」,用戶可以使用麥克風輸入語音,就可以實現語音轉化成文字的操作,無需使用鍵盤輸入。由以上網站提供的語音搜尋服務可發現,隨著手機裝置及網路頻寬的進步,入口網站也必須開發語音搜尋服務,以符合使用者漸趨改變的搜尋習慣。

四、中文聲控朝應用工具發展 新增音調搜尋趨勢

Siri中文版的推出,很多使用者仿著詢問英文版 Siri 的方式,網路上出現了許多搞笑、逗弄的有趣對話,如詢問 Siri 是否單身、愛不愛我、人生的意義等。現階段因為中文化的 Siri 發展尚未成熟,用戶還不能用自己所常使用的說話方式、也還不能得到精確的回答結果,因此目前中文版的 Siri 還是有娛樂消遣的用途存在,並非全然成為不可或缺的應用工具。而為了使手機語音搜尋服務技術加速成熟,開發商必須不斷採集用戶的聲音、用戶語言,來建立完整的語音庫、語料庫等,使產品逐漸成熟。音調搜尋也會是未來的研究方向,如果想找音樂能簡單哼出音調或旋律,那搜尋音樂的結果便能出現曲目。

五、語音技術仍面臨諸多挑戰:訊息如何分段、雜訊干擾等

目前語音辨識技術在實現上還有幾大問題需要克服:

1. 對自然語言的辨識和理解:每人說話習慣不一樣、訊息斷句也不同,如何處理語音訊息的分段,首先必須將連續的講話分解為詞、音素等單位,其次要建立一個理解語義的規則。而語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個說話人在隨意說話和認真說話時的語音資訊是不同的。這對語音辨識技術而言,仍有一段路要走。

2. 辨識模型複雜度高。語言常常具有模糊性,需要根據上下文才能判斷正確的用詞。尤其英文和中文中,常出現聽起來很相似的詞。而目前使用的聲學模型和語音模型尚未成熟,只能進行特定辭彙的識別。又如果對著手機突然從中文語音轉為英文,或者法文、俄文,系統就會不知如何反應,而給出一堆不精準或詢問是否需要網路搜尋的句子。

3. 語音訊息的差異性大:這部份受到說話速度、習慣、生理狀況、性別、年齡、地域等影響,尤其聲音有情緒,單個字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調、音量和發音速度等。這部份也會造成語音判讀的失誤。

4. 辨識率易受背景雜訊的影響。對語音識別效果影響最大的就是環境雜音或嗓音,在公共場合,手機常常無法抓到使用者的話,來自四面八方的聲音干擾常讓手機語音反應很鈍或茫然而不知所措。因此,如何發展手機抗噪音技術,也是現階段要努力的方向。

 

 
Facebook 按讚馬上加入北美智權報粉絲團