視覺中國
“語言交互是智能音箱的核心功能。智能音箱的銷量劇增,大量的語音交互會帶來多樣化的數據樣本,目前研究界都在試圖突破自然語言處理的難關,雖然從事這項研究的人比以前多很多,研究條件也很好,但理論的瓶頸、語言理解的語義鴻溝問題,不是一時半會能解決的。”
近日,谷歌在I/O開發者大會上展示了備受爭議的Duplex AI,它通過電話完成了飯館、發廊的預約,并沒被對方“識破”。但過于干凈的對話環境,也引發了一些人對于視頻真假的爭論。
語音合成技術已經可以“以假亂真”?語音交互取得了突破性進展?人和機器可以對答如流?這段展示之后,圍觀者的驚喜、質疑、擔憂紛至沓來。
技術加持 智能音箱爆發式增長
“相對于觸摸、按鈕等操縱,語音交互直接、方便、快捷。受惠于人工智能行業飛速發展,語音和語義的識別已經愈發準確。”智能設備廠商負責人趙明對科技日報記者表示。技術進步為智能音箱的產品化提供了支撐。
智能音箱的基本功能是為與人類語言互動、播放媒體音頻和智能家居提供統一入口,其中語言交互是核心功能。對于用戶來說,智能音箱可以用來查詢天氣、聽音樂、進行一些簡單問答等。對于廠商來說,智能音箱意義更大:在語音時代,它是重要的流量入口,生產大量數據,并把用戶牢牢穩固在自己的生態鏈上。
從2014年亞馬遜的智能音箱Echo面世,這種智能家居產品在過去幾年爆發式增長,巨頭紛紛入場,智能音箱發展史上的重要產品不斷出現:國外的谷歌Home、蘋果HomePod、微軟Invoke,國內的京東叮咚、聯想音箱、喜馬拉雅小雅、阿里巴巴天貓精靈、小米小愛同學等。據趙明介紹,全球智能音箱市場規模在過去幾年迅速增長,從2015年的255萬臺到2017年的3000萬臺。去年中國智能音箱市場達到176萬臺的銷量,銷售額4.9億元,市場潛力明顯。
對標Echo 產品功能初級單一
據趙明介紹,作為智能音箱領域的頭部廠商,亞馬遜通過接入Alexa語音助手以連接其他硬件軟件服務,在先發優勢和技術壁壘下,已經形成一定業務體系。亞馬遜具有深厚的電商基礎,并在內容、硬件、平臺、云計算、物流倉儲等領域布局,通過智能音箱整合軟件、硬件、平臺及內容資源,進一步盤活電商資源。
“亞馬遜Alexa平臺及云計算平臺為打通多個服務鏈條奠定了基礎,在硬件操作、軟件應用及內容觀看收聽中的海量數據被有效收集并整理,實現內容與服務的個性化。”趙明表示,亞馬遜在中文語音識別方面缺少布局,目前沒有進入中國市場,但其發展為中國市場提供了借鑒,多數廠商以Echo為對標,布局智能音箱。
但據趙明介紹,目前智能家居行業還處于整體發展的中前期,行業標準尚未形成,巨頭之間難以統一的平臺標準為智能家居的普及造成了巨大困難。“目前的AI水平較為有限,很多智能家居實現了基本的AI功能,但都比較初級單一,用戶使用體驗并不理想。”
此外,中科院自動化所研究員王金橋表示,中文語音交互存在更多特殊障礙:中文的方言和口音種類過多,交流非常困難,語義鴻溝難以跨越。“市面上的智能音箱都‘傻乎乎’的,只能用來搜索和問答一些條條框框的問題,無法理解邏輯、上下文關系等,大家買回家玩幾天,新鮮勁兒一過就閑置了。全國三百多家智能音箱廠商,沒有一家賺錢的。”王金橋說。
靈隆科技CEO魏強也曾對媒體表示,目前消費者普遍反饋智能音箱存在遠場識別差、誤喚醒率高、連續對話功能不穩定和語義理解能力差、音質不好等問題,看似火爆的智能音箱行業正在面臨創新能力弱、產品體驗差、內容和技能不足、用戶認知度低等諸多挑戰。
水平有限 仍是簡單場景的人機交互
谷歌演示Duplex AI的過程引發了真實與否的爭議:人們注意到,這些通話中的兩位女性員工都沒有在電話上提到自己公司的名稱,另外這兩個錄音中也都沒有環境噪音。不過谷歌并沒有對是否編輯過電話錄音的問題發表評論。
對于Duplex AI的表現,王金橋表示:“這只是展示了一個效果,不能說機器通過了圖靈測試,也不代表理論上的突破。況且真實性沒有驗證。如果是真實的,那確實是先進的自然語言理解,這說明大家都在往自然語言處理的方向努力。”
思必馳副總裁、語音交互科學家初敏表達了類似的觀點。“這個預約的過程難度不大,是一個簡單場景的人機交互。只是角色置換了一下,不是我們常見的‘人問機器’,而是‘機器問人’,引發了大家的熱議。”初敏說。
初敏表示,谷歌展示的“機器預約餐廳、發廊”一定是可以實現的,沒有被對方聽出來說明語音合成的效果不錯,但整體來看,全程“沒有展現有挑戰性的問題”——如多任務切換、跨場景、噪音、上下文邏輯理解等。她同樣表達了對視頻真實性的懷疑:“餐廳聽起來應該是亂七八糟的,但視頻中沒有背景噪音,所以不排除表演的可能。”
要想質變 需要自然語言處理技術突破
自然語言處理是語音交互的核心技術,也是三十年來幾乎沒有突破的痛點。通俗來說,這項技術就是“讓機器理解人”。據王金橋介紹,自然語言處理的核心是理解,希望機器能理解人的語言和目的。但每個人都是個性化的,說話的輕重緩急、重音位置,看到夕陽西下時或開心或傷感的個人感受,這些都是目前的機器無法理解的。尤其是在中文語境下,常見的一語雙關、倒裝、句式簡化等,人有時候都理解不了,對機器來說更是難上加難。
初敏表示,在語音交互背后,是語音識別、自然語言理解、對話管理、自然語言生成等諸多環節,各環節充分配合才能實現良好的交互效果。“相比于谷歌展示的預約,我們已經可以處理更復雜的交互,只是效果沒那么好。”初敏說。
“機器的認知推理和理解是一個系統的處理工程,是各種復雜算法的結合,不是單項技術能解決的。”王金橋表示。目前比較可行的限定場景下的自然語言處理,比如兒童陪伴、學科細分的語料庫,可以實現智能化交互。中國科學院院士譚鐵牛也在兩院院士大會期間談到人工智能正處在從“不能用”到“可以用”的技術拐點,距離“很好用”還有諸多瓶頸。“像‘那輛白車是黑車’‘能穿多少是多少’一類的表述,機器無法準確理解和翻譯。”譚鐵牛說。
語言交互是智能音箱的核心功能。智能音箱的銷量劇增,大量的語音交互會帶來多樣化的數據樣本,“目前研究界都在試圖突破自然語言處理的難關,雖然從事這項研究的人比以前多很多,研究條件也很好,但理論的瓶頸、語言理解的語義鴻溝問題,不是一時半會能解決的。”王金橋說。(實習記者 崔 爽)
編輯: 張潔
以上文章僅代表作者個人觀點,本網只是轉載,如涉及作品內容、版權、稿酬問題,請及時聯系我們。電話:029-63903870