來源:搜狐網(wǎng)
2018年3月21日,格蘭研究舉辦了中國智能語音業(yè)務集成發(fā)展峰會,從原有的機頂盒、智能電視等視頻終端等領域的研究拓展到了智能終端、智慧家庭領域,借助此次機會格蘭研究發(fā)布了《中國智能語音業(yè)務與應用發(fā)展白皮書》(以下簡稱《白皮書》),《白皮書》從語音技術發(fā)展、語音音箱市場、語音應用現(xiàn)狀、影響語音業(yè)務應用發(fā)展的因素幾個方面主要闡述了國內外智能語音音箱的發(fā)展。
語音技術提供商在不斷發(fā)力,為智能終端產品升級提供有力支撐。目前國內多數(shù)語音廠商的在安靜狀態(tài)下的語音識別準確率大都達到95%以上,支持5米遠場交互,如今均在向非標準環(huán)境下提高遠場識別準確率、降低誤喚醒率及響應速度的方向發(fā)展。
語音識別技術的發(fā)展促使語音終端市場百家爭鳴。人工智能技術在2017年席卷全球,其中語音識別技術的發(fā)展帶動了音箱市場的發(fā)展,語音智能終端的發(fā)展使得產品的推出速度不斷加快。自從2014年亞馬遜推出Echo后,國內眾多企業(yè)涌入語音智能音箱市場,語音智能音箱品類也在逐年遞增,2015年叮咚智能音箱進入市場后,其他品牌語音智能音箱開始涌入,2016年有4款語音智能音箱推入市場,2017年下半年更是呈現(xiàn)出爆發(fā)式增長,密集發(fā)布10余款語音智能音箱新品。
圖表 1 國內外智能音箱發(fā)布情況示意圖
國內智能語音音箱skills實現(xiàn)方式主要包括互動式、指令式、播放式三種。用戶喚起工具達成事務:設備在這里模式中,是用戶和生活服務的連接橋梁。解放雙手,通過語音就能控制家居、發(fā)送短信、叫外賣等等。設備為用戶提供內容:設備在這里模式中,扮演的是聯(lián)網(wǎng)音箱的基礎功能,將音樂、新聞、菜譜等內容推送給終端用戶。用戶和設備多輪交互:不再是指令式和播報式,而是和設備的多輪對話。主要用于在娛樂領域,如問答測試、情景探險、試圖對話、聽音唱歌等功能。
圖表 2 智能語音音箱skills實現(xiàn)方式
從整從整體市場來看,語音智能終端場景應用較少,主要集中在家居場景、車載場景和其他移動場景。這三類場景下有一些通用的應用領域,也有部分有場景特殊性的應用領域。
圖表 3 國內智能語音應用場景情況
目前國內智能語音智能終端支持的skills種類較少,各廠家產品應用類別相似度高,集中分布在音樂、娛樂類、生活類、智能控制家居類等。格蘭研究對市場上二十多款智能音箱功能監(jiān)測的數(shù)據(jù)來看,音樂類、娛樂類功能的應用率最高,分別達到100%和87.5%。
圖表 4 智能語音功能應用分類狀況
娛樂類應用中,聽音樂的功能應用率最高。智能音箱在具備聽音樂功能外,有很多音箱選擇了與第三方平臺進行合作,如小AI音箱、天貓精靈、叮咚音箱等都擁有海量音頻內容,可以聽取喜馬拉雅、蜻蜓FM上的電臺。
圖表 5 娛樂類應用中不同功能覆蓋率情況
生活類應用中,“鬧鐘”“天氣查詢”功能應用率最高。生活類應用種類多,但是覆蓋差別大。多數(shù)智能音箱都具備日期查詢、天氣查詢、鬧鐘等與生活息息相關的實用功能,但是各音箱支出功能差別大。
圖表 6 生活類應用中不同功能使用率情況示意圖
教育類應用中“有聲讀物”功能的應用率最高,為68.8%,兒童類應用中“兒童故事”的應用率最高,為75.0%。教育類、兒童類應用熱門,主要以互動問答形式為主,并且覆蓋內容差異化小。如何加強產品功能,讓識別時間及識別準確度成為重中之重。
圖表 7 教育類應用覆蓋率情況
圖表 8 兒童類應用覆蓋率情況
智能控制家居類應用中,支持空調功類應用、電燈應用的使用率最高。智能音箱在生活、娛樂等應用場景的功能基本大同小異,但在控制家居設備品牌上差異較大。未來,誰家的智能音箱控制的硬件設備品牌越多,誰將在智能家居控制領域占據(jù)優(yōu)勢。
圖表 9 智能控制家居類覆蓋率情況
在購物類應用中,網(wǎng)絡購物類應用率為31.3%,使用率比較低。智能音箱支持購物類應用低。對于中國消費者,習慣了貨比三家,從圖片、參數(shù)各種瀏覽外,還會去社區(qū)搜使用心得。日常消耗品還好說一些,不需要對比,但其他商品如果想僅憑“大數(shù)據(jù)”推薦,還是很大程度降低了購物體驗呢。因此網(wǎng)上購物如何語音下單成了一大亟待結局的問題。
圖表 10 購物類應用覆蓋率情況
《中國智能語音業(yè)務與應用發(fā)展白皮書》顯示,影響語音業(yè)務應用的發(fā)展,受到包括語音終端的市場規(guī)模、語音職能終端產品的價格、產品性能等造成對用戶體驗差距大,對產品褒貶不一,影響用戶對語音應用的體驗,從而進步影響市場規(guī)模化推廣;
語音應用場景較少也會影響語音應用的發(fā)展,語音應用場景趨同化多,缺乏殺手锏應用。由于語音智能終端的應用場景有限,主流應用場景和殺手級應用的缺乏,導致目前很難培養(yǎng)用戶的使用習慣;
語音識別技術識別的真實應用體驗不斷提升,但是實際應用打大折扣。在真實使用場景中,如因空間距離、背景噪音、其他人聲干擾、回聲、方言、口音等問題,識別準確率大打折扣。目前遠場識別的錯誤率是近場識別的兩倍左右,所以解決遠場以及強噪聲干擾情況的語音識別是有待進一步研究的問題。
從聽清逐漸實現(xiàn)聽懂,但是能夠滿足用戶隨心所欲的需要還需要不斷的訓練和試驗。
隨著中國語音智能終端的市場出貨量逐步增多,智能音箱skills的類型也會更加豐富、更加貼近生活、更加實用,數(shù)量增長速度也會加快。同時,隨著語音智能終端的skills數(shù)量增多,能夠滿足更多用戶多樣化需求,從而也進一步提升用戶黏性,帶動市場需求擴大,促進語音智能終端市場良性發(fā)展。