智能音箱如何識別方言?
[時尚] 時間:2025-12-11 01:05:49 來源:骨軟筋酥網 作者:探索 點擊:105次
導讀:盡管機器學習使語音識別技術的音箱發展突飛猛進,如今這些語音識別系統還是何識不夠完美,最嚴重的別方西安外圍上門外圍女(微信199-7144-9724)提供頂級外圍女上門,可滿足你的一切要求問題就是有地域歧視性。
自從IBM的音箱Shoebox和Worlds of Wonder的玩具娃娃Julie doll發布以來,語音識別技術一直在不斷地發展。何識到2018年底,別方Google Assistant支持超過30種不同的音箱語言。
高通也開發了一款可以識別單詞和短語的何識語音識別系統,其準確率高達95%。別方此外,音箱微軟的何識智能語音客服比人工呼叫服務更加準確高效。
然而,別方盡管機器學習使語音識別技術的音箱西安外圍上門外圍女(微信199-7144-9724)提供頂級外圍女上門,可滿足你的一切要求發展突飛猛進,如今這些語音識別系統還是何識不夠完美,最嚴重的別方問題就是有地域歧視性。
華盛頓郵報最近進行的一項研究結果顯示,谷歌和亞馬遜研發的流行智能語音助手識別非美國本地口音的準確率要比美國本地口音低30%。
像IBM和微軟這樣的公司都會通過Switchboard語料庫來降低語音助手的出錯率。但是事實證明,語料庫也無法徹底解決語音助手的口音識別問題。
“數據是混亂的,因為數據反映了人性,”埃森哲的全球責任AI監理Rumman Chowdhury說,“這就是算法最擅長之處:尋求人類行為模式。”
算法偏差表示機器學習模型對數據或者設計產生偏見的程度。很多新聞報道都對面部識別系統(尤其是亞馬遜網絡服務的圖像識別Rekognition)產生了不小的偏見。

而且,算法偏差還會出現在其他方面,比如預測被告是否會在未來犯罪的自動化系統以及谷歌新聞等app背后的內容推薦算法。
微軟以及包括IBM、高通和Facebook在內的AI行業領導者已經開發出自動化工具,用于檢測并減少AI算法中產生的偏差,但很少有人能夠提出口音識別問題的具體解決方案。
真正提出解決方案的只有兩家公司。一個是Speechmatics,另一個便是Nuance。
解決口音差距問題
Speechmetrics是一家專門研究企業語音識別軟件的劍橋科技公司,它于12年前就開始實施了一項雄心勃勃的計劃,旨在開發比市場上任何產品更準確全面的語言識別系統。
該公司最初是研究統計語言建模和循環神經網絡。它開發了一種可以處理內存輸出序列的機器學習模型。2014年,它利用一個十億字節的語料庫加速其統計語言建模的發展,從此邁出了第一步。
到了2017年,它又邁向了另一個里程碑:與卡塔爾計算研究所(QCRI)合作開發了阿拉伯語言文字轉換服務。
“我們已經發現我們需要開發一款語音識別系統,只需一種模式便能適用于所有語言,不再有口音問題,并且它識別澳大利亞口音的準確度和轉錄蘇格蘭口音一樣高。”Speechmatics首席執行官Benedikt vonThüngen說。
他們在今年七月成功研發了一款這樣的語音識別系統Global English。它擁有40多個國家的數千小時的語音數據和數百億單詞,支持所有英語口音的語音文本轉換功能。
此外,Global English的建立還離不開Speechmatic的Automatic Linguist,這是一種人工智能框架,通過利用已知語言中識別的模式來學習新語言的語言基礎。
“假設你一邊要和美國人交談,另一邊還要和澳大利亞人交流,而且這個美國人曾經住在加拿大,所以有加拿大口音,這時大多數的語音識別系統都會很難識別這種帶有不同口音的語言,但是我們的語音識別系統就完全不用擔心這個問題。”Speechmatics公司產品副總裁Ian Firth在一次采訪中說。
在測試中,Global English在識別特定的口音方面表現的比谷歌的Cloud Speech API和IBM的Cloud還要出色。Thüngen表示,在高端領域中,它的準確率比其他產品還要高23%到55%。
Speechmatics并不是唯一一家想要解決口音識別問題的公司。
總部位于馬薩諸塞州柏林頓的Nuance表示,它將采用多種方法,確保其語音識別系統能夠識別將近80種語言,并且準確率都一樣高。
在其英國語言模型中,它收集了20個特定方言區域的語音和文本數據,包括每種方言獨有的單詞(比如使用單詞“cob”特指面包卷)及其發音。因此,這款Nuance的語音識別系統便能識別出“Heathrow”的52種不同表達方式。
如今,Nuance語音識別系統又有了新的發展。更新版本的Dragon是Nuance研發的定制語音文本轉換軟件組合,其機器學習模型可根據用戶的口音在幾種不同的方言中自動切換。
與沒有方言自動切換功能的舊版本相比,新版本的語音識別系統識別帶有西班牙口音的英語的準確率要高22.5%,識別美國南部方言的準確率要高16.5%,識別東南亞英語的準確率要高17.4%。
數據越多越好
歸根結底,語音識別的口音問題是由于數據不足產生的。語料庫的質量越高,語言模型越多種多樣,那么至少從理論上來說語音識別系統的準確率越高。
在華盛頓郵報的研究中,Google Home智能語音助手識別美國南部語言的準確率要比識別美國西部語言的準確率低3%。而亞馬遜的Echo識別美國中西部語言的準確率要低2%.
亞馬遜的一位發言人告訴華盛頓郵報,隨著更多的用戶用不同的口音說話,Alexa的語音識別能力會不斷提高。并且,谷歌在一份聲明中表示,他們將通過擴大自己的數據庫,不斷改進Google Assistant的語音識別技術。
隨著使用語音識別系統的用戶越來越多,它們的功能會進一步提升。根據市場研究公司Canalys數據顯示,到2019年之前,將近1億智能語音系統在全球銷售。并且,在2022年之前,大約55%的美國家庭都會擁有一個智能語音系統。
不要指望有徹底解決口音問題的方案。“按現在的技術發展,你不可能研發出準確率最高并且適用于全世界用戶的語音識別系統,”Faith說。“你能做的最好的事情便是保證這些語音識別系統能夠準確識別那些正在使用它們的用戶的口音。”
自從IBM的音箱Shoebox和Worlds of Wonder的玩具娃娃Julie doll發布以來,語音識別技術一直在不斷地發展。何識到2018年底,別方Google Assistant支持超過30種不同的音箱語言。
高通也開發了一款可以識別單詞和短語的何識語音識別系統,其準確率高達95%。別方此外,音箱微軟的何識智能語音客服比人工呼叫服務更加準確高效。
然而,別方盡管機器學習使語音識別技術的音箱西安外圍上門外圍女(微信199-7144-9724)提供頂級外圍女上門,可滿足你的一切要求發展突飛猛進,如今這些語音識別系統還是何識不夠完美,最嚴重的別方問題就是有地域歧視性。
華盛頓郵報最近進行的一項研究結果顯示,谷歌和亞馬遜研發的流行智能語音助手識別非美國本地口音的準確率要比美國本地口音低30%。
像IBM和微軟這樣的公司都會通過Switchboard語料庫來降低語音助手的出錯率。但是事實證明,語料庫也無法徹底解決語音助手的口音識別問題。
“數據是混亂的,因為數據反映了人性,”埃森哲的全球責任AI監理Rumman Chowdhury說,“這就是算法最擅長之處:尋求人類行為模式。”
算法偏差表示機器學習模型對數據或者設計產生偏見的程度。很多新聞報道都對面部識別系統(尤其是亞馬遜網絡服務的圖像識別Rekognition)產生了不小的偏見。

而且,算法偏差還會出現在其他方面,比如預測被告是否會在未來犯罪的自動化系統以及谷歌新聞等app背后的內容推薦算法。
微軟以及包括IBM、高通和Facebook在內的AI行業領導者已經開發出自動化工具,用于檢測并減少AI算法中產生的偏差,但很少有人能夠提出口音識別問題的具體解決方案。
真正提出解決方案的只有兩家公司。一個是Speechmatics,另一個便是Nuance。
解決口音差距問題
Speechmetrics是一家專門研究企業語音識別軟件的劍橋科技公司,它于12年前就開始實施了一項雄心勃勃的計劃,旨在開發比市場上任何產品更準確全面的語言識別系統。
該公司最初是研究統計語言建模和循環神經網絡。它開發了一種可以處理內存輸出序列的機器學習模型。2014年,它利用一個十億字節的語料庫加速其統計語言建模的發展,從此邁出了第一步。
到了2017年,它又邁向了另一個里程碑:與卡塔爾計算研究所(QCRI)合作開發了阿拉伯語言文字轉換服務。
“我們已經發現我們需要開發一款語音識別系統,只需一種模式便能適用于所有語言,不再有口音問題,并且它識別澳大利亞口音的準確度和轉錄蘇格蘭口音一樣高。”Speechmatics首席執行官Benedikt vonThüngen說。
他們在今年七月成功研發了一款這樣的語音識別系統Global English。它擁有40多個國家的數千小時的語音數據和數百億單詞,支持所有英語口音的語音文本轉換功能。
此外,Global English的建立還離不開Speechmatic的Automatic Linguist,這是一種人工智能框架,通過利用已知語言中識別的模式來學習新語言的語言基礎。
“假設你一邊要和美國人交談,另一邊還要和澳大利亞人交流,而且這個美國人曾經住在加拿大,所以有加拿大口音,這時大多數的語音識別系統都會很難識別這種帶有不同口音的語言,但是我們的語音識別系統就完全不用擔心這個問題。”Speechmatics公司產品副總裁Ian Firth在一次采訪中說。
在測試中,Global English在識別特定的口音方面表現的比谷歌的Cloud Speech API和IBM的Cloud還要出色。Thüngen表示,在高端領域中,它的準確率比其他產品還要高23%到55%。
Speechmatics并不是唯一一家想要解決口音識別問題的公司。
總部位于馬薩諸塞州柏林頓的Nuance表示,它將采用多種方法,確保其語音識別系統能夠識別將近80種語言,并且準確率都一樣高。
在其英國語言模型中,它收集了20個特定方言區域的語音和文本數據,包括每種方言獨有的單詞(比如使用單詞“cob”特指面包卷)及其發音。因此,這款Nuance的語音識別系統便能識別出“Heathrow”的52種不同表達方式。
如今,Nuance語音識別系統又有了新的發展。更新版本的Dragon是Nuance研發的定制語音文本轉換軟件組合,其機器學習模型可根據用戶的口音在幾種不同的方言中自動切換。
與沒有方言自動切換功能的舊版本相比,新版本的語音識別系統識別帶有西班牙口音的英語的準確率要高22.5%,識別美國南部方言的準確率要高16.5%,識別東南亞英語的準確率要高17.4%。
數據越多越好
歸根結底,語音識別的口音問題是由于數據不足產生的。語料庫的質量越高,語言模型越多種多樣,那么至少從理論上來說語音識別系統的準確率越高。
在華盛頓郵報的研究中,Google Home智能語音助手識別美國南部語言的準確率要比識別美國西部語言的準確率低3%。而亞馬遜的Echo識別美國中西部語言的準確率要低2%.
亞馬遜的一位發言人告訴華盛頓郵報,隨著更多的用戶用不同的口音說話,Alexa的語音識別能力會不斷提高。并且,谷歌在一份聲明中表示,他們將通過擴大自己的數據庫,不斷改進Google Assistant的語音識別技術。
隨著使用語音識別系統的用戶越來越多,它們的功能會進一步提升。根據市場研究公司Canalys數據顯示,到2019年之前,將近1億智能語音系統在全球銷售。并且,在2022年之前,大約55%的美國家庭都會擁有一個智能語音系統。
不要指望有徹底解決口音問題的方案。“按現在的技術發展,你不可能研發出準確率最高并且適用于全世界用戶的語音識別系統,”Faith說。“你能做的最好的事情便是保證這些語音識別系統能夠準確識別那些正在使用它們的用戶的口音。”
(責任編輯:知識)
相關內容
- 小老鼠的魔法棒的故事
- VR游戲《止尸走肉:猛攻》9月29日出售 新真機預報放出
- 一減5國際版重獲安卓8.0更新:建復Bug -
- 魅族15 Plus靠譜襯著圖 屏下指紋去了? -
- 《光之子》和《勇敢的心》將登陸switch 10月11月上線
- 三星Note9被曝正在好測試 屏下指紋有戲 -
- 三星S9真機上足照暴光?跟奧運甚么干系 -
- 游仄易遠晨播報:Remedy已正在開辟下款做品 《譽滅兵士:永暫》新DLC預報
- 恐怖冒險游戲《失落的畫廊》上架Steam商店頁面預計于9月發售
- 游仄易遠晨播報:EA會員辦事即將改名 Xbox終究游戲大年夜特賣開啟
- 佛山躲寒叢林公園有哪些
- 齊球游戲玩家超30億 亞洲游戲消耗者占多數
- 人氣貓咪RPG《貓咪斗惡龍3》新預告公布8月8日正式發售
- 三星S9韓版跑分炸裂!獵戶座傲視群雄 -
精彩推薦
- 小熊的野餐之旅的故事
- 2021佛山順峰猴子園穗冠花賞花攻略
- 疑似HTC U11+新配色 白白水水賣價5200 -
- 松跟潮流?HTC U12 Life或將采與劉海屏 -
- 最受歡迎游戲《彩虹六號:圍攻》全球玩家超3000萬
- 2021天津圓特暑假停業時候
熱門點擊
- 重慶江北區找小姐上門服務的辦法[微信1662+044-1662][提供外圍女上門服務快速安排面到付款不收定金 views+
- 廣州荔灣區外圍上門特殊全套服務vx:365-*2895) views+
- 佛山大瀝同城美女約炮[微信1662+044-1662][提供外圍女上門服務快速安排面到付款不收定金 views+
- 廣州增城找外圍小姐上門服務(微信電話vx:365-*2895) views+
- 湖南衡陽市外圍妹子上門【微電192=1819=1410 views+
- 廣州天河區同城美女約炮[微信1662+044-1662][提供外圍女上門服務快速安排面到付款不收定金 views+
- 北京朝陽區外圍女上門服務vx:365-*2895 views+
- 襄陽美女上門服務上門按摩vx:365-*2895). views+
- 重慶沙坪壩區外圍(外圍模特)外圍兼職[微信1662+044-1662][提供外圍女上門服務快速安排面到付款不收定金 views+
- 佛山里水 本地小姐上門服務[微信1662+044-1662][提供外圍女上門服務快速安排面到付款不收定金 views+
