前言:一篇好的文章需要精心雕琢,小編精選了8篇語音識別技術范例,供您參考,期待您的閱讀。
網絡安全領域智能語音識別安全技術
摘要:人類獲取信息的方式主要通過語言、圖像、文字三種方式。語音識別技術也稱之為自動語音識別技術AutomaticSpeechRecognition(ASR),通俗地講,這是一項可以讓機器聽懂人類自然語言及意圖并執行相關指令或操作的技術。人類對語音識別技術的研究可追溯到20世紀50年代,但技術的落地并快速嵌入產品應用的時間卻在21世紀的第一個十年的尾聲,在自動語音識別飛速發展的今天,所帶來的網絡安全風險與暴露的技術缺陷問題也日益凸顯,對企業或個人造成的影響不可小覷。本文簡單論述了自動語音識別技術的運用分析,通過研究,闡述了在網絡安全領域中的風險以及利用自動語音識別技術的主要攻擊手段。
關鍵詞:自動語音識別技術;網絡安全;攻擊
1自動語音識別技術發展現狀
人類對未知領域的探索從未停止,且腳步愈發加快。在自動語音識別技術領域的探索研究始于1952年AT&T貝爾實驗室的Audry系統,該系統可識別0~9十個數字發音,從此,人類打開了自動語音識別技術的大門,并在21世紀開始了爆發式技術躍進,時至今日,自動化語音識別技術應用場景已開始實現到家居、車載、客服、教育、金融、網絡安全等等各個方面,搭載有自動語音識別技術的產品數不勝數。其中在網絡安全領域也得到廣泛普及,例如利用自動語音識別技術監測網絡語音數據及輿情監控。自動語音識別技術發展迅速,同時對國家經濟發展和國家安全都有著很重要的作用。
2自動語音識別技術實現原理簡要說明
自動語音識別系統本質上是一套模擬識別系統,須有硬件設備與操作系統作為支撐,同時需要海量語音樣本數據作為基礎,通過識別特征信息進行樣本匹配,進而達到語義識別的目的。由上圖可看出,自動語音識別技術的核心要點主要為:(1)訓練;(2)識別。兩者為自動語音識別技術的核心要點。
2.1訓練
便捷式售貨智能語音交互系統設計探究
摘要:文章將智能售貨控制技術和智能語音識別技術進行嵌入融合,并通過無線通訊技術,設計了一款便捷式售貨智能語音交互控制系統,系統由基本的硬件平臺、基于Linux的軟件平臺以及語音識別處理平臺構成,著重介紹了通過語音識別技術自動識別售賣系統,實現了零售機器內商品無接觸、全語音化智能購買體驗,為用戶提供高效、快捷的零售智能交互體驗。
關鍵詞:智能售貨;智能語音;交互控制
引言
隨著居民生活水平的逐漸提高,以及科學技術的飛速發展,終端商品銷售渠道向無人化趨勢發展;其中無人售貨機器將成為推動終端“新零售”的主力軍,用戶作為無人零售機器的終端用戶,用戶體驗的便捷性、高效性直接關系到零售機器產品本身的銷量和零售機器貨物的銷售額,傳統零售機器的控制主要采用手動觸摸顯示屏,在觸摸屏上選擇購買的商品,電機結算,然后選擇支付方式(刷臉支付或二維碼支付),最后支付完成。對于智能化高度發展的今天,普通的點觸方式已不能滿足消費者的需求,在零售過程中如何更智能、更便捷地操作,成為亟需解決的問題,同時也影響著消費者的用戶體驗。隨著智能語音識別技術的發展,語音識別率的逐漸增加,智能語音技術在智能家居場景開始不斷應用,在智能語音零售機器的產品已成為未來的發展趨勢,也將在未來市場中占有更高的市場保有率。本文將以智能零售控制技術為基礎,結合智能語音識別技術,進行數據的嵌入融合,對智能語音控制系統進行設計,實現零售機器可通過語音完成商品的無接觸購買,使得消費者擁有更便捷、高效的交互體驗。
1設計方案
1.1系統設計和功能設計。系統包括軟件和硬件系統,系統操作軟件將在Linux平臺下,運用語音識別技術和零售控制技術,實現零售的智能語音控制。包括嵌入式(Linux)軟件平臺、語音識別處理平臺、通訊技術、硬件平臺(Cortex-A7),實現零售機器的智能控制??傮w設計如圖1所示。嵌入式(Linux)軟件平臺包括語音識別處理APP、零售控制平臺和無線通信處理模塊,實現語音識別算法處理、語義分析處理、零售控制邏輯處理以及遠程控制等功能。語音識別處理平臺通過云知聲識別模塊,實現系統的語音喚醒、語音識別和語音合成。硬件平臺(Cortex-A7)包括處理器模塊、MIC語音輸入、Speaker語音輸入、顯示模塊、通信模塊組成,實現語音采集、輸出及通信控制[1]。系統主要實現以下功能:(1)實現語音控制零售機器開機和關機;(2)實現語音選擇商品的種類、數量;(3)實現語音選擇商品支付方式,并可刷臉支付;(4)實現智能語音對話,天氣查詢、地理信息查詢等技能。
1.2硬件設計。在上述功能需求下,以及軟件的要求,對市場中各硬件模塊組件進行調研,篩查包括語音交互模塊、處理器模塊、顯示模塊、通訊模塊等并對其進行分析:(1)語音交互模塊:對市場中語音設備進行分析,語音硬件設備將選用同心雙環陣列布局,根據同心雙環特點車身外殼進行了對應的出音孔設計,最遠可實現4米語音識別,識別率在95%以上;并配備有一個智能擴音器,同時受自身和外界雜音干擾小。(2)處理器模塊:對比分析后選用Cortex-A7內核的RK3308處理器,四核、主芯片內置音頻CODEC和ADC,為滿足支持多喚醒詞和命令詞,選用64M內存和256M滿足計算和存儲要求,整體硬件系統支持多種喚醒詞,可滿足用戶正常的零售商品購買需求[2][3]。(3)顯示模塊:選用高精度一體式工業顯示屏,通過觸屏可實現控制零售機器開啟、關閉、購買、宣傳等信息;語音購買流程的顯示,以及下一步的提示都會在顯示屏中呈現。(4)通訊模塊:本系統通過總線與零售機器進行通訊,依據兩芯雙絞線實現無極性通信及供電,不用另外布置線束供電。
人工智能時代語音信號處理分析
摘要:本文在分析“語音信號處理”課程的傳統教學內容結構及特點的基礎上,通過拓展理論知識和開展綜合創新課程項目,探索融入新理論和新技術的教學方法。激發學生學習的積極性和主動性,培養學生關注新方法和新技術的發展及其應用的能力,加強學生團隊分工合作的意識及與教師的互動,提高教與學的質量。
關鍵詞:語音信號處理;理論拓展;綜合創新項目
0引言
“語音信號處理”課程是繼“信號與系統”、“數字信號處理”課程之后的信息類專業重要的選修課程。它主要是針對語音信號的短時平穩特性,學習語音信號產生的過程、建模、時頻域分析和各種處理方法與應用。因此該課程既包含基本概念、模型和方法,又涵蓋了識別、增強、編碼等很多技術與應用。因此,學生感覺這門課程的基礎部分像數學課,首先要掌握短時傅里葉變換的定義和性質,學習同態濾波等很多理論知識。然后將這些理論知識和方法在實際中應用,了解如何解決實際語音信號處理領域中的問題[1~3]。近年來,隨著人工智能技術的迅速發展,在語音信號處理的領域里,給語音識別、自然語言處理和語音合成等關鍵技術帶來一個個的突破[4]。因此人工智能時代給“語音信號處理”課程的教學帶來了挑戰,在傳統的課程結構中要引入新的理論和方法,讓學生直觀感受到基礎知識與新技術的結合在語音信號處理中的重要作用,大大提高了學習興趣,培養了追蹤新理論知識應用于實際問題或科學研究的能力和意識。
1傳統“語音信號處理”課程的結構及特點
“語音信號處理”課程主要包括三部分內容:①語音信號處理基礎:了解語音信號處理的發展概況,掌握語音產生的過程及信號的特性,了解語音信號產生的數字模型。②語音信號的分析:首先講授時域分析,包括經典的短時能量、過零和相關分析,然后針對語音信號的短時平穩特性,進行短時傅里葉分析。為了能從信號中分離出聲門激勵信號和聲道沖擊響應,需要進行同態濾波及倒譜分析。這些分析都是非參數化方法,在此基礎上,學習由過去若干個語音信號的抽樣組合來預測信號,掌握線性預測這種參數模型分析方法。在此基礎上,講授重要的一種隱馬爾科夫模型,這種統計信號模型在語音識別應用中有非常重要的作用。信號要進行存儲和傳輸,矢量量化是一種極其重要的信號壓縮方法。③語音信號處理技術與應用:掌握了以上語音信號處理的基本分析和建模方法,可以將其發展到語音編碼、合成、識別和增強等應用領域。從“語音信號處理”課程的主要內容可以看出該課程的特點:①基礎性強:該課程從語音信號的產生、特性和數字模型這些基本概念開始,慢慢深入到短時時域分析、短時頻域傅里葉變換、同態濾波、倒譜分析、線性預測分析、隱馬爾科夫模型、矢量量化。這些都是語音信號處理領域的基本概念和基礎知識。②理論性強:不管是短時傅里葉變換的定義、性質還是隱馬爾科夫模型的建立,都要從數學的角度進行定義、推導和證明,從原理上學習語音信號處理的模型和算法。③應用性強:語音是一種傳遞和獲取信息的重要途徑,由于其傳輸和使用的便利性,因此有非常廣泛的應用。學生可以從自己的學習和生活中切實感受到語音信號處理的應用。例如,一部智能手機就包含了很多語音信號處理技術的應用,諸如語音輸入識別、語音導航和各種特殊音效處理。因此,“語音信號處理”課程自身的特點導致其重視基礎理論知識和實際應用。在人工智能時代,其教與學的過程中要不斷跟蹤新理論和新技術的發展,并將其融入到“語音信號處理”課程的主要內容中,既能使學生更好地鞏固掌握基礎理論知識和相關算法,又能培養學生對新理論和新技術的追蹤,并將其加以運用。
2人工智能發展帶來的改革
軌道交通AFC系統自動售票機語音交互
摘要:隨著互聯網技術的快速發展,手機二維碼支付得到廣泛關注和研究,這種移動支付方式也受到廣大市民乘客的接受和認可,通勤乘客對購票終端的需求進一步降低。在售票終端總量減少的前提下提升單臺設備購票速率,豐富和滿足乘客服務場景,將語音交互所需的語音識別、語義理解、語音合成引擎進行站內部署,并部署AI語義結構化可視化開發平臺,支持購票、線網圖查詢、站內導航等語義技能的可視化開發,從而不斷提升售票終端語音對話的智能度,更好服務乘客需求的作用
關鍵詞:語音識別;語義理解;語音合成;語音購票
1引言
在大數據時代的背景下,軌道交通行業正面臨新一輪信息產業革命的到來,數字化轉型是必然的趨勢。目前軌道交通網絡化運營要求越來越高,對傳統AFC系統是一種極大的挑戰,傳統的自動售票機運營模式已經不能滿足現代化的運營要求,以互聯網技術為基礎的智能支付技術應用在軌道交通行業將占有越來越重要的地位,二維碼支付技術已在自動售票機上得到廣泛應用。AFC票務規則的復雜性和業務多樣性,還有除售票、檢票、充值以外的大量業務需要依賴人工實現,車站客服人員為進站、出站人群辦理補票、更新、退票等服務,甚至承擔了包括問詢、指路、兌零等多種職能。隨著移動支付、移動互聯網技術等興起,AFC系統也在積極探索尋求新的發展途徑,尤其在智慧車站方面更加走向無人化、智能化。
2軟件功能開發
2.1智能喚醒
多模態語音模組集成了人臉檢測與唇動檢測算法,會持續的從攝像頭接收視頻流信息并輸出人臉檢測結果,當用戶走到設備前,可以自動檢測到用戶,并通過唇動檢測進一步捕獲用戶開始說話和結束說話的節點,從而實現智能感知用戶主動喚醒響應用戶說話的效果。
人工智能大尺寸平板電腦系統研究
摘要:近幾年隨著大屏智能手機的快速發展及消費類小尺寸平板電腦市場的趨近飽和,消費類小尺寸平板電腦逐漸被大屏智能手機所替代。而大尺寸(10英寸及以上尺寸屏幕)平板電腦將廣泛應用于設備自動化、智能醫療、智能零售、智能樓宇、智能家居、戶外廣告、智能健身、智能教育、智能會議、智能物流等行業。文章介紹大尺寸平板電腦如何結合人工智能關鍵技術,實現大尺寸平板電腦在以上各行業的智能化廣泛應用。
關鍵詞:大尺寸平板電腦;人工智能;行業應用
引言
《“十三五”國家科技創新規劃》提出發展自然人機交互技術,重點是智能感知與認知、虛擬融合與自然交互、語義理解和智慧決策、云端融合交互等技術研發及應用。伴隨著寬帶無線接入技術、移動互聯網應用技術、NFC近場感應技術、AI人工智能技術和5G移動通訊技術的飛速發展,大尺寸平板電腦智能終端綜合以上技術將成為移動互聯網內容和應用的重要載體,有著廣闊的發展前景。
1平臺設計
本文將充分利用智能語音識別技術、智能視覺識別技術、高性能移動通訊技術、對大尺寸平板電腦主體控制系統及配套硬件平臺、軟件系統研發、整機穩定性可靠性、智能制造等方面開展研究。最終實現大尺寸平板電腦主體控制系統對智能語音識別系統、視覺識別系統、顯示觸控系統、無線通訊系統、音頻系統、電源系統、跑步機電機控制系統的良好控制。
2大尺寸平板電腦市場需求調查分析系統架構設計(見圖1)。
語言服務行業創新技術研究
摘要:人工智能技術的興起給語言服務行業的發展帶來了新挑戰。旨在分析人工智能背景下的語言服務行業發展趨勢,在結合國內外語言服務需求的基礎上,對語言服務中的創新技術應用和策略進行研究,尋找有效的互聯網翻譯技術及語言服務解決方案,推進大數據、人工智能與語言服務的協同創新發展。
關鍵詞:人工智能;語言服務;翻譯技術;語音識別
1語言服務行業發展趨勢
隨著社會語言服務需求的不斷增長,人們對語言服務行業發展的研究不僅包含國家層面上的總體戰略規劃,并且逐漸開始向社會層面的各專業和業務領域深度發展研究延伸。語言服務行業涉及翻譯服務、本地化服務、語言技術工具開發與應用(機器翻譯MT與計算機輔助翻譯CAT)、語言教學與培訓等眾多業務領域。人工智能語言服務的出現,突顯了全球化大數據背景下的語言信息特點以及翻譯智能技術平臺時代的來臨,未來即將是“一帶一路”的專業化語言服務和智能化翻譯需求激增的時代。目前國內語言服務行業的發展趨勢和現狀是:語言服務人才市場供求失衡,語言服務人才培養體系不完善,翻譯技術和軟件運用不足,語言類服務企業和高校的創新協同合作有待深入,網絡翻譯平臺的開發與應用研究需要新技術和新實踐等。
2人工智能技術背景下的語言服務需求
知識增長和技術發展往往呈現交替加速發展的特點,當今尤其以云計算、大數據、人工智能、物聯網、5G等為代表的新技術正逐漸改變著人類生活的各個領域。人工智能技術正改變著智能制造、金融貿易、教育培訓、公共事業、醫療應用等各個行業,并成為變革社會的重要推動力。世界各國都高度重視發展人工智能,加強人工智能領域的技術研發和創新。2017年國務院的《新一代人工智能發展規劃》將發展人工智能作為國家重點發展戰略之一。2018年教育部印發的《高等學校人工智能創新行動計劃》中指出要加快人工智能在教育領域的創新應用。人工智能的應用開始涉及各行各業。目前,中國的人工智能在金融、安防、客服等行業領域已得到廣泛運用。人工智能在語言服務行業的應用主要是自然語言處理技術(NLP),它是計算機科學、人工智能、語言學關注計算機和人類(自然)語言之間的相互作用的領域,主要包括機器翻譯和語音識別技術。機器學習、語音識別、語義識別、圖像識別技術等不同形態的語言產品將不同程度地融入新的智能技術平臺,未來語言服務業的發展無疑會進入“語言智能+”的時代。語言智能的目標是實現自然語言與機器語言的連續交互,是人工智能的高級階段,在未來人工智能的應用上有著非常重要的作用。
3語言服務行業技術應用與創新
人工智能下廣播電視內容監測系統探析
摘要:隨著廣播電視行業的不斷發展,節目內容形式多樣豐富,監測內容的規模也在不斷增大,給傳統的人工監聽監看模式帶來了挑戰。根據廣播電視監測系統的特點和需求,結合當前廣電行業人工智能新技術的應用情況,提出基于人工智能的廣播電視內容監測系統,實現廣告內容自動識別、新聞節目輿情監測、敏感人物監測等功能,可以有效提高內容監看監管的工作效率。
關鍵詞:人工智能;廣播電視;內容監測
近年來,中央對廣播電視和視聽新媒體監管工作的要求越來越高,監管的范圍不斷擴大,監管的內容不斷增多,信息處理的復雜度不斷提高,現有監管技術能力亟需提升,為提高廣播電視監測工作效率,滿足日益急迫的內容監測需求,要充分重視將先進的人工智能技術應用到廣播電視內容監測這一領域,實現對視音頻節目內容的智能化分析和處理,以保障廣播電視和視聽新媒體監管的科學性、精準性和有效性。早期,廣播電視內容監測完全靠人力,這種以人工收聽收看為主的內容監測方式,由于勞動強度大、工作效率低、主觀差錯率較高,已不能滿足海量的內容監測需求。隨著人工智能技術近幾年的快速發展,視頻中的人像、語音、字幕和場景等特征均可以通過機器學習的算法實現結構化,這也為視音頻內容的識別和審核提供了方便,大大地減少人工審核的工作量,提高了廣播電視播出安全性[1]。因此,將人工智能技術帶入到廣電監測領域是廣播電視監測部門提升部門智能化工作能力的重要探索,是海量數據下高效監管的必然選擇,是構建數字化監測網、保障廣電安全的重要之舉。本文針對廣播電視內容監測的特點和需求,設計了一套基于人工智能的廣播電視內容監測系統,從系統的硬件架構、系統功能和應用流程等方面進行闡述[2]。
1廣播電視內容監測系統架構
隨著對廣播電視節目內容監管力度不斷加大,各廣播電視監測部門需及時掌握所轄區域內的廣播電視節目內容的播出情況,是否存在廣告、新聞等節目內容不符合總局相關規定要求的情況,因此,本系統主要功能集中體現在廣告監管和新聞節目的內容監管。廣播電視內容監測系統搭建在云計算平臺上,由云平臺提供統一的計算資源、存儲資源和網絡資源,主要分為廣告監測區、新聞節目內容分析區、存儲區、審核管理客戶端區等4個部分。通過內容識別、檢索等技術,針對轄區內廣播電視節目播放的廣告內容,自動發現、記錄、匯總商業廣告、公益廣告以及各類違規廣告的詳細信息,及時掌握各類違規廣告的播出動態,準確遏制違規廣告的傳播;同時對廣播電視新聞節目進行內容分析,實現播出內容中重點敏感人物鏡頭片段的檢出,快速查找新聞輿情視頻片段,發現電視節目中的敏感內容,從而確保電視播出內容不存在相關的違規情況。系統硬件架構圖如圖1所示。根據系統需求在相應區域部署劃分虛擬化服務器,廣告監測區主要完成廣告監測數據的分析、處理,并對外提供檢索查詢服務;廣播電視新聞監測區主要完成新聞節目內容以及敏感人物的分析、處理,并對外提供檢索查詢服務。存儲區為系統提供基礎支撐,完成對所有廣播電視節目的采集存儲及特征碼提取,并為各業務子系統提供文件訪問、數據存儲服務。客戶端審核區為系統應用展示和操作,完成對服務器的配置與檢出結果的數據審核,包括廣告監測結果審核、新聞輿情監測結果審核、敏感人臉識別結果審核、敏感人名語音關鍵詞結果審核。
2廣播電視內容監測系統功能
2.1人工智能處理引擎。通過人臉識別、場景識別、語音識別、文字識別等技術,實現節目內容的智能拆條編目及標簽化處理,便于進行查詢、檢索、分類,通過進一步挖掘分析,實現節目內容評估分析統計,最后生成節目內容分析報告。運用人工智能技術,實現對節目自動化、智能化的多業務識別分析,實現節目內容標簽化處理。處理分析手段覆蓋人臉識別、場景識別、語音識別、文字識別等技術。內容分析任務可根據“人臉識別”“場景識別”“OCR識別”“語音識別”等模塊[3],選其中一個或多個進行定向任務分析。人臉識別:對節目畫面中的人臉區域進行自動識別、標注、存儲。能夠快速、準確發現節目當中出現的政治人物、明星人物等,對重點人物出現時間,持續時長進行標注。場景識別:對節目畫面中出現的各類景物對象、特定場景進行自動識別、標注、存儲,后續即可利用關鍵詞識別技術進行篩選,快速檢索到目標數據;通過轉場識別技術,有效識別節目的轉場畫面,以此判斷轉場出現的時間點,以此進行場景分割,對節目進行分割拆條。OCR識別:對節目畫面中的文字區域進行自動識別、標注、存儲,后續即可利用關鍵詞識別技術進行篩選,快速檢索到目標數據;自動識別標題板中的字幕、標題。當字幕和標題內容出現變化時,判斷節目內容變化,以此為依據進行拆條。語音識別:對節目伴音進行語音轉文字處理,后續即可利用關鍵詞識別技術進行篩選,快速檢索到目標數據;根據說話人的語音特征形成特定的分布,來辨別判斷節目內容中說話人的變化,對節目進行分割拆條。
用戶體驗語音交互產品設計研究
摘要:隨著人工智能技術的不斷發展,語音交互產品在技術上逐漸完善,占據到更大的市場份額,受到大眾廣泛關注。本研究闡述了語音交互產品的發展歷史、功能及其應用場景,并從用戶體驗的角度對語音交互產品設計提出了建議。
關鍵詞:用戶體驗;語音交互;產品設計
語音交互產品指的是一系列通過語音建立起人與機器間溝通和聯系的產品。語音交互的優點在于將人們的雙手從以往繁瑣的設備操作中解放出來,并以更符合人類自然交流的方式執行操作功能。現階段,語音交互作為一種新型的交互方式受到大眾關注,與之相對的,用戶在使用語音產品時,也產生了新的需求,如何使用這種交互方式更好地服務于用戶體驗,是當前研究的重點。
一、用戶體驗概述
用戶體驗的概念最早由Norman提出,他認為好的用戶體驗應該做到在不使用戶厭煩的情況下滿足用戶需求,提供簡單、優雅、易于理解的產品,使用戶得到愉悅的使用體驗。在Norman提出的用戶體驗的概念中,一個非常重要的設計理念被稱為“以用戶為中心的設計”。他認為設計應該以用戶的需求和利益為基礎,以產品的易用性和可理解性為側重點。設計人員在設計的過程中應該充分考慮到用戶的心理特征,如鑒于人們短時記憶容量的局限性,系統應當提供技術上的幫助來增強用戶的短時記憶;鑒于人們對控制感的需求,設計者應該讓用戶擁有對產品關鍵部分盡可能多的控制權,避免無意義和復雜的操作。同時,設計者要考慮系統狀態與用戶的需求、意圖和期望之間的關系,盡可能地使用戶需求得到及時的反饋。
二、語音交互產品的發展歷史
早在上世紀70年代,美國就開始致力于語音識別技術的研究,語音識別技術從一開始只能識別特定對象、較少的詞匯量逐漸發展到現如今能夠識別非特定對象的語音和大量詞匯,在識別速度和準確率方面也得到了極大地提高。早期的語音交互產品主要只是簡單地記錄聲音,并將其轉化為文字輸出,還不具備語義理解的功能。在2000年左右,IVR(交互式語音應答系統)在我國的一些行業逐步得到應用,使語音產品在交互式應答上有了顯著提升。交互式語音應答系統指的是在沒有操作員的情況下,建立和管理完全自動的電話服務。語音系統能夠簡單地理解人們的自然語言,并進行簡單的語音交互。如人們通過撥打電話查詢話費,根據提示音進行按鍵反應,實際上就是在使用這類語音交互產品?,F如今,各大主流公司的語音交互產品(Alexa、GoogleAssistant、Siri、Cortana)在語音識別率上都超過了90%,識別響應速度很快,在語義理解上也實現了極大突破,并已經可以為用戶提供豐富的語音操作功能。