推薦產(chǎn)品

遼寧語(yǔ)音識(shí)別庫(kù)

發(fā)布時(shí)間：2024-12-16 23:54:06 來(lái)源：湖南暢影文化傳媒有限公司閱覽次數(shù)：38331次

主流方向是更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)技術(shù)融合端到端技術(shù)。2018年，科大訊飛提出深度全序列卷積神經(jīng)網(wǎng)絡(luò)（DFCNN），DFCNN使用大量的卷積直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模，主要借鑒了圖像識(shí)別的網(wǎng)絡(luò)配置，每個(gè)卷積層使用小卷積核，并在多個(gè)卷積層之后再加上池化層，通過(guò)累積非常多卷積池化層對(duì)，從而可以看到更多的歷史信息。2018年，阿里提出LFR-DFSMN（LowerFrameRate-DeepFeedforwardSequentialMemoryNetworks）。該模型將低幀率算法和DFSMN算法進(jìn)行融合，語(yǔ)音識(shí)別錯(cuò)誤率相比上一代技術(shù)降低20%，解碼速度提升3倍。FSMN通過(guò)在FNN的隱層添加一些可學(xué)習(xí)的記憶模塊，從而可以有效的對(duì)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。而DFSMN是通過(guò)跳轉(zhuǎn)避免深層網(wǎng)絡(luò)的梯度消失問(wèn)題，可以訓(xùn)練出更深層的網(wǎng)絡(luò)結(jié)構(gòu)。2019年，百度提出了流式多級(jí)的截?cái)嘧⒁饬δＰ蚐MLTA，該模型是在LSTM和CTC的基礎(chǔ)上引入了注意力機(jī)制來(lái)獲取更大范圍和更有層次的上下文信息。其中流式表示可以直接對(duì)語(yǔ)音進(jìn)行一個(gè)小片段一個(gè)小片段的增量解碼；多級(jí)表示堆疊多層注意力模型；截?cái)鄤t表示利用CTC模型的尖峰信息，把語(yǔ)音切割成一個(gè)一個(gè)小片段，注意力模型和解碼可以在這些小片段上展開(kāi)。在線語(yǔ)音識(shí)別率上。聲音從本質(zhì)是一種波，也就是聲波，這種波可以作為一種信號(hào)來(lái)進(jìn)行處理。遼寧語(yǔ)音識(shí)別庫(kù)

遼寧語(yǔ)音識(shí)別庫(kù),語(yǔ)音識(shí)別

2）初始化離線引擎：初始化訊飛離線語(yǔ)音庫(kù)，根據(jù)本地生成的語(yǔ)法文檔，構(gòu)建語(yǔ)法網(wǎng)絡(luò)，輸入語(yǔ)音識(shí)別器中；（3）初始化聲音驅(qū)動(dòng)：根據(jù)離線引擎的要求，初始化ALSA庫(kù)；（4）啟動(dòng)數(shù)據(jù)采集：如果有用戶有語(yǔ)音識(shí)別請(qǐng)求，語(yǔ)音控制模塊啟動(dòng)實(shí)時(shí)語(yǔ)音采集程序；（5）靜音切除：在語(yǔ)音數(shù)據(jù)的前端，可能存在部分靜音數(shù)據(jù)，ALSA庫(kù)開(kāi)啟靜音檢測(cè)功能，將靜音數(shù)據(jù)切除后傳送至語(yǔ)音識(shí)別引擎；（6）語(yǔ)音識(shí)別狀態(tài)檢測(cè)：語(yǔ)音控制模塊定時(shí)檢測(cè)引擎系統(tǒng)的語(yǔ)音識(shí)別狀態(tài)，當(dāng)離線引擎有結(jié)果輸出時(shí)，提取語(yǔ)音識(shí)別結(jié)果；（7）結(jié)束語(yǔ)音采集：語(yǔ)音控制模塊通知ALSA，終止實(shí)時(shí)語(yǔ)音數(shù)據(jù)的采集；（8）語(yǔ)義解析：語(yǔ)音控制模塊根據(jù)語(yǔ)音識(shí)別的結(jié)果，完成語(yǔ)義解析，根據(jù)和的內(nèi)容，確定用戶需求，根據(jù)的內(nèi)容，確認(rèn)用戶信息；（9）語(yǔ)音識(shí)別結(jié)束：語(yǔ)音控制模塊將語(yǔ)義解析的結(jié)果上傳至用戶模塊，同時(shí)結(jié)束本次語(yǔ)音識(shí)別。根據(jù)項(xiàng)目需求，分別在中等、低等噪音的辦公室環(huán)境中，對(duì)語(yǔ)音撥號(hào)軟件功能進(jìn)行科學(xué)的測(cè)試驗(yàn)證。廣州新一代語(yǔ)音識(shí)別介紹從技術(shù)來(lái)看，整個(gè)語(yǔ)音交互鏈條有五項(xiàng)單點(diǎn)技術(shù)：?jiǎn)拘?、麥克風(fēng)陣列、語(yǔ)音識(shí)別、自然語(yǔ)言處理、語(yǔ)音合成。

遼寧語(yǔ)音識(shí)別庫(kù),語(yǔ)音識(shí)別

包括語(yǔ)法詞典的構(gòu)建、語(yǔ)音識(shí)別引擎的初始化配置、音頻數(shù)據(jù)的采集控制和基本語(yǔ)義的解析等；應(yīng)用數(shù)據(jù)庫(kù)是用戶的數(shù)據(jù)中心，作為語(yǔ)音識(shí)別數(shù)據(jù)的源頭，語(yǔ)音控制模塊從中提取用戶關(guān)鍵數(shù)據(jù)，并以此為基礎(chǔ)構(gòu)建本地語(yǔ)法詞典；語(yǔ)音識(shí)別離線引擎是語(yǔ)音轉(zhuǎn)換為文字的關(guān)鍵模塊，支持在離線的情況下，根據(jù)本地構(gòu)建的語(yǔ)法網(wǎng)絡(luò)，完成非特定人連續(xù)語(yǔ)音識(shí)別功能，同時(shí)具備語(yǔ)音數(shù)據(jù)前、后端點(diǎn)檢測(cè)、聲音除噪處理、識(shí)別門(mén)限設(shè)置等基本功能；音頻采集在本方案中屬于輔助模塊，具備靈活、便捷的語(yǔ)音控制接口，支持在不同采樣要求和采樣環(huán)境中，對(duì)實(shí)時(shí)音頻數(shù)據(jù)的采集。（2）關(guān)鍵要素分析本方案工作于離線的網(wǎng)絡(luò)環(huán)境中，語(yǔ)音數(shù)據(jù)的采集、識(shí)別和語(yǔ)義的解析等功能都在終端完成，因此設(shè)備性能的優(yōu)化和語(yǔ)音識(shí)別的準(zhǔn)度尤為重要。在具體的實(shí)現(xiàn)過(guò)程中，存在以下要素需要重點(diǎn)關(guān)注。（1）用戶構(gòu)建的語(yǔ)法文檔在引擎系統(tǒng)初始化時(shí)，編譯成語(yǔ)法網(wǎng)絡(luò)送往語(yǔ)音識(shí)別器，語(yǔ)音識(shí)別器根據(jù)語(yǔ)音數(shù)據(jù)的特征信息，在識(shí)別網(wǎng)絡(luò)上進(jìn)行路徑匹配，識(shí)別并提取用戶語(yǔ)音數(shù)據(jù)的真實(shí)信息，因此語(yǔ)法文檔的語(yǔ)法結(jié)構(gòu)是否合理，直接關(guān)系到識(shí)別準(zhǔn)確率的高低；（2）應(yīng)用數(shù)據(jù)庫(kù)是作為語(yǔ)音識(shí)別數(shù)據(jù)的源頭，其中的關(guān)鍵數(shù)據(jù)如果有變化。

取距離近的樣本所對(duì)應(yīng)的詞標(biāo)注為該語(yǔ)音信號(hào)的發(fā)音。該方法對(duì)解決孤立詞識(shí)別是有效的，但對(duì)于大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別就無(wú)能為力。因此，進(jìn)入80年代后，研究思路發(fā)生了重大變化，從傳統(tǒng)的基于模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型（HMM）的技術(shù)思路。HMM的理論基礎(chǔ)在1970年前后就已經(jīng)由Baum等人建立起來(lái)，隨后由CMU的Baker和IBM的Jelinek等人將其應(yīng)用到語(yǔ)音識(shí)別當(dāng)中。HMM模型假定一個(gè)音素含有3到5個(gè)狀態(tài)，同一狀態(tài)的發(fā)音相對(duì)穩(wěn)定，不同狀態(tài)間是可以按照一定概率進(jìn)行跳轉(zhuǎn)；某一狀態(tài)的特征分布可以用概率模型來(lái)描述，使用的模型是GMM。因此GMM-HMM框架中，HMM描述的是語(yǔ)音的短時(shí)平穩(wěn)的動(dòng)態(tài)性，GMM用來(lái)描述HMM每一狀態(tài)內(nèi)部的發(fā)音特征?；贕MM-HMM框架，研究者提出各種改進(jìn)方法，如結(jié)合上下文信息的動(dòng)態(tài)貝葉斯方法、區(qū)分性訓(xùn)練方法、自適應(yīng)訓(xùn)練方法、HMM/NN混合模型方法等。這些方法都對(duì)語(yǔ)音識(shí)別研究產(chǎn)生了深遠(yuǎn)影響，并為下一代語(yǔ)音識(shí)別技術(shù)的產(chǎn)生做好了準(zhǔn)備。自上世紀(jì)90年代語(yǔ)音識(shí)別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法被提出以后，在很長(zhǎng)一段內(nèi)語(yǔ)音識(shí)別的發(fā)展比較緩慢，語(yǔ)音識(shí)別錯(cuò)誤率那條線一直沒(méi)有明顯下降。DNN-HMM時(shí)代2006年。意味著具備了與人類相仿的語(yǔ)言識(shí)別能力。

遼寧語(yǔ)音識(shí)別庫(kù),語(yǔ)音識(shí)別

語(yǔ)音識(shí)別包括兩個(gè)階段:訓(xùn)練和識(shí)別。不管是訓(xùn)練還是識(shí)別，都必須對(duì)輸入語(yǔ)音預(yù)處理和特征提取。訓(xùn)練階段所做的具體工作是收集大量的語(yǔ)音語(yǔ)料，經(jīng)過(guò)預(yù)處理和特征提取后得到特征矢量參數(shù)，通過(guò)特征建模達(dá)到建立訓(xùn)練語(yǔ)音的參考模型庫(kù)的目的。而識(shí)別階段所做的主要工作是將輸入語(yǔ)音的特征矢量參數(shù)和參考模型庫(kù)中的參考模型進(jìn)行相似性度量比較，然后把相似性高的輸入特征矢量作為識(shí)別結(jié)果輸出。這樣，終就達(dá)到了語(yǔ)音識(shí)別的目的。語(yǔ)音識(shí)別的基本原理是現(xiàn)有的識(shí)別技術(shù)按照識(shí)別對(duì)象可以分為特定人識(shí)別和非特定人識(shí)別。特定人識(shí)別是指識(shí)別對(duì)象為專門(mén)的人，非特定人識(shí)別是指識(shí)別對(duì)象是針對(duì)大多數(shù)用戶，一般需要采集多個(gè)人的語(yǔ)音進(jìn)行錄音和訓(xùn)練，經(jīng)過(guò)學(xué)習(xí)，達(dá)到較高的識(shí)別率。基于現(xiàn)有技術(shù)開(kāi)發(fā)嵌入式語(yǔ)音交互系統(tǒng)，目前主要有兩種方式:一種是直接在嵌入式處理器中調(diào)用語(yǔ)音開(kāi)發(fā)包;另一種是嵌入式處理器外擴(kuò)展語(yǔ)音芯片。第一種方法程序量大，計(jì)算復(fù)雜，需要占用大量的處理器資源，開(kāi)發(fā)周期長(zhǎng);第二種方法相對(duì)簡(jiǎn)單，只需要關(guān)注語(yǔ)音芯片的接口部分與微處理器相連，結(jié)構(gòu)簡(jiǎn)單，搭建方便，微處理器的計(jì)算負(fù)擔(dān)降低，增強(qiáng)了可靠性，縮短了開(kāi)發(fā)周期。本文的語(yǔ)音識(shí)別模塊是以嵌入式微處理器為說(shuō)明。它融合了語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和電氣工程領(lǐng)域的知識(shí)和研究。青海語(yǔ)音識(shí)別在線

語(yǔ)音識(shí)別應(yīng)用包括語(yǔ)音用戶界面，例如語(yǔ)音撥號(hào)、呼叫路由、多用戶設(shè)備控制、搜索、簡(jiǎn)單的數(shù)據(jù)輸入等。遼寧語(yǔ)音識(shí)別庫(kù)

Siri、Alexa等虛擬助手的出現(xiàn)，讓自動(dòng)語(yǔ)音識(shí)別系統(tǒng)得到了更廣的運(yùn)用與發(fā)展。自動(dòng)語(yǔ)音識(shí)別(ASR)是一種將口語(yǔ)轉(zhuǎn)換為文本的過(guò)程。該技術(shù)正在不斷應(yīng)用于即時(shí)通訊應(yīng)用程序、搜索引擎、車(chē)載系統(tǒng)和家庭自動(dòng)化中。盡管所有這些系統(tǒng)都依賴于略有不同的技術(shù)流程，但這些所有系統(tǒng)的第一步都是相同的：捕獲語(yǔ)音數(shù)據(jù)并將其轉(zhuǎn)換為機(jī)器可讀的文本。但ASR系統(tǒng)如何工作？它如何學(xué)會(huì)辨別語(yǔ)音？本文將簡(jiǎn)要介紹自動(dòng)語(yǔ)音識(shí)別。我們將研究語(yǔ)音轉(zhuǎn)換成文本的過(guò)程、如何構(gòu)建ASR系統(tǒng)以及未來(lái)對(duì)ASR技術(shù)的期望。那么，我們開(kāi)始吧！ASR系統(tǒng)：它們?nèi)绾芜\(yùn)作？因此，從基礎(chǔ)層面來(lái)看，我們知道自動(dòng)語(yǔ)音識(shí)別看起來(lái)如下：音頻數(shù)據(jù)輸入，文本數(shù)據(jù)輸出。但是，從輸入到輸出，音頻數(shù)據(jù)需要變成機(jī)器可讀的數(shù)據(jù)。這意味著數(shù)據(jù)通過(guò)聲學(xué)模型和語(yǔ)言模型進(jìn)行發(fā)送。這兩個(gè)過(guò)程是這樣的：聲學(xué)模型確定了語(yǔ)言中音頻信號(hào)和語(yǔ)音單位之間的關(guān)系，而語(yǔ)言模型將聲音與單詞及單詞序列進(jìn)行匹配。這兩個(gè)模型允許ASR系統(tǒng)對(duì)音頻輸入進(jìn)行概率檢查，以預(yù)測(cè)其中的單詞和句子。然后，系統(tǒng)會(huì)選出具有**高置信度等級(jí)的預(yù)測(cè)。**有時(shí)語(yǔ)言模型可以優(yōu)先考慮某些因其他因素而被認(rèn)為更有可能的預(yù)測(cè)。因此，如果通過(guò)ASR系統(tǒng)運(yùn)行短語(yǔ)。遼寧語(yǔ)音識(shí)別庫(kù)

上一篇：山東諾為定制化砂漿引氣劑怎么賣(mài)
下一篇：四川圣邦微單片機(jī)

熱點(diǎn)新聞

丁香五月综合缴情月,久久久国产一区二区三区,丰满人熟妇大尺度人体艺,亚洲乱亚洲乱妇20p

湖南暢影文化傳媒有限公司

湖南暢影文化傳媒有限公司

遼寧語(yǔ)音識(shí)別庫(kù)

友情鏈接