
真實語音情感數據集的可用性有限
作為一個領域,SER已有20多年的歷史,但與自動語音識別(ASR)相比,SER相對較新。今天,由于人工智能在該領域的應用,ASR已經真正起飛。另一方面,SER的速度較慢,因為與ASR不同,用于訓練AI模型的數據相當有限。
傳統的SER數據集要么是作用的,要么是誘導的。表演數據集是由付費演員用特定的情感說出固定的短語創(chuàng)建的。誘導數據集比這些稍有改進,通過讓演講者觀看特定的片段或讓他們想象特定的情況,可以引發(fā)某些情緒。這些數據集是稀疏的,我們今天所設想的那種SER用例需要在交互式對話中進行自動情感檢測;在這些數據集上訓練的人工智能模型在現實世界中不會很好地工作。在預定義/有限情緒的語音片段上訓練和測試的SER系統將無法在實際使用中處理自發(fā)語音。
請注意,約束條件不是真實世界充滿情感的語音的可用性,而是對數據進行注釋/標記以創(chuàng)建標準化數據集。與其他類型的數據(例如圖像)相比,標記語音的情感內容可能更加主觀。這就引出了下一個問題:語音情感建模。
情感建模是復雜的
語音情感建模,即如何表達嵌入語音中的情感,既復雜又關鍵。傳統的方法之一是將語音情感建模為憤怒、不信任、恐懼、快樂、悲傷或中性的主要類別之一。與基于離散類別的方法相比,機器學習更傾向于基于維度的方法。在前者中,使用了語音的聲學特征,包括語言和非語言?梢允褂寐曇簦ü庾V信息、能量)、韻律(語調、強度、節(jié)奏)等技術特征的組合來訓練SER模型。
非語言發(fā)聲,如笑、嘆氣、呼吸和猶豫/暫停,包含用于情緒檢測的有用信號。我們還需要考慮非情緒性條件,這些條件與聲音聽起來如何有關,例如疲勞、感冒、飲酒或其他物質。面向消費者的SER應用必須處理多種語言、跨文化語音模式、遠場聲學、說話人識別、群體動力學、語音轉換等問題。
盡管我們在這里討論的是SER,但任何其他非語音線索(如視覺信息)也可以作為模型的輸入。例如,在某些場景中,音頻和視頻內容都可能可用。語音文本本身可以使用自然語言處理(NLP)進行分析。除了字面上的解釋,NLP有可能幫助發(fā)現諷刺或幽默。
所有這些都表明了擁有高質量數據的重要性。數據集的豐富性將決定SER的性能。機器學習技術在這里扮演著重要角色:
- 半監(jiān)督學習技術可用于標記數據。在這里,人類研究人員標記一小部分數據,并讓算法標記語料庫的其余部分。
- 這種方法的一個擴展是主動學習,在這種學習中,有一個人在循環(huán)中,以提高自動標簽的質量。在主動學習中,如果算法對其數據分類的可信度較低,它會將語音數據路由到人工注釋器。
- 合成語音數據可使用少量真實語音生成,可使用生成對抗網絡(GAN)等技術使其接近真實語音質量。
- 轉移學習是指將知識從一個環(huán)境應用到另一個環(huán)境,可能是有用的。示例包括利用成人情緒模型進行兒童情緒識別訓練,或使用非語音音頻(如音樂)訓練SER模型。
總之,語音情感識別是一個復雜的領域,包括語言和非語言、上下文甚至視覺的許多活動部分。機器學習和人工協助將在下一代SER應用中發(fā)揮重要作用。
聲明:版權所有 非合作媒體謝絕轉載
作者:Kashyap Kompella
原文網址:
https://www.speechtechmag.com/Articles/Columns/Interact/Building-the-Next-Generation-of-ASR-Speech-Emotion-Recognition-Apps-148837.aspx