劉凱
(長江大學 工程技術學院, 湖北 荊州 434023)
摘要:在數字語音真偽技術中,基于電網頻率的檢測方法是當前研究的熱點。由于數字錄音設備在錄音過程中不僅記錄語音內容本身,還攜帶微弱的電網電壓或電流信號,利用Duffing共振理論來提取數字錄音信號中的微弱電網信號,根據其輸出特征參數的幅頻特性和相頻特性來判斷錄音文件的真偽性。通過實驗分析論證了該方法的可行性和實用性,為數字錄音真偽鑒別技術提供了一條新的研究方向。
關鍵詞:語音真偽鑒別;電網頻率;Duffing共振;特征參數
0引言
近年來,數字多媒體技術飛速發展,數字信息已經滲透到人們生活的方方面面。在語音處理技術領域,人們已經可以很方便地獲取語音信號,并利用音頻編輯軟件對其進行有意或無意的編輯和修改,這種篡改行為對語音數據的安全性構成了強大的威脅。隨著數字信息已逐步應用于司法取證,語音真偽檢測技術也逐漸成為國內外學術界研究的熱點。
電力系統是促進國家發展的基本因素之一,公用的電網信號可以看成是一個正弦波,它有一個固定的頻率,該頻率稱為電網頻率(Eleetrie Network Frequency,ENF)[1]。電網提供的大部分電力都是來自于能產生交流電的渦輪,這些渦輪的轉速便決定了電網頻率,正常運行的電網頻率值是50 Hz或60 Hz,中國的電網頻率值是50 Hz。電網頻率變化具有均一性和唯一性,其波動不僅表征系統的動態行為,而且承載豐富的時間信息。由于數字錄音的原理與模擬磁帶錄音不同,無法在磁蹤跡和抹音磁頭上找到錄音開始、停頓和終止等物理特征,因而迫切需要尋找其他的鑒別方法。GRIGORAS C將電網頻率變化與數字錄音真偽鑒別聯系起來,提出電網頻率準則[25]。該方法認為數字錄音設備在錄音過程中不僅記錄語音內容本身,而且還因該設備由電網直接供電的緣故而捕獲到微弱的電網電壓或電流信號;若錄音設備采用電池供電,周圍其他的用電設備產生的電磁場也有可能感應出電信號,在錄音記錄中留下感應信號的蹤跡[67]。近年來,隨機共振在信息技術領域的應用已經有了相當大的發展,例如基于隨機共振的信號檢測方法為強噪聲背景下弱信號的提取提供了新的途徑[8]。因此可以考慮利用Duffing共振理論來提取錄音信號中的微弱電網或電壓信號,從而判斷錄音文件的真偽性。
1Duffing共振理論基礎
Duffing方程的一般形式為[9]:
其中,γ是阻尼系數;κ、ζ為常數;FcosΩt是系統的外力項;Ω是外力項頻率。式中正、負號分別表示硬彈簧和軟彈簧兩種情況。理論情況下,在線性系統中當強迫力的頻率與系統本身的頻率相同時,系統會出現共振現象,在非線性系統中也會出現類似的情況。
無阻尼情況下Duffing方程為:
令κ=ω20 ,ζ=εβ20,其中ε>0,引進多重時間尺度變量,如多重時間尺度[10],有:
認為函數x不僅依賴于ε和t,還依賴于T0,T1,T2,…,Tn,有:
x=x0(T0,T1,…,Tn)+εx1(T0,T1,…,Tn)+…(4)
得到式(2)的一階近似解:
考慮有阻尼的Duffing方程:
令α=α(T2,T3,…,Tn),ω=ω0+3β20α28ω0ε ,θ0=θ(T2,T3,…,Tn)
僅考慮無阻尼Duffing方程的通解,式(7)的通解為:
x(t)=αexp(-γt)cos(ωt+θ0)(8)
其中,α為振幅,ω為角頻率,θ0為初始相位。
考慮有外力驅動的情況(式(1)),即當式(8)中ω=Ω時系統發生共振。
當在t(0+)時刻輸入一個脈沖響應δ(t),系統的時域函數為h(t),由δ(t)*h(t)=x(t),可以得出H(s)=X(s),即h(t)=x(t)。
2基于Duffing共振的語音真偽檢測技術
該檢測技術具有如圖1所示的步驟。
(1)首先對待檢測錄音信號進行預處理。預處理包括抗混疊濾波,預加重和分幀加窗。
(2)對預處理的錄音信號進行快速傅里葉變換(FFT變換)得到其頻譜特性。
(3)將頻域信號通過一個Duffing共振帶通濾波器,帶通濾波器的中心頻率為50 Hz,該濾波信號即為提取到的電網信號。通過第1章Duffing共振理論的介紹已經得出了模擬濾波器的單位沖擊響應h(t),對其進行拉普拉斯變換就可以得到模擬帶通濾波器的系統函數H(s),然后通過雙線性變換就可以得到數字帶通濾波器的系統函數H(z),該濾波器的幅頻特性如圖2所示。
(4)畫出該濾波信號的幅頻圖和相位圖。
(5)根據幅頻圖和相位圖上有無突然的跳變來判斷音頻是否發生過篡改操作。圖2Duffing共振帶通濾波器的幅頻特性
3實驗和分析
有4段待檢測錄音音頻,都是由計算機的麥克風錄音,錄音和篡改軟件為Cool Edit Pro V21簡體中文版,分別對應音頻1、音頻2、音頻3和音頻4。其中音頻1為女生未經過篡改的原始錄音,錄音內容為“零”, 音頻2為男生未經過篡改的原始錄音,錄音內容為“零”,將音頻1復制粘貼到音頻2為音頻3,內容變為“零零”,將音頻1由軟件加入頻率為50 Hz的合音得到音頻4。分別對音頻1、音頻2、音頻3和音頻4用基于Duffing共振的篡改檢測方法進行真偽檢測,檢測流程如圖1所示。
圖3~圖6分別為音頻1、音頻2、音頻3和音頻4的時域波形圖,圖7~圖10分別為音頻1、音頻2、音頻3和音頻4經系統后的頻譜圖。
從圖7、圖8可以看出,沒有經過篡改的音頻信號經過系統后的頻譜圖具有比較好的雙峰性,而且第一個峰的頻率在50 Hz。圖9是經過篡改后的音頻信號經系統后的頻譜圖,從圖中可看出只有一個峰值,而且峰值處的頻率為100 Hz。
由此可以得出結論,經過篡改后的音頻信號經過系統后的頻譜會發生較大的突變,頻譜的中心發生搬移。
圖9與圖7的幅頻圖完全一致,人為添加計算機合成的同頻率音頻對音頻信號通過系統后的幅頻特性沒有影響。圖11和圖12分別為音頻1和音頻4通過系統后的相頻圖,從圖中可以看出,音頻4的相頻特性較音頻1相位發生了很大的變化。
4結論
本文研究了一種基于Duffing共振的語音數字語音真偽鑒別技術,通過實驗,對比實驗結果,經復制粘貼篡改操作的音頻信號經過Duffing共振系統,其幅頻特性會發生較大的變化;而經計算機軟件添加合成音頻的音頻信號經過Duffing系統后,其幅頻特性基本不變,變化的是相頻特性。由實驗可以得出:基于Duffing共振的數字語音真偽鑒別具有一定的可行性和實用性,在以后的研究過程中,還會進一步探討該系統在其他數字語音篡改技術中的應用。
參考文獻
[1] GUPTA S, CHO S, JAYKUO C C. Current developments and future trends in audio authentication [J]. IEEE Multimedia, 2012,19(1): 5059.
[2] GRIGORAS C. Digital audio recording analysis: The electric network frequency criterion[C]. Diamond Cut Productions, Inc., Applications Notes AN4, 2003.
[3] GRIGORAS C. Digital audio recording analysis: the electric network frequency (ENF) criterion [J]. The International Journal of Speech Language and the Law, 2005, 12(1):6376.
[4] GRIGORAS C. Applications of ENF criterion in forensic audio, video, computer and telecommunication analysis [J]. Forensic Science International, 2007(167):136143.
[5] GRIGORAS C. Applications of ENF analysis in forensic authentication of digital audio and video recordings [J]. The Journal of Audio Engineering Society, 2009, 57(9):643661.
[6] 楊林國.詞類擴充方法在語音識別中的應用[J].電子技術應用,2014,40(6):123125,129.
[7] 趙媛媛,王力.基于流形學習ISOP算法的語音特征提取及應用研究[J].微型機與應用,2014,33(1):4345,49.
[8] 賴志慧,冷永剛,孫建橋,等.基于Duffing振子的變尺度微弱特征信號檢測方法研究[J].物理學報,2012,62(5):05050310505039.
[9] 王海波.Duffing方程非線性振動特性的計算和分析[D].西安:西安建筑科技大學,2009.
[10] 徐博侯,曲紹興.非線性力學導論[M].杭州:浙江大學出版社,2012.