文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.015
引用格式: 黃偉強,劉海,梁韜文,等. 針對在線教育情感分析的數據擴充研究[J].網絡安全與數據治理,2022,41(1):93-100.
0 引言
隨著信息技術的飛速發展,在線教育逐漸興起,越來越多的人在在線教育課程中留下了有價值的評論,通過對這些評論進行情感分析可以達到多方面的目的,如分析學生對課程的滿意度、調查老師授課水平、挖掘課程質量等。
情感分析(Sentiment Analysis),又稱為情感傾向性分析[1],目的是找出文本中情感的正負性,如正面或負面、積極或消極,并且把這種正負性數值化,以百分比或者正負值的方式表現出來。情感分析的研究方法大致可以分為兩種:一是基于情感詞典的情感分析[2],主要通過建立情感詞典或領域詞典及通過文本中帶有極性的情感詞進行計算來獲取文本的極性,由于依賴于情感詞典,存在覆蓋率不足等缺點;二是基于機器學習的情感分析,包括監督學習、無監督學習和半監督學習三種方法,其中與監督學習和無監督學習相比,半監督學習通過少量標注數據和大量無標注數據進行識別,既不用對所有的數據進行標注,也不依賴先驗經驗,有較好的實用性,從而被許多學者應用在情感分析問題上,如陳珂等[3]利用基于分類器集成的self-training方法進行情感分析研究,使用少量標注樣本和大量未標注樣本來進行情感分析訓練,準確率達86%。
數據擴充[4]是一種結合機器學習使用的方法,在訓練樣本不足的情況下,可使模型訓練更好地擬合,通過與半監督的方法相結合,可達到標注少量數據以擴充至大量訓練數據的效果。數據擴充方法目前已被用于圖像、交通、醫療等領域[5-7],目前主流的數據擴充方法有圖像翻轉、隨機噪聲、標簽傳播等[8]。
情感分析目前已被應用于如電影評論、書籍評論、微博短評等多個領域,但在在線教育課程評論領域的應用還較缺乏,把情感分析應用在在線教育課程評論上存在著各種挑戰,如評論數據的獲取、評論數據的標注等。為了解決以上問題,本文借鑒半監督學習的方法,提出基于聚類分析的文本數據擴充方法:對少量關鍵數據進行標注,并通過聚類分析獲得大量已標注數據。在目前主流在線教育平臺爬取的569 970條課程評論中選取1 000條關鍵數據進行標注并使用本文數據擴充方法擴充至10萬條標注數據,分別利用SVM[9]、RandomForest[10]、AdaBoost[11]、GradientBoost[12]和CNN模型對標注數據進行訓練,實驗表明,與目前主流的LabelSpreading算法相比,本文的數據擴充方法均有準確率上的優勢。
本文詳細內容請下載:http://www.j7575.cn/resource/share/2000004618
作者信息:
黃偉強1,劉 海2,梁韜文2,楊海華2
(1.華南師范大學 網絡中心,廣東 廣州510631;2.華南師范大學 計算機學院,廣東 廣州510631)