文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2020.07.009
引用格式: 吳習沫,朱廣宇,張雷. 安全類文章的多文本分類系統的設計與實現[J].信息技術與網絡安全,2020,
39(7):52-56,60.
互聯網已成為信息傳播的普遍途徑,然而,由于互聯網中的冗余信息過多,各網站提供的標簽沒有統一的分類標準,使得整合某一特定類的文章信息所消耗的時間成本和人力成本增加。但目前為止,針對網絡安全類網站的技術類文章,還沒有一套系統能夠很好地解決上述對應問題。
為迅速掌握最新的網絡安全信息,本文設計并實現了基于CNN和LSTM混合模型的安全類文章多文本分類系統,該系統從多種來源收集安全類技術文本,并將它們以特定格式匯總,自動標記匯總后的文章內容。就信息收集而言,系統主要采集近一年的安全類技術文本,收集的目標內容主要包括文章內容和網頁自帶的標簽,對于各網站自定義的文章標簽,可作為多標簽的一部分,供用戶參考。安全類文本與普通文本對比需要由多個標簽對其進行標記分類處理。因此安全類文本的分類要難于普通文本分類處理。
面向網絡安全數據高并發的安全類網站,本文設計和實現了信息采集模塊,該模塊主要實現了基于Scrapy框架的分布式爬蟲程序設計,完成了多個安全類網站技術類文章的文本信息數據采集。
本文設計并實現了信息分類模塊,它負責對所獲得的數據進行預處理、文本表示以及文本分類,其中文本分類模塊具體提出了一種基于CNN和LSTM的混合分類模型,它綜合了CNN與LSTM的優點,提高了模型的特征提取能力。實驗結果表明,基于CNN和LSTM的混合分類模型達到了比較高的準確率,CNN和LSTM的混合模型的準確率為91.99%。CNN-LSTM與CNN、LSTM相比分類準確率提高了1.79%和1.54%。
本文詳細內容請下載:http://www.j7575.cn/resource/share/2000003231
作者信息:
吳習沫,朱廣宇,張 雷
(華北計算機系統工程研究所,北京100083)