文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2017.06.030
中文引用格式: 王帥,黃永峰,胡萍. 面向網絡股評觀點的垂直搜索引擎設計與實現[J].電子技術應用,2017,43(6):118-121.
英文引用格式: Wang Shuai,Huang Yongfeng,Hu Ping. Design and implementation of a vertical search engine for web stock review[J].Application of Electronic Technique,2017,43(6):118-121.
0 引言
我國自上世紀九十年代建立了上海證券交易所以來,經過了20多年的發展,中國股票A股市場的總市值已經超過了日本,位列全球第二[1]。隨著股票市場對國家宏觀經濟以及投資者的影響越來越大,研究者們也在探索各種股市行情的分析方法,希望能夠對股票市場的走勢進行預測。網民對股市或某只股票的網絡評論觀點在很大程度上反應了股市行情,也影響著股市漲跌。因此,如何快速高效地挖掘到網民對股市態度和觀點,對股市預測具有很大指導意義。
近年來隨著互聯網技術的飛速發展,越來越多學術界和金融從業者在研究各種股票預測方法。例如,文獻[2]提出了智能神經網絡(ANNs)對基于網絡數據的股票進行分析預測方法;HUANG B等提出了通過分析谷歌搜索趨勢,查找金融相關搜索術語能夠提前預測股票市場變化[3]。許多研究都已成功證明,股民的股票操作行為決策很大程度上受到網絡股民觀點和感情因素的影響。因此,目前有許多研究成果是通過對用網絡股票的情感極性分析,來實現對近期的相關股票指數、價格波動進行預測[4]。另外,文獻[5]的研究表明,股票價格的走勢與股民的情緒波動有著越來越密切的關系,學術界開始研究具體的情感傾向性分析方法來預測股市行情。2014年,Wang Gang等人基于SeekingAlpha以及StackTwits等平臺,采取建立情感字典和機器學習分類的方式,得到了網絡文本中的評論情緒,通過進一步情感分析,給出了具體的投資策略,最終獲得了較為滿意的收入結果[6]。另外,面向股市的垂直搜索引擎也在得到深入的研究和廣泛的應用[7]。
綜上所述,現有股市趨勢分析研究成果都存在著一定的局限性。例如分析過程中沒有融合網民自己的主觀意見和知識。另外,現有的面向股評的垂直搜索引擎雖然能檢索到股評內容信息,但不能直接給予網民觀點信息,缺乏對股民應有的支撐[8]。因此,融合觀點挖掘的股評全文搜索引擎技術是一項亟待研究的新方向。
本文通過重點研究垂直引擎的系統架構、主題爬蟲和情感極性分析等相關技術來構建一套面向網絡股評觀點的垂直搜索引擎,重點解決搜索引擎的響應速度、主題數據的采集效率和情感極性的分析精準度等關鍵技術問題。本設計的垂直搜索引擎可以根據用戶鍵入的股評查詢關鍵詞來檢索相關網絡股評內容,同時還能給出這些股評的觀點,即股評的情感正負極性。
1 面向網絡股評觀點的垂直搜索引擎
1.1 垂直搜索引擎的體系結構設計
面向網絡股評觀點的垂直搜索引擎設計目標是實現網絡股市新聞、股市論壇等網絡股評文本信息的全文搜索,同時還能通過分析檢索到文本的情感極性來進一步挖掘網民對股市或某只股票的觀點與態度。因此,面向網絡股評觀點的垂直搜索引擎的主要功能應該包括如下幾個方面:(1)對特定的金融論壇網站數據采集、清洗解析、結構化的信息抽??;(2)情感正負觀點極性分類與觀點呈現;(3)對分類后數據生成倒排序文件及保存管理;(4)支撐用戶對股評的全文檢索以及相關屬性統計查詢等。
因此,根據上述目標和功能的設計,本文提出了一種基于Hadoop平臺的面向網絡股評觀點的垂直搜索引擎體系結構,如圖1所示。
從圖1可以看出,本文設計的垂直搜引擎與現有的全文搜索引擎(例如Google和百度等)相比較,具有如下特點:
(1)針對指定金融網站進行精準的主題數據采集與解析,并抽取一些結構化信息,為某些屬性的統計分析提供支撐。
(2)能對采集網絡文本(例如股票評論、微博等)進行正負情感極性的計算與分析,從而實現網民的觀點挖掘,同時支撐正負觀點等屬性的統計分析。
(3)融合情感極性分類和關鍵詞索引等功能,綜合生成檢索倒排序文件。存儲在Hadoop大數據平臺的HDFS和HBase中。
(4)搜索引擎能提供基于關鍵詞、情感極性和屬性統計等多種檢索條件及其組合表達式的查詢。
另外,本文構建的垂直搜索引擎是基于開源Apache 的Lucene代碼改進來實現。在Lucene開源的基礎上,增加的核心模塊有情感極性分類、面向特定網站的主題數據采集和屬性統計等,并對倒排序生成和文件檢索、查詢及呈現等模塊進行功能擴展和性能優化。下面重點分析面向股評主題的定點收割爬蟲和多粒度模糊計算情感極性分析模塊的設計方法。
1.2 面向股評的主題數據定點收割爬蟲的設計
目前,對網絡開源的數據采集都是采用通用爬蟲技術,但在一些特定領域,只需要采集專門主題數據,此時通用爬蟲技術就不再適應了。因為在Web數據呈爆炸性增長情況下,通用爬蟲通常會采集到大量的不相關信息,從而極大地浪費硬件和網絡資源。
為此,在現有主題爬蟲技術的基礎上,提出了一種面向指定網站的定點收割爬蟲技術。該技術采用了目錄搜索技術和主題爬蟲技術相結合思想。通過用戶來定制一些指定網站或網站中某些頻道的目錄信息,再根據網站信息更新的頻率,設定定時器、周期性爬蟲這些網站或頻道中的數據,并進行解析和主題分析,為下一層爬取奠定基礎。本文設計的面向股評網站的定時收割爬蟲器的組成結構如圖2所示。在該結構中,用戶可以對需要的文本主題進行定義,主題描述主要是采用關鍵詞和LDA模型。用戶還可以對需要爬取的網站或網站頻道進行目錄定制。定時收割器能是根據這些網站的信息更新頻率來設置爬取的時間。超文本分類器是根據目錄列表和主題描述來進行文本分類和內容過濾,獲得用戶需要的文本數據。
定點收割爬蟲器的工作過程的算法設計如圖3所示。其中,最核心的問題是如何選擇爬蟲收割網頁的URL列表。在分析URL時,需要結合主題相似性比較方法來確定哪些網頁是與主題相關的,并進行相似性程度的排序,以此來支撐URL優先級列表構建。
1.3 面向股評觀點挖掘的情感極性分類器
網絡評論的觀點挖掘主要是采用網絡文本情感極性的分類方法來實現,目前網絡評論情感極性分類方法主要存在如下問題:(1)在計算評論的情感極性時,都只引入了情感詞或短語的情感極性信息,忽略了句子結構和句間關系信息。事實上,句子結構和句間關系信息對情感極性分類具有較大影響;(2)當前的情感極性分類建模主要是采用確定性數值模型,忽略了情感詞語義的模糊性。
針對上述存在的2個方面問題,本文提出了一種多粒度及模糊計算的無監督股評極性分類方法。該方法是針對情感詞語義對文本上下文的依賴問題而分析不同層次上情感特征信息,然后結合模糊集合理論,來構建一種文本情感極性的分析計算模型,以此來提高股評情感極性的分類精度。其核心思想是:在股評情感極性預分類階段,同時考慮情感詞、情感短語、句子類型和句間關系對情感詞情感極性的影響,這就是所謂“多粒度”。同時,還將現有情感極性確定性數值計算改進為模糊集合計算。因此,多粒度及模糊計算的情感極性分析模型是通過綜合考慮詞、短語和句子等不同粒度的情感信息,綜合分析股評的情感極性及其強度。在得到股評情感極性和強度后,采用模糊集合理論對股評的情感極性進行預分類,再結合自學習機制,構建一套股評情感極性無監督的在線分類器。
面向股評的多粒度及模糊計算情感極性分類器的整體架構如圖4所示。框架主要由3部分組成:(1)無監督情感極性分類器的情感知識庫,包括:情感詞典(QWSL)和情感語素字典(KSMD)等;(2)股評情感強度的多粒度計算組件。組件采將股評劃分3種不同粒度的語言單位:句子、短語和詞,并分別計算3種粒度的情感強度,然后綜合分析整個股評的情感強度。(3)模糊分類器。根據最大隸屬度原則來構造模糊分類函數,并采用自學習機制的設計分類器的相關參數。
上述組成部分中,最重要的是模糊分類器。其基本思路闡述如下:以股評集合R={ri}中評論ri的情感強度si(ri)為基礎,通過定義股評集合R={ri}的正向情感類別為模糊集P。
根據模糊成員函數定義和最大隸屬度原則,可將式(2)和式(4)正負成員函數組合為一個模糊集分類函數,如式(5)所示:
其中,μp(ri)表示模糊集P的正向成員函數;參數α和β為調節參數,可以統一為參數k來表示,k=(α+β)/2。
2 實驗測試與結果分析
實驗目標是驗證所提出的垂直搜索引擎中多粒度模糊情感極性分類方法的效果。
本文采取了3類實驗測試數據集,具體包括:網站股評、論壇股評和微博股評。每個數據集都包含正面評價和負面評論。3個數據集的統計數據見表1。
對于多粒度模糊情感極性分類方法,準確度(P)、召回率(R)、F1和精度(AC)是四類主要的性能指標,即檢驗該分類方法的查全率和查準率。本文在選擇基于情感詞典的網絡評論極性分類(MBSL)和基于情感詞典和模糊集的網絡評論極性分類(MBSLFS)兩種典型方法的基礎上,提出了基于多粒度模糊計算模型的網絡評論極性分類方法(MBMGC)。根據模糊分類器參數設置策略不同,分別采用人工標注數據集的方法(MBMGC1)和初始偽標注數據集的方法(MBMGC1)。
表2實驗結果表明:在3個數據集上,MBMGC的4個性能指標值均高于MBSL和MBSLFS,MBSLFS比MBSL提升了約8.62%分類精度,表明基于模糊集合的計算方法比基于情感詞典的確定數值計算方法更有效。而MBMGC1和MBMGC2比MBSLFS分別平均提升了約4.486%和3.677%分類精度,進一步表明基于多粒度的模糊集合方法比基于單一情感詞典的模糊集方法對情感極性分類更有效。
3 結語
本文根據股市信息搜索的需求,在主流全文搜索的基礎上,設計與實現了一種面向股評觀點的垂直搜索引擎。該引擎在對股市網絡評論進行全文檢索的同時,還能完成情感極性分類檢索。本文的貢獻點表現3個方面:(1)提出了一種面向股評觀點的垂直搜索引擎框架,能支持股評信息的高效全文檢索和觀點分析;(2)設計了一種面向網絡股評信息采集的定點收割爬蟲,能保證股評主題數據采集的精準性和召回率;(3)建立了一種多粒度及模糊計算的股評情感極性無監督的分類方法,解決了股評極性的在線分類問題。實驗結果證明,本文實現的面向股評觀點垂直搜索引擎能滿足實際應用要求。下一步研究重點為改進查詢接口方式和在更大數據量下的性能優化,進一步提高查詢響應速度。
參考文獻
[1] BROWN E D.Will twitter make you a better investor?A look at sentiment, user reputation and their effect on the stock market[C].In Proc.of 2012 SAIS,2012.
[2] JOHAN B,Mao Huina,Zeng Xiaojun.Twitter mood predicts the stock market[J].Journal of Computational Science,2011,2(1):1-8.
[3] HUANG B,HEILMAN T D.A web-based kernel function for measuring the similarity of short text snippets[C].Proceedings of the 16th International Conference on World Wide Web.AcM,2007:377-386.
[4] WANG B,HUANG Y,WU X,et al.A fuzzy computing model for identifying polarity of Chinese sentiment words[C].Computational Intelligence & Neuroscience,2015:1-13.
[5] MOAT H S,CURME C,AVAKIAN A,et al.Quantifying Wikipedia usage patterns before stock market moves[J].Social Science Electronic Publishing,2013,3(5):926-930.
[6] Wang Gang,Wang Tianyi,Wang Bolun,et al.Crowds on wall street:Extracting value from clooaborative investing platforms[C].In Progress in CSCW,2015.
[7] CHOUDHURY M M,SUNDARAM H,JOHN A.Can blog communication dynamics be correlated with stock market activity?[C].In Proc.of HyperText,2008:55-60.
[8] WANG B,MIN Y,HUANG Y,et al.Review rating prediction based on the content and weighting strong social relation of reviewers[C].Proceedings of the 2013 International Workshop on Mining Unstructured Big Data Using Natural Language Processing.ACM,2013:23-30.
作者信息:
王 帥,黃永峰,胡 萍
(清華大學 電子工程系 下一代網絡及應用技術研究室,北京100084)