《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于DTS的Web日志分析系統
基于DTS的Web日志分析系統
焦文彬 及俊川 叢培民
北京中國科學院計算機網絡信息中心(100864)
摘要: 通過在Web日志分析系統中引入Microsoft SQL Server的DTS技術,解決了日志系統運行效率與數據結構化存儲之間的瓶頸問題。文中介紹了一種實際系統的架構設計方案,并給出了實現方法及應用效果。
Abstract:
Key words :

摘  要: 通過在Web日志分析系統中引入Microsoft SQL Server的DTS技術,解決了日志系統運行效率與數據結構化存儲之間的瓶頸問題。文中介紹了一種實際系統的架構設計方案,并給出了實現方法及應用效果。
關鍵詞:  Web日志  離散  數據轉換服務  數據挖掘  Java

  隨著Web站點規模的增大,所涉及的應用服務種類越來越多。因此需要有效地對各站點的訪問情況和服務性能進行監控和分析,包括訪問量的統計、流量的監控、資源利用的監測以及服務性能的評估等,從而為決策者和網站建設者提供管理和決策依據。站點的監控和統計分析已成為站點建設的一項重要內容。Web服務器的訪問日志文件記錄了客戶端每次請求的細節,如請求資源、請求時間、客戶IP、服務器IP、發送字節數和接收字節數等,因此,對Web站點訪問日志進行分析,已成為評估網站運行質量的一種常用方法。
  大型Web站點的日志文件的重要特征是數據量巨大,每日幾百兆甚至上千兆,并且隨著時間推移不斷增加。因此很多站點對日志文件進行按日分割(即每天產生1個文件),而這樣就帶來日志文件的離散性。傳統日志分析系統過多關注日志分析的效率問題,而忽略了對離散文件進行連續分析的研究及對每次分析結果的結構化保存問題。隨著數據挖掘技術逐漸由理論到實踐以及人們對海量數據的利用越來越關注,進行持續分析以及對分析結果進行結構化存儲甚至比效率顯得更加重要。近來的系統雖然重視了這方面的研究,在分析過程中引入了數據庫系統,但由于大數據量導入數據庫耗費了大量時間,因此系統并不實用。
  現代關系數據庫很重視原始數據的導入,一般都提供數據導入工具,如SQL-SERVER的數據轉換服務(Data Transformation Services,DTS),ORACLE的SQL?鄢LOADER等。本文就是通過在日志分析系統中嵌入SQL-SERVER的DTS,從而使系統既有較高的執行效率,又很好地解決了離散文件的連續性分析與存儲問題。
1  DTS介紹
  將不同數據源中的數據加以整合是進行數據分析和數據挖掘的前提和基礎。DTS是一組圖形化工具和可編程對象,可以將來自不同數據源的數據析取、轉換、合并到 DTS所支持的單個或多個數據載體中,以便做進一步的處理。Microsoft從SQL-SERVER 7.0開始提供該項服務,到了SQL-SERVER 2000 DTS得到了重大的發展,成為SQL-SERVER主要功能之一。
  要利用SQL-SERVER的這一強大功能,首先要建立DTS包。DTS包是數據轉換服務的可執行單元,每個包都包含1個或多個順序或并行執行的程序步驟。當包執行時,首先連接到正確的數據源,然后復制數據和數據庫對象,最后完成數據轉換工作。用戶可以對包進行編輯、密碼保護、調度以及按版本檢索等操作。SQL-SERVER提供了多種方式創建DTS包,如DTS導入/導出向導、DTS設計器等可視化工具。
  創建好DTS包后,便可在客戶端通過DTS執行實用工具(如dtsrun)進行調用,這樣就可將特定格式的數據從不同的數據源導入目的數據庫中。本文所討論的日志分析系統便是建立在這種方案之上的。由于DTS是系統提供的一種多線程數據遷移工具,因此具有很高的轉換效率。詳細的關于如何創建DTS包和dtsrun的調用方法請參考相關專著和SQL-SERVER聯機幫助。
2  系統設計
  通過上面的分析,本文認為運用DTS技術能夠很好地解決日志系統運行效率與數據結構化存儲之間的瓶頸問題。整個系統的架構設計如圖1所示。本設計基本實現了以下目標。

  (1)適合日志文件的多樣性
  現有多種流行的Web服務器,如Apache、IIS等。不同服務器的訪問日志文件所記錄的內容大同小異,如請求資源、請求時間、客戶IP、服務器IP、發送字節數和接收字節數等,然而記錄格式卻不盡相同。Apache和IIS的Web日志格式如表1所示。格式具體含義請參考聯機幫助。


  由此可見,日志文件屬于半結構化的文本文件。對于這樣的文件DTS是不能夠直接導入到數據庫中的。因此,在原始日志文件下載到本地后,應該對文件進行規范化處理,這里稱為日志文件的歸一化處理,即將不同的日志格式轉換成一種DTS可以直接操作的文件格式。這實際上是一種文本過濾技術,很多編程語言都能方便實現。
  (2)離散非結構數據的結構化存儲
  日志文件在進行歸一化處理后,便可使用DTS服務了。首先通過向導(Wizard)或數據轉換服務中的工具定義一個DTS包,其中數據源是經過歸一化處理的日志文件,導入目的庫是系統使用的數據庫。一切定義好之后,便可以將數據導入到數據庫表中??梢园l現導入效率非常高,通常在2~5分鐘能完成100萬條記錄。
  (3)進行遠程離線統計
  分析系統應該盡量做到對Web服務器的無干擾操作,否則會影響Web服務器的正常工作。為此,分析系統應該在物理上與Web服務器隔離,使之位于另一臺服務器上,甚至另一個網絡中。這樣,系統應采用一定的技術手段將Web日志文件下載到本地。本系統采用FTP進行文件下載。
  (4)分析功能的定制性
  功能定制也稱為基于組件的軟插拔技術,是現代軟件所倡導的核心技術之一。因此,本系統的分析功能采用基于軟組件的方法,實現了系統功能的配置與定制。數據在導入數據庫系統之后,便可以利用關系數據庫和編程語言的強大功能進行數據挖掘和分析處理。
  (5)功能豐富的報表輸出B/S方式
  B/S方式已成為人機交互和信息表現的主流方式。本系統也是通過該方式顯示分析結果,通過豐富的報表、統計圖等直觀的手段,為網站管理者和決策者提供有價值的信息。
3  系統實現
  本系統由2部分組成,即后臺服務程序和前臺顯示程序。其中后臺服務程序負責完成日志文件下載、歸一化處理、DTS入庫、分析等功能,根據需要可以設置為自動運行和手動運行。現已實現了訪問統計功能、頻道統計功能、熱門頁面(HotPage)排行和用戶地域分析等功能。前臺顯示程序是基于B/S結構,通過統計表和統計圖方式直觀地展示分析結果。本系統采用Java語言開發,為系統移植和擴展提供了方便。利用本系統對某大型新聞類網站進行的一個月度訪問走勢對比分析如圖2所示。

4  結束語
  本文介紹了Web日志分析系統的特點和目前研究重點,并概要介紹了Microsoft SQL Server的DTS技術。在此基礎上開發的Web日志分析系統,較好地解決了日志系統運行效率與數據結構化存儲之間的瓶頸問題。該系統采用了主流的軟件技術,架構清晰,可擴展性較好。該系統操作簡單,功能實用,目前已在多個大型Web站點獲得了成功的應用,為網站管理者和決策者提供了大量有價值的信息。
參考文獻
1   張川.具有訪問時間完整性的Web日志方法.計算機應用與軟件,2004;21(2)
2   趙偉.Web日志挖掘中的數據預處理技術研究.計算機應用,2003;23(5)
3   張靜,田忠和.基于IIS和Web日志的關聯關系的挖掘.華中科技大學學報(自然科學版),2002;30(7)
4   章立民.SQL Server 2000完全實戰-數據轉換服務(DTS).  北京:中國鐵道出版社,2002
5   Bartolini C,Redpath R.Web Usage Mining and Discovery of Association Rules from Http Servers Logs.http://www.prato.linux.it/~gbartolini/en/view-a/2/pdf/wum.pdf,2001
 

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 99在线热视频| 网站视频大片www | 拍拍拍交性免费视频 | 久久这里一区二区精品 | 大片在线观看 | 色列里番不知火舞h本全彩无遮挡 | 国产精选一区二区 | 老色皮永久免费网站 | 成人黄色小电影 | 久久精品一区二区三区资源网 | 五月天婷婷丁香 | 黄色工厂在线播放 | 国产精品98视频全部国产 | 国产色爽免费视频 | 久久综合精品不卡一区二区 | 黄色小视频在线观看 | 亚洲五月激情 | 亚洲欧美精品成人久久91 | 国产黑人在线 | 久久这里只有精品首页 | 毛片免费播放 | 精品亚洲福利一区二区 | 六芒星免费观看视频在线看第二集 | 免费在线黄视频 | 亚洲va中文字幕欧美不卡 | 风流女管家la在线播放 | 久久久久久久久97 | 国产精品亚洲综合久久 | 青草视频免费在线观看 | 国产一级高清视频在线 | 日本高清加勒比 | 国产美女在线观看 | 伊人青草| 国内偷拍视频网站 | 黄大妮电视剧1~48集免费观看 | 久久免费视频99 | 欧美精品一区二区三区免费 | 国产精品亚洲综合久久 | 婷婷综合五月 | 免费高清欧美一区二区视频 | 五月婷婷丁香综合网 |