丁香花视频网,深爱激情成人,精品伊人

Web日志挖掘中一種改進的會話識別方法

來源:微型機與應用2010年第15期

周愛武，程博

(安徽大學計算機科學與技術學院，安徽合肥　230039)

摘要： 提出了一種改進的會話識別方法。該方法基于訪問站點的首頁和導航頁，以首頁或導航頁作為新會話開始的標識。選取真實的Web日志，用PL/SQL編程實現改進的會話識別方法，并與現有方法進行比較。實驗結果證明，改進的會話識別方法比現有方法識別會話更有效。

關鍵詞： 數據預處理 Web日志會話識別 SQL

Abstract：

Key words :

摘要： 提出了一種改進的會話識別方法。該方法基于訪問站點的首頁和導航頁，以首頁或導航頁作為新會話開始的標識。選取真實的Web日志，用PL/SQL編程實現改進的會話識別方法，并與現有方法進行比較。實驗結果證明，改進的會話識別方法比現有方法識別會話更有效。
關鍵詞： 數據預處理；Web日志；會話識別；站點首頁；導航頁

    Web日志挖掘現已成為Web挖掘研究的重點。其主要分為數據預處理、模式發現、模式分析3個階段[1]。數據預處理階段是要把從各種數據源得到的使用信息、內容信息和結構信息轉換成模式發現階段需要的數據抽象；模式發現階段旨在使用各種數據挖掘技術發掘隱藏在數據背后的規律和模式；模式分析階段旨在根據具體的實際應用，過濾掉在模式發現階段沒有用的規則或模式，并把有用的規則和模式轉換為知識。
    本文主要研究數據預處理階段的會話識別。在分析現有的會話識別方法基礎上，提出一種基于訪問站點首頁和導航頁的改進會話識別方法，最后通過實驗驗證了改進的會話識別方法比現有方法更有效。
1 數據預處理
    數據預處理是Web日志中最基礎、最頻繁的工作，是整個數據準備的核心工作。數據預處理的結果將直接影響到挖掘算法產生的規則和模式，因此預處理過程在整個Web日志挖掘過程中占據著非常重要的地位，是挖掘質量的保證。
    數據預處理包括數據清理、用戶識別、會話識別、路徑補充和事務識別5個階段[2]。(1)數據清理是指刪除Web日志中與挖掘算法無關的數據；(2)用戶識別是識別出訪問網站的每個用戶；(3)會話識別是在用戶識別之后，把每個用戶在一段時間內的訪問序列進行分解，從而得到相應的會話。會話是指同一用戶在一次瀏覽過程中連續請求的頁面序列，它代表了用戶對服務器的一次有效訪問；(4)路徑補充是對識別出的用戶會話進行優化的步驟，以使得其更加準確地描述用戶的瀏覽請求；(5)事務識別是將用戶會話進行語義分組，形成適合挖掘需要的事務。
2 會話識別分析
    用戶會話[3]是指用戶從進入站點到離開站點期間所訪問的一系列頁面序列集合?？杀硎緸椋?br />
    其中SessionID是會話標識，{(Pid₁，t₁)…(Pid_k，t_k)…(Pidn，tn)}是此次用戶會話的頁面訪問序列，Pid是訪問頁面的標識，t是訪問該頁面的時間。(Pid₁，t₁)表示用戶此次會話訪問的第一個頁面和時間，(Pid_n，t_n)表示用戶此次會話訪問的最后一個頁面和時間。
2.1 常用會話識別方法
    目前常用會話識別方法主要有兩大類：一類是基于時間閾值，另一類是基于用戶訪問頁面時的參引頁面。基于時間閾值的會話識別方法又可細分為以下3類：
    (1)設定會話的持續時間閾值θ。即一個會話總的持續時間不超過θ。國外學者Catledge和Pitkow由實驗得出θ設為25.5 min較好[4]，許多商業產品都采用30 min作為缺省值。
    (2)設定頁面的訪問時間閾值η[5]。假設(Pid_i，t_i)、(Pid_i+1，t_i+1)為一個用戶訪問序列中的兩條相鄰訪問記錄。只有當t_i+1-t_i≤η時，才認為這兩條記錄屬于同一個會話。當t_i+1-t_i>η時，(Pid_i，t_i)是上一次會話的最后一條訪問記錄，而(Pid_i+1，t_i+1)是新會話的第一條訪問記錄。一般η取10 min。
    (3)上述方法(2)是對所有頁面設定同一個頁面訪問時間閾值，并沒有因頁面的不同而不同。參考文獻[6]中，根據統計的頁面的訪問時間，在正態分布的假設下為每個頁面設定一個訪問時間作為切分會話閾值，并結合頁面內容及站點結構來確定頁面重要程度，對該閾值進行調整。這是一種個性化的時間閾值設置方法。

2.2 常用會話識別方法評估
    第(1)、(2)兩種方法使用單一時間閾值來識別用戶會話顯然是不合理的。方法(1)不能識別出訪問時間大于30 min的會話，且識別不出兩個連續較短的會話；方法(2)的不足在于，若一個用戶在訪問站點期間暫時離開電腦，但并沒有退出站點，過10 min后回來繼續瀏覽該站點，這實際上屬于同一個會話，而方法(2)則會錯誤地認為用戶開始了一個新的會話；方法(3)使用的統計學方法雖然大大減小了上限閾值，但仍然無法準確描述對頁面感興趣的用戶閱讀網頁的平均時間，無法區分超短時間用戶訪問記錄。
    基于參引頁面的會話識別方法引入了時間限制?駐，主要是考慮到下面這種情況：訪問頁面的引用頁面為空，用戶可能是通過點擊瀏覽器上的”BACK”按鈕，回溯到之前某個曾經瀏覽過的頁面，進而訪問到該頁。這顯然也是不合理的，用戶從p頁面回退到上級頁面后，用戶要在此頁面搜尋到感興趣的p頁面，并點擊鏈接進入該頁面，所需時間一般不止10 s，且用戶可能是回退多次后再點擊鏈接進入p頁面。因此，此處設置這個時間閾值并不合理。
3 改進的會話識別方法
3.1 會話劃分思考
    要準確地識別出用戶會話，關鍵在于識別出兩次相鄰會話的分割點。即上一次會話結束時訪問的頁面及下一次會話開始時訪問的頁面。而找出新會話開始時訪問的頁面，也就意味著上一會話的結束。因此，研究重點放在尋找標記新會話開始的訪問頁面。
    用戶開始訪問某一站點，一般是通過在瀏覽器的地址欄中輸入站點的URL或是通過點擊收藏欄中的收藏，通過站點的首頁進入此站點的，此時用戶也就開始了自己的一次會話。在Web服務器日志中，可以查看用戶訪問的URL是否是首頁來判斷用戶的這種行為。當用戶瀏覽完畢退出該站點，此時會話結束，而在Web服務器端日志中，無法判斷這種用戶行為。但當該用戶下一次通過首頁來訪問站點時，在Web日志中發現用戶又鍵入了首頁URL，則很顯然上一次會話在本條記錄之前結束，本條記錄標志用戶開始了一個新的會話。
3.2 改進的會話識別方法
    上述思想以訪問站點的首頁作為新會話開始的標記，基于這一前提用戶開始訪問站點時總是由站點首頁進入站點。但真實的訪問情況并不是所有的用戶每次開始訪問站點時都由首頁進入。一般的站點分若干版塊，而每一版塊都有自己的導航頁。如一門戶網站有新聞、體育、娛樂各版塊，有的用戶只對體育感興趣，那么他可能就會將體育版塊的導航頁做為收藏，每次訪問站點時，點擊收藏，直接進入體育導航頁開始訪問，而非先通過站點首頁，再進入體育版塊導航頁。因此，識別用戶會話，不能只以站點首頁作為開始標記，還應考慮各導航頁，因為很多用戶是直接通過導航頁訪問自己感興趣的頁面而非站點首頁。
    改進的會話識別方法如圖1所示，以站點首頁或導航頁作為新會話開始的標識。

    改進的會話識別方法具體描述如下：
    (1)首先用戶訪問序列中的第一條訪問記錄是第一個會話的開始序列，置入第一個會話中；
    (2)讀取用戶訪問序列中的下一條訪問記錄，直至序列中所有記錄都處理完畢；
    (3)判斷本次訪問的頁面是否是站點的首頁，若是首頁，則當前會話結束，新會話開始，將該次訪問置入新會話的訪問序列中，然后轉步驟(2)處理下一條訪問記錄。否則，轉步驟(4)；
    (4)判斷本次訪問的頁面是否是站點的導航頁之一，若不是(即該頁面為內容頁)，則將本次訪問置入當前會話的訪問序列中，然后轉步驟(2)繼續處理下一條訪問記錄。否則(即該頁面是導航頁之一)，轉步驟(5)判斷它的上一條訪問記錄；
    (5)判斷上一條訪問記錄，若上一條訪問記錄訪問的頁面是首頁，則本次訪問記錄和上次訪問記錄同屬一個會話；若上一條訪問記錄訪問的頁面不是首頁，則本次訪問就標識了新會話的開始，將其置入新會話的訪問序列中。轉步驟(2)，處理下一條訪問記錄。
4 實驗與結果分析
4.1 實驗過程
4.1.1 數據準備
    選用了安研星空站點http://www.ahusky.cn/從2009年2月17日至2009年3月5日的Web服務器日志，共計1 251 331條記錄，作為實驗數據，如圖2所示。

4.1.2 會話識別
將這些Web訪問日志通過SQL Loader載入Oracle數據庫中，經過數據清理，共有有效訪問記錄35 273條，存放在表log中，如圖3所示。

此處，以Web訪問日志中的IP地址作為用戶標識，利用Oracle PL/SQL編程實現上述改進的會話識別算法。為了與其他的會話識別方法進行比較，分別用2.1節中的方法(1)和方法(2)對同樣的Web日志進行會話識別，其中方法(1)取時間閾值30 min，方法(2)取時間閾值10 min。實驗結果如表1所示。

4.2 實驗分析
通過實驗發現，改進的會話識別方法識別出的會話數(11 325條)要遠多于方法(1)(5 073條)和方法(2)(5 226條)。另外，為了比較這三種會話識別方法識別會話的準確率，將三種方法中識別出的關于用戶220.178.4.195的會話分別與原始的Web日志記錄比較，發現改進的會話識別方法識別會話的準確率(82.19%)也要高于方法(1)(62.47%)和方法(2)(64.85%)。由此可見，改進的會話識別方法能夠識別出更多的會話，且識別會話的準確率也更高。
數據預處理階段的會話識別為模式分析階段提供了挖掘數據，即每一個有效的用戶會話，因此它直接影響到模式分析階段能否發現有效的模式。本文提出的基于站點首頁和導航頁的改進會話識別方法能識別出更多的會話，識別會話的準確率更高。
參考文獻
[1] SRIVASTAVA J， COOLEY R. Web usage mining: Discovery and applications of usage patterns from Web data[C]. SIGKDD Explorations， 2000.
[2] COOLEY R， MOBASHER B， SRIVASTAVA J. Data preparation for mining world wide web browsing patterns[J]. Knowledge and Information Systems， 1999，1(1):5-32.
[3] FACCA F M， LANZI P L. Mining interesting knowledge from Weblogs: a Survey[J]. Data and Knowledge Engineering， 2005，53(3):225-241.
[4] CATLEDGE L， PITKOW J. Characterizing browsing strategies in the world wide Web[J]. Computer Networks and ISDN Systems， 1995，27(6):1065-1073.
[5] SPILIOPOULOU M， MOBASHER B， BERENDT B， et al. A framework for the evaluation of session reconstruction heuristics in Web usage analysis[J]. Informs Journal of Computing， 2003，15(2):171-179.
[6] 嚴奉華，劉建平，楊凡丁.改進的Web訪問日志會話識別算法[J].計算機工程與設計.2008，29(22):5685-5687.
[7] 熊忠陽，周亞峰.Web訪問挖掘的預處理技術的研究[J].計算機技術與發展2007，17(8):14-18.

原創聲明：此內容為AET網站原創，未經授權禁止轉載。

相關內容