摘 要:從網絡處理器NP(Network Processor)對數據包接收、處理和發送的角度,討論在NP架構下多微引擎、多線程并行處理網絡數據包,實現基于包過濾方式防火墻的原理。
關鍵詞:網絡微處理器;防火墻;包過濾;微引擎;并行處理
?
防火墻是當今計算機網絡安全的主要設備之一。隨著網絡數據量的增大、速度的增高,軟件防火墻已不能勝任,硬件防火墻成為大流量、高品質防火墻產品的首選。硬件防火墻的實現方案有采用網絡處理器ASIC技術實現芯片級防火墻和采用網絡處理器NP(Net Processor)技術實現微處理芯片防火墻兩種。對兩種方案進行比較,ASIC處理速度快,數據吞吐量大,但開發難度大,開發周期長,很難適應快速變化的網絡環境而升級換代;NP技術實現方案靈活,也較ASIC開發難度小,開發周期短,可以根據情況快速升級。NP技術是適合我國國情的硬件防火墻產品的實現方案,是目前我國硬件防火墻產品主要采用的技術[1]。
防火墻可根據其處理數據的層次分為:包過濾防火墻、狀態檢測防火墻、代理服務器防火墻和核處理防火墻。對于要求高速處理的硬件防火墻(處理能力大于2.5 Gb/s),無法完成代理服務防火墻功能和核處理防火墻功能。基于包過濾功能硬件防火墻是高速防火墻能采用的基本實現策略。以下將就NP實現包過濾的方法進行研究。
1 IXP2400網絡處理器
NP是專門為處理網絡數據包而設計的可編程處理器,它能夠并行、高速完成網絡數據處理。IXP2400是INTEL公司的第二代NP產品,它采用多內核并行結構,由1個XScale Core作為核心處理器,以及8個32位獨立可編程、支持多線程的微引擎(MicroEngine)構成。NP的體系結構可分為兩個層面:控制層面和數據層面。
控制層面由XScale Core處理,它的主要任務是完成對整個NP各部件的初始化,運行操作系統,完成復雜而非實時運算。控制層面一般安裝的操作系統是:VxWorks或LINUX等。由于控制層面是構建在一個強大的XScale Core之上,其開發與一般的嵌入式系統開發相類似。
數據層面主要負責對數據包的收發和實時數據處理,由微引擎來完成。微引擎是32位的采用RISC技術實現的微型MCU,對它的編程與傳統嵌入式系統開發不同,由INTEL提供的MicroC和MicroASM支持。微引擎和XScale Core在工作時關系如圖1所示。
?
2?包過濾的規則
包過濾是基于一系列規則對進出防火墻的數據包進行過濾。規則其實是一個“if conditions then action”的判斷,一組規則構成一個規則表(如表1)。當IP數據包通過這個規則表的檢查后,允許通過的IP包就轉發,禁止通過的IP包就被攔截下來,其結果如表2所示 。對于一個小型的網絡,其規則一般有幾百個,對于一個中型的ISP服務網絡,其規則一般有數千個,對于一個大型的網絡其規則一般超過2萬個。在進行包過濾時,最重要的就是進行規則的匹配。如何快速查找匹配規則,減少存儲器容量成為包過濾算法的研究重點,參考文獻[2]中詳細地討論了一些包過濾算法。
?
?
本文主要是討論NP在整個過程中各部分的工作,為敘述簡單將不涉及復雜的規則查找,采用線性搜索,即從上到下對規則表進行查找,在制定規則表時,優先級高的規則將被安排在表的前面。
3 基于NP的包過濾
IP數據包過濾處理由IXP2400中的微引擎完成。微引擎是一個個獨立的MCU,有自己的寄存器、存儲器,執行各自的指令序列,互不干擾,而且每個微引擎支持8個硬件線程。在數據包處理的過程中,IXP2400的8個微引擎可以采用串行流水線方式(如圖2)工作,或以并行處理方式(如圖3)工作。在參考文獻[3]中指出并發處理比串行流水線處理的效率要高25%。
?
在串行流水線工作方式中,每一個微引擎(ME)完成的工作不同,當一個微引擎完成其工作后,將數據包交給下一個微引擎繼續后續工作,所以每一個微引擎執行的代碼不同。在并發處理方式中,每一個微引擎完成的任務相同,每一個微引擎所執行的代碼相同。本文在安排微引擎時,包的接收采用ME0,當它處理完后將結果交給ME1~ME6,這6個微引擎并發對數據包進行規則匹配,匹配結束后將包交由ME7完成發送任務。整個包過濾處理結構既有串行方式,又有并發方式,這是因為在整個處理過程中,進行規則匹配所需的時間和運算都比接收和發送的要多,將更多的處理能力部署在這一環節,可以消除整個系統處理的瓶頸。
3.1 接收處理的實現
MSF(Media Switch Fabric Interface)是IXP2400連接網絡的接口。它具有8 KB的RBUF(接收緩沖)和8 KB的TBUF(發送緩沖)。當外部以太網幀(Packet C)進入MSF時,MSF將數據幀分割成若干個大小為64B(或128/256 B)的mpacket,mpacket存放在RBUF中,每一個mpacket占據RBUF的一條目。當RBUF中有有效條目時,MSF將發出一個RBUF有效信號。在MSF中,有一個RX_THREAD_FREELIST數據結構,該結構登記了用于處理接收任務的空閑線程。本文將ME0中空閑線程登記在這里,并按順序排列成接收線程鏈。當一個空閑線程接收到一個RBUF有效信號的觸發時,便會進入忙狀態,進行一次mpacket的接收循環;當循環結束后,這個線程將重新回到空閑狀態,并重新鏈入RX_THREAD_FREELIST。各線程在接收mpacket時,以無限循環方式進行,一次循環中完成如下工作:
(1)檢查mpacket是否SOP(Packet C進入MSF時,被分割成多個mpacket,其中第一mpacket就是SOP)或EOP(Packet C中最后一個mpacket);
(2)如果是SOP,線程將在DRAM中開辟一個新Buffer,并將mpacket拷貝至其間,如果不是SOP則緊接著前面拷貝的內容進行拷貝。這樣可以將一個被分割的包重新組合起來;
(3)如果是EOP,意味著Packet C的結束,在拷貝完此mpacket后,線程將在SRAM中的接收隊列中將此Packet C的包句柄(PC)插入到隊列的尾部。接收過程如圖4所示。
每個線程一次循環只處理一個mpacket,如果一個包分成幾個mpacket,則由幾次這樣的循環完成接收。由于每個IXP2400的微引擎都有8個硬件支持的線程,在接收包處理時,可以出現多個線程并發接收多個mpacket,這樣效率當然會很高,但同樣也可能打亂Packet C的重組。為避免這種情況的發生,各線程的工作次序是嚴格規定的。各空閑線程在RX_THREAD_FREELIST登記時,就按順序登記,線程1在最前,線程8在最后。當第一個觸發到來時,則觸發線程1,線程1在處理時,若再接收到觸發時,線程2接收觸發,如此類推,當線程1處理完后,它跟在線程8后面,如此形成一個閉合的線程處理鏈。在將數據從RBUF拷貝至DRAM的過程中,線程要經過一個對線程序號敏感的微處理塊,以保證多線程在拷貝過程中是按順序進行的。
3.2 規則匹配處理的實現
本文所涉及的規則表中規則數目較少,搜索匹配規則的方法也相應簡單,采用的是線性搜索方法。處理的流程如圖5所示。
如前所述,采用ME1~ME6共6個微引擎同時對數據包進行包過濾,每個微引擎有8個線程,所以可用于包過濾的線程有6×8=48個,每個線程都采用無限循環方式。當接收隊列中有有效元素,便發出處理信號。在線程池中,處在等待狀態的某一線程便會從SRAM中的接收隊列取出頭元素。接著,線程根據所取得元素中的包句柄從DRAM中將幀首部讀進來,然后判斷是否是一個有效的以太網幀。如果不是,則丟棄包,并返回等待狀態。如果是有效幀,則從DRAM中讀出IP首部,對在SRAM中的規則進行匹配。包過濾規則由XScale Core在SRAM 中建立一個規則表,并可根據實際情況對表進行增加和刪除。線程從SRAM中將一條規則讀進來,進行匹配運算。若匹配,則根據規則中允許/禁止進行后續工作;若允許,則將把DRAM中對應的包的句柄作為新的元素插入SRAM中的發送隊列中;若禁止,則釋放DRAM中對應的包空間,并返回線程的等待狀態。若不匹配,則從SRAM中讀入下一條規則,重復以上工作,直到最后一條;如果仍找不到匹配規則,則將接下來的工作交給XSale Core完成。
每個包過濾線程完成一個包的過濾,從接收隊列中將包句柄一一取出,處理完后,再在發送隊列中將其插入到隊列的尾部。但可能因為有些包處理得快,有些包處理得慢,使原來的接收順序因為處理速度的不同而打亂。為了使發送隊列句柄的順序保持與接收隊列一致,采用了阻塞式順序包算法(Blocking Packet-ordering Athorithm)[4]。
3.3 發送處理的實現
發送任務由ME7來完成,ME7有8個線程,每個線程完成如下工作:(1)線程發現發送隊列中的有效包句柄則從SRAM的發送隊列中將隊列頭元素取下來;(2)計算每個mpacket在包中的位置,把包從DRAM中以mpacket大小拷貝到TBUF中,其中TBUF是MSF中的發送緩沖區;(3)寫入TBUF的單元控制字,表明TBUF包含有效數據;(4)當MSF收到EOP標志的mpacket時,表明該包結束,此后該包將交由外部的MAC設備傳輸。其過程如圖6所示。
?
一個發送線程一次循環只負責一個mpacket的操作,周而復始。如同接收線程那樣,發送線程排好隊,如流水線般將發送隊列中的元素對應的包,分解為mpacket單元,并逐個按順序搬運到TBUF緩沖區。
在上述包過濾規則匹配時,微引擎會多次訪問DRAM,以及在SRAM中進行搜索。當規則表中有較多規則時,查找規則的算法會變得相當復雜,將嚴重影響防火墻的處理速度。要使防火墻能快速地完成包過濾功能,可采用2個層次的手段:其一,改進查找算法,比如使用基于狀態的動態包過濾算法;其二,充分應用NP內部的并行處理架構,安排好各微引擎工作內容,協調好微引擎內各線程的工作,使NP能高效并行地運行。
參考文獻
[1] 宋斌,程勇,劉科全.NP架構千兆線速防火墻的體系結構與關鍵技術,信息安全與通信保密,2004(8):22-25.
[2]?PANKAJ G,KEOWN M.Algorithms for packet classification.New York:IEEE,March/April 2001:24-32.
[3]?DEEPA S,FANG,Wu Chang. Performance analysis of multi-dimensional packet classification on programmable network processors. New York: IEEE,Proceeding of the 29th Annual IEEE International Coference on Local Computer Networks (LCN’04).
[4]?ERIK J.J,Aaron R K. IXP2400/2800 Programming.INTEL PRESS.