摘 要: 以科技廳數據共享規范與接口為標準,把元數據技術充分應用在數據共享平臺中,構成一個安全、可靠、高效、穩定的信息交換渠道,為跨部門的信息共享和信息交換提供服務,促進信息資源的開發利用。
關鍵詞: 分布式數據;元數據;數據共享;信息暢通;信息交換
隨著信息技術的不斷發展以及人們對信息共享的迫切需求,元數據技術被應用于更多的領域。為了適應網絡環境下信息資源共建共享的需求,元數據的研究成為一個熱點。國外關于元數據研究已經很成熟,國內的研究正處于起步發展的過渡時期[1]。如何低代價、方便地將企業內部或企業間異構數據進行交換,實現大范圍的跨企業實體的商務應用系統的對接,是當前互聯網環境下每個企業發展所面臨的一個大問題。由于系統的開發語言、運行平臺和通信協議不同,對外數據交換的數據格式也存在很大的差異,因此如何解決語言差異、平臺差異、協議差異和數據差異所造成的高代價的系統集成和信息資源共享成為問題的關鍵。目前大多數數據交換系統仍使用傳統方式,顯而易見這種設計缺乏通用性和擴展性。在數據共享上無疑是繁雜低效的,而且不可避免地會產生許多漏洞,不利于數據的安全。建立一個通用的、可擴展性的數據交換系統,對這些異構系統進行有效的信息集成已是當務之急。
1 元數據技術
1.1 元數據定義
元數據是關于數據的組織、數據域以及關系的信息,也就是“關于數據的數據”[2]。
1.2 元數據標準
元數據標準是經過標準化組織認可的元數據方案。在不同的科學數據共享領域中,都會有各自的元數據標準。為了便于實現數據的定位、共享、減少重復以及促進其合理使用,1994年,美國聯邦地球空間數據委員會便開始了元數據的研究,并制定了一種以元數據為核心的標準。
英國Dublin元數據核心元素標準適用于各種網絡資源。它定義了65個元數據,包括15個DC核心元數據、26個限定元數據、21個編碼體系元數據和3個其他元數據。該標準按照信息的類型和范圍將15個核心元素分為3個子集:數據資源內容、數據知識產權和數據實體。Dublin元數據的每一個核心元素都是可選的和可以重復使用的[3]。
1.3 分布式元數據的組織管理
科技管理元數據[4]可分為3個層次:元數據元素、元數據實體和元數據子集。元數據元素是元數據最基本的信息單元;元數據實體是同類元數據元素的集合;元數據子集是相互關聯的元數據實體和元素的集合。在同一個元數據子集中,實體可以有2類,即簡單實體和復合實體。簡單實體只包含元素,復合實體既包含簡單實體又包含元素,同時復合實體與簡單實體及構成這2種實體的元素之間具有繼承關系。科技管理元數據內容如圖1所示。
元數據實體集信息包含必選的和可選的元數據實體和元數據元素信息,是標識信息、內容信息、分發信息、數據質量信息、限制信息、維護信息、引用信息的聚集。標識信息包含唯一標識數據的信息,包括有關資源的引用,數據集摘要、目的、可信度、狀態和聯系辦法以及數據集維護信息等實體信息;內容信息提供數據內容特征的描述信息,是必選的,其“資源域”屬性用于表明數據集所在的資源范圍;分發信息包含有關資源分發者的信息以及用戶獲取資源的途徑;數據質量信息包含數據集質量的評價信息;限制信息包含訪問和使用資源的限制信息;維護信息包含有關資源的更新頻率及更新范圍的信息,如引用、負責方、地址、聯系信息、日期等。
2 科技管理數據共享平臺設計與實現
2.1 技術體系分析
數據共享平臺采用的核心技術是Web Services技術、XML技術,J2EE技術及中間件技術。采用J2EE體系架構,充分運用Web Services的應用技術和XML的數據交換技術,設計開發功能強大、可擴展性好的數據共享和交換平臺,以及基于Browser/AppServer/DBServer三層架構的數據交換體系,三層的技術架構圖如圖2。
(1)表示層主要負責:提供發布和搜索信息的門戶網頁界面;提供一個Controller,委派調用業務邏輯和其他上層處理;處理異常,拋給Struts Action *為顯示提供一個模型;UI驗證。
(2)持久層主要負責:用于執行數據的CREATE、RETRIVE、UPDATE、DELETE等操作;用于管理數據庫連接池,增強數據庫性能;為將來數據庫遷移做準備(一般持久層支持大多數數據庫,并且遷移時改動特別小)。
(3)應用層主要負責:處理發布和搜索服務的請求,即利用Web Service和中間件技術處理這些請求;提供與表示層及持久層交互的接口;管理業務層級別的對象依賴;在顯示層和持久層之間增加了一個靈活機制,使得它們不直接聯系在一起;管理程序的執行。
2.2 數據共享平臺中的元數據
元數據分布于數據共享平臺所連接的各共享節點上,元數據管理系統對不同層次、地域分布的眾多節點的元數據進行統一組織、管理,集成在統一的平臺框架內,為用戶提供全局數據導航和獲取接口,實現特征級數據元轉換[5]。元數據管理系統部署在平臺的各節點上,是一個分布式的信息管理軟件,由元數據網關、元數據服務器和元數據庫組成,如圖3所示。
元數據網關是支持元數據服務的中心樞紐,具有服務器代理、注冊管理、網絡客戶管理等功能。元數據服務器用于發布元數據,各元數據服務器一方面通過申請注冊,把本節點元數據信息納入到平臺中,另一方面又接收Web服務器對本節點的元數據和數據搜索指令,這樣,用戶通過平臺就可以透明訪問任一節點上的元數據和數據信息。元數據庫是元數據信息管理系統的核心內容,各種元數據信息按照統一的元數據標準進行處理,利用元數據編輯器或其他自動方式上載到元數據庫中。
2.3 元數據共享平臺的總體框架
在統一的元數據交換平臺上構建的一站式數據交換和共享服務整體框架,本平臺可以將現有的政府部門的信息系統聯系起來,以統一的門戶協同為各級政府及政府各部門提供服務,實現數據交換和共享服務的集中式協調調度和分布式管理運作,采用常用的多層分布式J2EE軟件架構,應用Web Services和中間件技術來搭建這個平臺,平臺采用B/S模式。數據共享平臺的軟件架構設計如圖4所示。
在數據共享平臺中,各個應用主體都是獨立的,包含諸多功能的系統,主體內部功能之間、主體之間都存在復雜的相互聯系,因此在總體設計中采用數據交換中心DEC(Data Exchange Center)和應用主體節點的前置機處理系統FPS(Front-end Processing System)的結構來簡化這些關系,并在應用主體上為應用主體提供相應的服務,提供一致的訪問行為和接口。
2.4 技術方案描述
2.4.1 J2EE架構
本系統采用J2EE架構實現應用體系結構,系統設計采用基于J2EE的技術,完全采用MVC+DAO(Model+View+Control+DAO)應用設計模式,使得層之間相對松散耦合,具有良好的擴展性和穩定性,應用設計結構如圖5所示。
2.4.2 IBATIS架構
IBATIS是以SQL為中心的持久化層框架,能支持懶加載、關聯查詢、繼承等特性。IBATIS不同于一般的OR映射框架。OR映射框架是將數據庫表、字段等映射到類、屬性,這是一種元數據(meta-data)映射;IBATIS則是將SQL查詢的參數和結果集映射到類。具體來說,IBATIS做的是SQL Mapping的工作,它把SQL語句看成輸入以及輸出,結果集就是輸出,而where后面的條件參數則是輸入;IBATIS能將輸入的普通POJO對象、Map、XML等映射到SQL的條件參數上,同時也可以將查詢結果映射到普通POJO對象(集合)、Map、XML中。
2.4.3 XML與Web Service
可擴展標記語言XML是Web上表示結構化信息的一種標準文本格式,它沒有復雜的語法和包羅萬象的數據定義。XML同HTML一樣,都來自SGML(標準通用標記語言)。SGML是一種在Web發明之前就早已存在的用標記來描述文檔資料的通用語言。但SGML十分龐大且難于學習和使用,鑒于此,人們提出了HTML語言。但近年來,隨著Web應用的不斷深入,HTML在需求廣泛的應用中已顯得捉襟見肘,有人建議直接使用SGML作為Web語言。但SGML太龐大了,學用兩難尚且不說,就是全面實現SGML的瀏覽器也非常困難。于是Web標準化組織W3C建議使用一種精簡的SGML版本——XML。XML與SGML一樣,是一個用來定義其他語言的元語言。與SGML相比,XML規范不到SGML規范的十分之一,簡單易懂,是一門既無標簽集也無語法的新一代標記語言。
由于各類應用主體節點在應用范圍、構建方式、系統結構、數據資源等方面存在一定的差異,對整個電子政務平臺的平穩、高效、安全的運行存在較大的影響;電子政務平臺的數據共享要求異國在異構平臺、異構環境、異構網絡中實現數據交換,這些必然要求共享的數據、文檔格式和公文的標準化、統一化,實現有效的數據共享環境多數據源選擇[6]。因此需要借助一個能夠描述數據交換和業務處理流程的規范標準,以減少數據在處理過程中因標準不統一而引起的諸多問題。
數據交換平臺中采用的核心技術是XML技術和Web Service技術。這兩方面的技術已經較為成熟,并在各種場合被廣泛應用。
目前XML技術通常應用于企業和政府間系統連接、企業和政府內系統連接和文檔管理等方面,并有著一系列的標準來支持這些應用的開發,如用于電子商務的ebXML及行業數據交換標準aceXML、MML、DSML等,用于文檔表示的XHTML、SMIL、MathML等。這些標準的制定,極大地支持了XML應用的普及,使其成為目前大多數軟件產品和項目開發必不可少的技術支撐。
關于Web Service技術,目前同樣已經有一整套標準協議供產品開發使用,包括簡單對象訪問協議(SOAP)、Web服務描述語言(WSDL)、Web服務發現協議(UDDI)等。SOAP協議提供了在無中心分布環境中使用XML交換結構化有類型數據的簡單輕量的機制。WSDL協議定義了服務描述文檔的結構,如類型、消息、端口類型、端口和服務本身。DISCO協議定義了如何從資源或者資源集合中提取服務描述文檔、相關服務發現算法等。相對于XML而言,Web Service的應用正在推廣普及階段,部分新項目開始使用Web Service技術來實現系統間互操作。
基于以上分析,在數據交換平臺的開發中應用元數據技術,結合全新的XML技術和SOA技術,并制定電子文檔的XML交換的數據共享規范和標準,對數據源采用統一接口轉化成XML格式以便與不同的信息系統實現便捷的數據交換。
2.4.4 元數據消息服務機制
消息服務的主要功能是保證數據交換的安全可靠,在數據交換的過程中,數據交換的參與方以及數據交換平臺需要通過消息的傳遞實現對數據交換的過程控制,包括通過消息機制實現數據更新的通知、數據交換的請求、數據接收的確認及數據傳輸錯誤的糾錯等。因此數據交換平臺要制定并實現統一規范的數據交換消息協議,應用系統必須通過標準的消息協議和數據交換平臺以及其他應用系統進行通信,以控制數據交換的整個過程。
2.4.5 元數據傳輸服務機制
數據傳輸服務的主要功能是實現高速的數據傳輸通路,保證交換數據的時效性、可靠性和一致性,并支持多種數據傳輸的模式。數據交換平臺通過統一規范的數據傳輸協議,在應用主體和數據交換中心之間傳輸規范化的交換數據。數據傳輸服務將根據傳輸數據量的大小采用不同的傳輸模式,從而實現數據流的高效傳輸。
2.4.6 元數據交換引擎
數據交換引擎由XML-RDBMS中間件、數據模式管理、數據訪問服務、數據交換服務組成。
XML-RDBMS中間件是協同平臺最重要的核心部件,它實現了由XML數據到關系數據庫的雙向映射,即數據從關系數據庫中生成并轉換為XML,或將XML數據轉換到關系數據庫中。
數據模式管理服務是各應用主體和數據交換中心進行數據交換操作時表明要請求和操作的數據的格式和含義,由數據模式的XML Schema定義。數據交換中心收集各應用主體發布的Schema,并按照提供者和類型進行存儲。通過映射工具將各子系統的關系型Schema合成為一個全局的關系模式,并通過XML Schema- RDBMS的映射在數據交換中心數據庫自動生成相應的表結構,以后傳遞過來的數據也能夠自動根據該映射存放到中心數據庫的表中。數據交換中心可以根據所請求的Schema自動路由到提供該Schema的子系統中去。元數據交換服務模式主要包括“發布—訂閱”和“請求—應答”2種。
“發布—訂閱”模式是由元數據交換服務的提供方提供交換元數據的相關服務發布到數據交換中心,而由元數據交換服務的需求方訂閱數據交換中心的相應服務,服務提供方會自動將發生改動的源數據發送給訂閱相關服務的服務需求方。該模式是服務提供方主動發起的元數據交換模式。
“請求—應答”模式是元數據交換服務的需求方向數據交換中心請求執行相關獲取交換數據服務,數據交換中心通過與元數據交換服務提供方的交互獲取相關結果,以應答方式反饋給數據交換的需求方。該模式是服務需求方主動發起的數據交換模式。
本系統實現的主要運行環境myeclipse6.0.1、JDK1.7、TOMCAT6.0、數據庫ORACLE10g、SSH構架。
科技管理數據共享平臺實現了政府減少重復建設、減少投資浪費的號召;同一數據在多個部門的多個業務系統中共享,實現了科技數據集約化管理,避免產生多個數據出口、多頭上報、數據冗余等問題;數據及時整合,實現了對全局數據靈活的多維度分析和多樣式展示,滿足了管理層監控和決策的需要。
參考文獻
[1] 王媛媛.國內政府信息資源元數據研究綜述[J].現代情報,2008(3):89-91.
[2] 林瑞峰,陳平華,林錦川.面向科技管理的數據共享平臺關鍵技術研究[J].現代計算機,2009(9):104-106.
[3] 張英俊,謝斌紅,郭勇義.元數據技術在科學數據共享平臺中的應用[J].太原理工大學學報,2009,40(4):341-344.
[4] WANG Juan Le, ZHU Yun Qiang, SONG Jia, et al. Study on resource and environment scientific research data archiving[C]. 2009 International Conference on Environmental Science and Information Application Technology, 2009.
[5] YING Su, LEI Yang. Assuring image quality in spatial data sharing platform for disaster management[C]. 2008 International Workshop on Education Technology and Training & 2008 International Workshop on Geoscience and Remote Sensing, 2008.
[6] 汪曉慶,鄭彥興,史美林.一種有效的數據共享環境多數據源選擇算法[J].軟件學報,2008,19(2):314-322.