《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于OCR技術的主數據管理功能研究與實現
基于OCR技術的主數據管理功能研究與實現
2015《電子技術應用》智能電網增刊
馬思碩1,張 冰2,張 瑩3
(1.國網北京市電力公司 信息通信分公司,北京 100071; 2.國家電網公司信息通信分公司,北京 100761; 3. 北京國電通網絡技術有限公司,北京 100761)
摘要: 主數據的應用與數據質量息息相關。國家電網公司為進一步完善業務應用數據的質量和安全管理,推進建設了主數據管理系統。然而目前主數據管理系統的數據創建效率有待提升,供應商主數據的審核依舊采用人工審核方式。本文通過采用漢字OCR技術實現了供應商主數據的自動輔助審核功能,提高了數據質量和維護效率,提升了用戶體驗,獲得了較高的用戶滿意度。
Abstract:
Key words :

  馬思碩1,張  冰2,張  瑩3

  (1.國網北京市電力公司 信息通信分公司,北京 100071;

  2.國家電網公司信息通信分公司,北京 100761; 3. 北京國電通網絡技術有限公司,北京 100761)

  摘  要主數據的應用與數據質量息息相關。國家電網公司為進一步完善業務應用數據的質量和安全管理,推進建設了主數據管理系統。然而目前主數據管理系統的數據創建效率有待提升,供應商主數據的審核依舊采用人工審核方式。本文通過采用漢字OCR技術實現了供應商主數據的自動輔助審核功能,提高了數據質量和維護效率,提升了用戶體驗,獲得了較高的用戶滿意度。

  關鍵詞: 主數據;數據質量;OCR技術

0 引言

  隨著國家電網公司信息化工程的進一步深化和推進,公司對業務數據和信息化數據進一步重視,數據質量和數據安全已成為公司關注的重中之重。當前信息行業越來越重視對大數據的應用,利用目前已有的業務數據對行業和公司的發展進行判斷和預測,未來服務中心和咨詢中心的核心也將是對數據的分析和處理,這對信息數據的規范性和質量提出了更高的要求。通過進一步規范數據和提升數據質量,滿足大數據時代對于數據更加嚴格的要求[1]。

  主數據的應用與數據質量相輔相成、互相推動。主數據管理系統的構建和執行是提升公司數據管理與應用水平、保障可靠數據質量的關鍵措施。為了提升數據的一致性、完整性、相關性和精確性,國家電網公司推進建設了主數據管理系統,實現了對大部分主數據的統一管理[2]。從公司層面把從多個業務系統中抽取的主數據并進行整合,集中進行數據清洗,并以服務的方式把統一、完整、準確的主數據分發給企業的操作型和分析型應用。使公司能夠有效地管理存儲在分布系統中的數據,并對數據進行驗證。

1 主數據管理系統應用現狀

  國家電網主數據管理系統依托數據資源管理平臺,建立了主數據管理的標準規范和管理體系。自上線運行以來,公司通過主數據管理系統先后實現了對物資、財務、項目、人資、營銷等五大類主數據的集中管理和維護[3-4],為業務系統提供實時、完整、準確的主數據信息。

  主數據管理系統的建設目標是創建低成本、高擴展性、標準、優質的可共享主數據。主數據管理系統需在保證高數據質量的前提下,實現數據在不同業務系統之間傳輸和同步的自動化。為保證數據的準確性,國家電網公司主數據管理系統創建了數據審批機制,數據的審核包含自動校驗和人工審批兩方面。主數據創建申請提交后,系統將通過數據查重等簡單規則進行規范性、唯一性校驗。經過系統自動校驗后的主數據申請需按工作流完成在線審批后,方可入庫。

  主數據創建效率和準確性是衡量系統的重要標準之一。為了保證數據的創建效率,對于數據規范性要求比較高的主數據均設置了至少兩級的審批環節,主數據的維護準確性得到了大大提升,但是創建效率上并不十分令人滿意。供應商主數據是主數據管理系統中最重要的數據類型,供應商主數據從提報數據、經過兩級審批通過,到最終統一分發最少需要1天的時間,如遇數據量大或工作繁忙等情況,整體流程甚至會延長至多天。對于入庫緊急程度較高的主數據,目前的審核流程還無法滿足用戶的使用需求。

  本文對該問題進行重點分析和研究,提出一套基于OCR技術的優化方案,利用技術創新對以上問題進行了功能優化,并通過了方案論證、測試部署驗證,有效地提升工作效率,改善了主數據管理系統的功能。

2 利用OCR技術實現供應商主數據自動審核功能

  2.1 供應商主數據審批功能

  主數據管理系統的數據管理模塊是本系統的核心,該模塊包含主數據的查詢、申請、審批等主要功能,以及數據和配置的管理,數據分發和報表管理等功能。

  當用戶對供應商主數據提出申請后,將通過?。ㄊ校┕具\維和總部主數據運維兩級審批,審批通過后將創建或更新主數據。經統計,僅2014年通過主數據管理平臺申請創建和更新的供應商主數據就有82 000條,其中公司類數據占到90%以上,而該類數據需上傳的信息包括組織機構代碼證、稅務登記證、營業執照三類電子掃描圖片,兩級審批人員都需對這三項信息進行人工對比審核,效率低且需大量的人力支持。總部運維情況如表1所示。

001.jpg

  從以上表格可以看出,需要運維人員為3-6人,且長時間的重復工作必然導致效率和準確率的下降。此外,運維組還需承擔其他種類主數據的審批、電話咨詢、工單處理、應用分析以及專項工作等多項工作,工作量繁重,運維效率亟待提升。

  2.2 OCR技術介紹

  光學字符識別(Optical Character Recognition,OCR)技術是通過檢測印刷或手寫文字的暗、亮模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程[5]。

002.jpg

  目前,OCR技術已經在圖書業、印刷業等相關產業廣泛使用,對數字和西文字母印刷字體的識別率達到99.99%以上[6]。我國從上世紀70年代末起開始研究漢字識別技術(Chinese Character Recognition),目前國內已經有多項成熟的漢字識別技術在廣泛使用,對印刷漢字的識別成功率都在99.96%左右[7],如北京信息工程學院研制的BI-OCR和清華大學研制的TH-OCR等。漢字識別OCR技術的原理框圖如圖1所示。

003.jpg

  由圖1可以看出,漢字識別的具體步驟為:先對文字進行前處理,將灰度值變換為黑白二值,之后對漢字文本進行圖像處理、分析、行切分、字切分、規范化(文字尺寸、位置、筆畫粗細等規范),在抽取特征后, 跟存儲在字典中已知的標準漢字特征集匹配判別,就可以識別出輸入的漢字。最后,利用上下文匹配關系或機器學習等方法進行后處理,進一步提高識別的準確率。

  2.3 供應商主數據自動審核功能實現步驟

  本研究的具體思路為,在不改變原有審批流程和準確率的基礎上,進一步提升審批工作的效率。按照這種思路,設計如下的自動審核步驟。

  (1)規范供應商材料格式

  由于使用的掃描儀型號不同,操作人員水平有差異,所以需要對上傳的圖像質量在分辨率、清晰程度以及掃描方法等各方面提出要求,通過對輸入圖像格式的要求,可以極大地提升自動審核的準確率和成功率。

  分辨率:統一分辨率為300 dpi;

  清晰度:彩色掃描,文字清晰,邊框邊線清晰;

  掃描方法:摘除封面,將掃描儀設置成原稿紙掃描模式。

  在用戶上傳供應商數據資料時,系統進行預判,如不滿足格式要求,將要求用戶重新上傳。

 ?。?)OCR技術自動審批

  為了更好地適應當前系統,并保證準確率,自動審批環節保留原有的省(市)公司和總部兩級人工審批。自動審批有可能出現3種情況,見表2。

  由于主數據審批存在正確對照文字,前兩種情況對于審批準確率不會產生影響。為了盡可能的杜絕第三種情況的發生,使用了BI-OCR和TH-OCR兩種OCR技術進行自動識別,進一步降低了審批的錯誤率。由于兩種技術對于印刷漢字的成功率都很高,所以兩種識別技術都驗證正確后即可認為審批通過,如果機器兩次識別結果不同,則將自動審批不通過的文件加標識后轉到人工審批。具體的審批流程如圖2所示。

004.jpg

 ?。?)OCR自動審批界面設計

  在系統界面中,除在供應商主數據申請環節對數據格式進行一定的約束外,在?。ㄊ校┖涂偛恐鲾祿\維兩步審批環節,均設置自動審批按鈕,通過調用OCR的自動識別開發包(SDK)對圖片中的文字進行識別審批,如圖3所示。

005.jpg

  2.4 供應商主數據自動審核功能實現測試

  通過對供應商主數據自動審核功能的多次設計實驗,使用單一的自動審核已經可以達到較高的識別率。對隨機選取的110份原稿掃描文件進行了測試,其中工商登記證、稅務登記證各30份,組織機構代碼證40份,身份證10份,字符識別率達到94%,字段識別率為90%。而通過使用主數據自動輔助審批流程,使用人工和自動雙審批機制,準確率達到100%。

3 效益分析

  通過以上的功能優化,使得工作效率得到極大的提升,通過應用采用OCR技術,使得大量的日常審批工作可以由機器自動完成,節省了人工成本。通過該項功能優化,在提升效率的同時也提高的用戶滿意度。下面對功能優化帶來的效率提升和準確率提升分別進行量化分析。

  3.1 效率提升

  由于熟練運維人員的工作效率一定,本研究使用工作量進行效率分析。

  在供應商主數據審批功能優化中,利用兩種技術對一副圖片的識別審批速度都在1 s左右,對應于一個供應商的公司類數據有三份必須資料,利用兩項技術獨立串行審批需6 s左右,并行審批只需3 s左右。對于這三份必須資料,兩次自動審批都通過的比率大概占到60%左右,而轉人工審批的資料文件中,存在關鍵字段字體重疊、印刷位置錯誤等現象而無法自動審批的文件占50%左右。即機器總的審批數能占到80%左右。機器輔助審批工作量統計見表3,效率提升統計見表4。

007.jpg

006.jpg

  通過表4可以看出,審批效率提升了5倍左右,而且審批條數越多,效率越高,對于一般的審批工作量,一個運維人員已經可以完全勝任。

  3.2 準確率提升

  眾所周知,人的注意力處于一個變化的狀態,而且受身體狀況、心情、睡眠狀況等多種因素影響[8],而機器的注意力可以認為是不會下降,甚至隨著機器學習的進展,識別準確率會有進一步的提升。

  由于經過了兩級審批,人工的識別準確率在99%左右。而機器輔助審批經過兩種算法的判斷識別,識別準確率保持在99.99%以上。

4 結束語

  主數據管理作為數據治理中最為核心的一環,是企業獲得一個完整、可信的數據視圖的必經途徑。本文通過對國家電網公司主數據管理系統相關功能進行研究,采用先進的OCR技術實現了數據的自動輔助審批。在實際應用中,大幅度提升了運維效率和運維質量,經測算,運維效率提升了3倍左右,使得運維資源能夠更多的向咨詢和應用分析等工作傾斜,在提升運維質量的同時,提升了用戶的服務滿意度。

  下一步的建設和運維工作將著眼于建立行之有效的主數據運維體系,挖掘主數據運維的潛力,有效提升主數據運維的質量,從而充分體現數據這項無形資產在企業中的核心價值。

參考文獻

  [1]張當中.漢字識別技術綜述[J]. 語言文字應用,1997(2): 77-86.

  [2]馬玲. 基于主數據管理的電網調度數據整合[D].昆明:云南大學.2014.

  [3]岳曉峰,焦圣喜,韓立強,等.模式識別中的光字符識別技術及應用綜述[J].河北工業科技,2006, 23(5):312-316.

  [4]呂冬.山東電力ERP與SG-MDM實現項目主數據縱向貫通[J]. 電力信息化.2011,9(3):28-31.

  [5]張仰森,俞士汶.文本自動校對技術研究綜述[J].計算機應用研究,2006,06: 8-12.

  [6]李成城,白濤, 趙述芳等. 基于OCR的縱向文字校對的研究與實現[J].計算機應用研究,2006,(4):234-236.

  [7]賈紅龍.面向服務體系架構(SOA)的主數據管理(MDM)和流程監控(PM)研究[J].信息技術與信息化,2010(2):78-82.

  [8]顏魯林.利用SPSS對大學生學習注意力集中程度進行多元線性回歸分析[D].蘭州:蘭州大學.2012.


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 成人亚洲欧美 | 99久久99这里只有免费的精品 | 婷婷在线视频 | 亚洲狠狠婷婷综合久久久图片 | 国产精品999 | 欧美自拍偷拍 | 久久riav国产精品 | 免费国产午夜高清在线视频 | 欧美精品第1页www劲爆 | 99伊人| 久久精品国产久精国产 | 久青草视频在线 | 99久久精品国产免看国产一区 | 日本不卡视频网站 | 久久国产网 | 99久久免费国产精品m9 | 欧美日本视频一区 | 欧美日韩国产在线人 | 不卡一区二区在线 | 欧美在线观看一区 | 国产欧美久久精品 | 国产精品推荐天天看天天爽 | 国产精品蜜臀 | 日韩免费看片 | 国产亚洲高清视频 | 久久婷婷人人澡人人爱91 | 四虎国产成人亚洲精品 | 猛男诞生记最新免费完整版韩剧 | 成人激情四射网 | 欧美中文字幕在线观看 | 亚洲 欧美 中文 日韩专区 | 国产精品亚洲玖玖玖在线靠爱 | 看电影的网站入口 | 国产麻豆精品免费视频 | www视频完整版 | 欧美精品超清在线播放 | 一级毛片免费视频网站 | 99香蕉精品视频在线观看 | 99福利 | 黄视频在线观看网站 | 精品美女在线 |