上文中我們將工業(yè)大數據分為公共資源數據、工程類數據、管理類數據和物聯數據。其中管理類數據一般也稱業(yè)務數據,即由業(yè)務活動產生的記錄。傳統(tǒng)的數據倉庫理論將業(yè)務數據的管理理論和應用模式發(fā)展到一個很成熟的水平,目前無論制造企業(yè)還是IT公司在談工業(yè)大數據時,更多是按照數據倉庫理念在進行企業(yè)數據的管理和應用。
美林公司認為傳統(tǒng)的數據倉庫理論是建立在結構化業(yè)務數據的基礎上,是工業(yè)大數據的重要組成部分之一。其難點在于從千變萬化的業(yè)務中找到穩(wěn)定的數據結構,又能方便的支撐業(yè)務數據的統(tǒng)計和分析,下面重點闡述業(yè)務數據如何從業(yè)務中來又如何到業(yè)務中去。
數據管理是利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程,其核心是數據組織。為了能夠對數據進行有效組織,演化出了主題域、主題、子主題等概念,這幾個概念是建立起虛擬的數據分類關系,如一顆大樹不斷的分叉直到掛接到某幾個關系相對穩(wěn)定的數據模型。元數據是數據的數據,用來對數據屬性進行定義,比如人的元數據包括姓名、電話、年齡等。數據實體就是數據模型的實體化,比如人的數據實體包括張三、135XXXX5678、30歲等。具體關系如下圖所示:

小結一下,業(yè)務域、業(yè)務主題域、業(yè)務子主題域等的劃分都是虛擬的,元數據是對業(yè)務實體的屬性定義(目前我們將編碼規(guī)則和編碼值當成元數據的重要屬性進行管理),其目的是為了方便數據實體的查詢、檢索和維護,都是數據標準的重要組成部分。數據實體對于具體的物理實體,根據應用和管理需要分為主數據、業(yè)務數據、主題分析數據。
從業(yè)務系統(tǒng)中抽象出穩(wěn)定的數據結構,一直是業(yè)務數據的管理和組織的基礎核心,業(yè)界主要采用IRP和EA兩種建模手段進行數據結構設計。IRP理論從組織機構入手,識別各部門的用戶視圖(單據或報表),通過對業(yè)務單據或報表中數據項的識別和歸納得到相應數據模型;EA理論從主輔價值鏈入手,從而得到最末端流程,并通過關鍵活動產生的數據進行分析得到相應的數據模型。IRP相對于EA屬于自底向上的輕量級的建模方法,主要解決數據建模問題,EA屬于自頂向下的重量級的建模方法,主要解決業(yè)務建模、應用建模和數據建模,數據模型只是企業(yè)模型的一部分。
美林公司目前采用EA+IRP的方式進行企業(yè)數據建模,從企業(yè)主價值鏈入手并導入最佳實踐,根據二、三級流程關鍵活動節(jié)點識別核心數據,從核心系統(tǒng)應用入手識別核心數據關鍵屬性和集成關系,從而快速得到企業(yè)級的數據視圖。

1、業(yè)務數據的查詢?yōu)g覽:業(yè)務數據通過線上采集或線下導入進入數據中心后,供業(yè)務人員進行查詢、瀏覽,并能支持漫游和穿透。
2、業(yè)務數據的共享集成:由于各業(yè)務系統(tǒng)按照各自業(yè)務域進行建設,企業(yè)價值鏈的協同勢必涉及各業(yè)務域之間的數據集成和交互。利用業(yè)務數據集中管理將過去點對點的集成變成總線式集成,提升系統(tǒng)集成的效率和可靠性。

3、業(yè)務數據的統(tǒng)計分析:業(yè)務數據結構化以后最大的價值是統(tǒng)計分析,將業(yè)務記錄通過統(tǒng)計變成業(yè)務規(guī)律用以指導業(yè)務改進。傳統(tǒng)上我們利用Excel工具就開發(fā)了大量的離線數據的統(tǒng)計應用,現在各種BI工具更是提供了在線統(tǒng)計應用能力。
