根據維基百科的定義,海量資料(Big Data)【稱為巨量資料或大數據】指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊 [1, 2] 。根據 IBM 的說明 [3] ,海量資料有四個特性,亦稱為海量資料 4V ,亦即資料量龐「大」(Volume)、變化飛「快」(Velocity),種類繁「雜」(Variety),以及真偽存「疑」(Veracity)。換言之,海量資料其實就是資料(Data),只是處於現在資訊網路時代,這些資料特性變的又多、又快、又雜,又真偽難分。
海量資料分析的重要性與運用這些海量資料所帶來的效益息息相關。根據 IBM 的介紹 [3] ,效益至少包括能夠更有智慧的管理、能夠更有智慧的工作、能夠提升生活品質,及能夠迎合消費者喜好。換言之,海量資料的運用創造個人與公司的價值,同時改善人類的生活。
舉例來說,若將海量資料分析用於半導體製造業,根據 IBM 的經驗,透過分析晶圓製程過程所收集到的製程資料,可以大幅提昇最終產品的良率 [3] 。
還有,海量資料也大幅應用在智慧城市各面向的分析與優化。根據 IBM 的經驗,若能將海量資料應用於都市之交通資訊管理,並且在現有交通資訊管理中導入智慧型分析功能,則通勤族不僅可以即時掌握各種通勤載具,包括鐵路、捷運與公車等,更能讓通勤者規劃最短路徑,抒解都市交通堵塞,也節省通勤者個人時間,提升工作效率 [3] 。
從上述簡單案例說明可以看出,海量資料以及其分析不僅可以應用到商業運作上的各領域,也可以用在製造業的管理及都市的管理,對於資訊網路時代的企業競爭來說,其重要性不言而喻。
從情報理論(Theory of Intelligence)來看,資料的運用到實際決策(Decision Making)尚有一段距離,其中決策即是實際將資料用於行為前的判斷,如圖一所示。一般而言,資料到決策的運用中間尚包括兩步驟,分別為資訊(Data)與情報(Information)。資料屬於外部,亦是未處理之原始資料;資訊即是結構化處理後的資料,通常為內部文件。
資訊到情報階段一重要特徵為任務賦予,亦即從決策端而來的任務展開,根據任務展開而將結構化資料(資訊)綜整成能夠用以決策判斷的情報。換言之,情報與資訊的最大不同在於目的性,亦即情報是有目的的,而資訊則沒有。
從情報理論來檢視海量資料,即需要進一步思考在海量資料分析過程中(所謂的分析即是分解與剖析),何者是 ” 資訊 ” ,何者是 ” 情報 ” ,並且如何將決策透過 ” 海量資料決策需求 ” 分解成可據以收集及分析的資料與資訊。
根據 IBM 的經驗,要分析海量資料需要有一引擎與分析平台(Big Analytics)。這個分析平台包括幾個要件,分別為核心引擎、加速器、使用者介面、資訊整合與治理與分析應用 [3] 。此外,除了 IBM 外,現在亦有多家商用軟體公司提供相關軟體與服務。從情報理論來看,現有分析平台直接從資料到決策端,尚有許多待進一步克服的課題,特別是如何建立有效的局部結構化資訊,及從不同個案中累積決策需求展開與情報索引架構,有待進一步經驗累積與實證。
資料分析的目的,即是提供精準情報決策,海量資料分析亦然,如何在情報理論架構下,重新建構或提升海量資料分析能力,為後續海量資料之研究重點。 (1200 字;圖 1)
圖一 情報理論架構
Source :科技政策研究與資訊中心—科技產業資訊室整理, 2013/01/03
參考資料:
1.http://zh.wikipedia.org/wiki/ 大數據
2.http://en.wikipedia.org/wiki/Big_data
3.http://www-07.ibm.com/tw/blueview/2012oct/8.html
--------------------------------------------------------------------------------------------------------------------------------------------