時(shí)間:2023-03-22 17:36:51
緒論:在尋找寫(xiě)作靈感嗎?愛(ài)發(fā)表網(wǎng)為您精選了8篇大數(shù)據(jù)技術(shù),愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 營(yíng)銷
中圖分類號(hào):F49 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)030-0209-01
近幾年,大數(shù)據(jù)(big data)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。2012 年3 月,奧巴馬公布了美國(guó)《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,標(biāo)志著大數(shù)據(jù)已經(jīng)成為國(guó)家戰(zhàn)略,上升為國(guó)家意志。從硅谷到北京,大數(shù)據(jù)的話題傳播迅速。
1 大數(shù)據(jù)時(shí)代
隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,經(jīng)過(guò)半個(gè)多世紀(jì)的發(fā)展,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。
1.1 大數(shù)據(jù)時(shí)代產(chǎn)生的背景
最早提出“大數(shù)據(jù)”時(shí)代到來(lái)的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”大規(guī)模生產(chǎn)、分享和應(yīng)用海量數(shù)據(jù)的時(shí)代之所以能夠開(kāi)啟,源于信息科技的進(jìn)步、互聯(lián)網(wǎng)與云計(jì)算技術(shù)和物聯(lián)網(wǎng)的發(fā)展。
(1)信息科技的進(jìn)步。信息處理、信息存儲(chǔ)和信息傳遞是信息科技的三個(gè)主要支撐,存儲(chǔ)設(shè)備性價(jià)比不斷提升、網(wǎng)絡(luò)帶寬的持續(xù)增加,為大數(shù)據(jù)的存儲(chǔ)和傳播提供了物質(zhì)基礎(chǔ)。
(2)互聯(lián)網(wǎng)與云計(jì)算技術(shù)。互聯(lián)網(wǎng)時(shí)代,電子商務(wù)、社交網(wǎng)絡(luò)和移動(dòng)通信產(chǎn)生了大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲(chǔ)下來(lái),并隨時(shí)進(jìn)行分析與計(jì)算。互聯(lián)網(wǎng)領(lǐng)域的公司最早重視數(shù)據(jù)資產(chǎn)的價(jià)值,他們從大數(shù)據(jù)中淘金,并且引領(lǐng)著大數(shù)據(jù)的發(fā)展趨勢(shì)。
(3)物聯(lián)網(wǎng)的發(fā)展。眾所周知,物聯(lián)網(wǎng)時(shí)代所創(chuàng)造的數(shù)據(jù)不是互聯(lián)網(wǎng)時(shí)代所能比擬的,而且物聯(lián)網(wǎng)的數(shù)據(jù)是異構(gòu)的、多樣性的、非結(jié)構(gòu)和有噪聲的,最顯著的特點(diǎn)是是它的高增長(zhǎng)率。大數(shù)據(jù)是物聯(lián)網(wǎng)中的關(guān)鍵技術(shù),物聯(lián)網(wǎng)對(duì)大數(shù)據(jù)技術(shù)的要求更高,它的發(fā)展離不開(kāi)大數(shù)據(jù)。
1.2 大數(shù)據(jù)與數(shù)據(jù)挖掘
Google、Amazon、Facebook、Twitter,這些稱霸全球互聯(lián)網(wǎng)的企業(yè),它們的成功都具備一個(gè)共同的因素,就是收集分析海量的各種類型的數(shù)據(jù),并能夠快速獲取影響未來(lái)的信息的能力。“購(gòu)買了此商品的顧客還購(gòu)買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統(tǒng)了,而創(chuàng)造出這個(gè)系統(tǒng)的正是Amazon。Amazon 通過(guò)分析商品的購(gòu)買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數(shù)據(jù),并與行為模式相似的其他用戶的歷史數(shù)據(jù)進(jìn)行對(duì)照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認(rèn)識(shí)這些人”的提示,這種提示可以準(zhǔn)確到令人恐怖的程度,而這正是對(duì)龐大的數(shù)據(jù)進(jìn)行分析而得到的結(jié)果。這種以數(shù)據(jù)分析為核心的技術(shù)就是數(shù)據(jù)挖掘(data mining)。
從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、復(fù)雜的、不規(guī)則的、隨機(jī)的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒(méi)有發(fā)覺(jué)的、有潛在價(jià)值的信息和知識(shí)的過(guò)程。從商業(yè)角度來(lái)說(shuō),數(shù)據(jù)挖掘是從龐大的數(shù)據(jù)庫(kù)中抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價(jià)值,從中獲取輔助商業(yè)決策的關(guān)鍵信息和有用知識(shí)。大數(shù)據(jù)概念的提出,將為數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用帶來(lái)一個(gè)很大的機(jī)遇。
2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中提取隱藏的預(yù)測(cè)性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據(jù)。
2.1 數(shù)據(jù)挖掘原理
數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Diseoveryin Databases,KDD),是一個(gè)從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)并抽取隱含的、明顯未知的、具有潛在用處的信息的過(guò)程。數(shù)據(jù)挖掘一般流程主要包括三個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評(píng)價(jià)。在數(shù)據(jù)挖掘的處理過(guò)程中,數(shù)據(jù)挖掘分析方法是最為關(guān)鍵的。
(1)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備是從海量數(shù)據(jù)源得到數(shù)據(jù)挖掘所用的數(shù)據(jù),將數(shù)據(jù)集成到一起的過(guò)程。由于數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的污染,即數(shù)據(jù)可能存在不一致,或有缺失數(shù)據(jù)、臟數(shù)據(jù)的存在,因此需通過(guò)數(shù)據(jù)整理,對(duì)數(shù)據(jù)進(jìn)行清洗及預(yù)處理。
(2)數(shù)據(jù)挖掘。是數(shù)據(jù)挖掘中最關(guān)鍵的一步,使用智能的方法提取數(shù)據(jù)模式,例如決策樹(shù)、分類和聚類、關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)等。首先決定要提取什么樣的模型,然后選取相應(yīng)的算法參數(shù),分析數(shù)據(jù)從而得到可能形成知識(shí)的模式模型。
(3)結(jié)果解釋和評(píng)價(jià)。數(shù)據(jù)挖掘后的結(jié)果需要轉(zhuǎn)換成用戶能夠理解的規(guī)則或模式,并根據(jù)其是否對(duì)決策問(wèn)題具有實(shí)際意義進(jìn)行評(píng)價(jià)。
2.2 數(shù)據(jù)挖掘技術(shù)在營(yíng)銷中的應(yīng)用
無(wú)差別的大眾媒體營(yíng)銷已經(jīng)無(wú)法滿足零和的市場(chǎng)環(huán)境下的競(jìng)爭(zhēng)要求。精準(zhǔn)營(yíng)銷是企業(yè)現(xiàn)在及未來(lái)的發(fā)展方向,在精準(zhǔn)營(yíng)銷領(lǐng)域,最常用的數(shù)據(jù)挖掘分析方法包括分類、聚類和關(guān)聯(lián)三類。
(1)關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,例如空間關(guān)聯(lián)挖掘出啤酒與尿布效應(yīng);時(shí)間關(guān)聯(lián)挖掘出孕嬰用品與家居裝修關(guān)系;時(shí)間關(guān)聯(lián)挖掘出調(diào)味品、紙巾與化妝品的消費(fèi)等。
此外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)也可用于序列模式發(fā)現(xiàn)。序列模式發(fā)現(xiàn)的側(cè)重點(diǎn)在于分析數(shù)據(jù)項(xiàng)集在時(shí)間上或序列上的前后(因果)規(guī)律,可以看作是一種特定的關(guān)聯(lián)規(guī)則。例如顧客在購(gòu)買了打印機(jī)后在一段時(shí)間內(nèi)是否會(huì)購(gòu)買墨盒。
(2)分類分析。分類是假定數(shù)據(jù)庫(kù)中的每個(gè)對(duì)象屬于一個(gè)預(yù)先給定的類,從而將數(shù)據(jù)庫(kù)中的數(shù)據(jù)分配到給定的類中。它屬于預(yù)測(cè)性模型,例如在銀行業(yè),事先定義用戶的信用狀況分為兩類:信用好和信用壞,對(duì)于一個(gè)信用狀態(tài)未知的用戶,如果需要確定其信用度,可以采用“決策樹(shù)”法構(gòu)建一個(gè)分類模型,決策樹(shù)方法著眼于從一組無(wú)次序、無(wú)規(guī)則的客戶數(shù)據(jù)庫(kù)中推理出決策樹(shù)表現(xiàn)形式的分類規(guī)則。決策樹(shù)的非葉子節(jié)點(diǎn)均是客戶的一些基本特征,葉子節(jié)點(diǎn)是客戶分類標(biāo)識(shí),由根節(jié)點(diǎn)至上而下,到每個(gè)葉子節(jié)點(diǎn),就生成了一條規(guī)則,由該決策樹(shù)可以得到很多規(guī)則,構(gòu)成了一個(gè)規(guī)則集合,從而進(jìn)行數(shù)據(jù)分析。
(3)聚類分析。聚類是將物理或抽象對(duì)象的集合進(jìn)行分組,然后組成為由類似或相似的對(duì)象組成的多個(gè)分類的分析過(guò)程,其目的就是通過(guò)相似的方法來(lái)收集數(shù)據(jù)分類。為品牌找客戶,回答品牌“誰(shuí)來(lái)賣”是精準(zhǔn)營(yíng)銷首先要解決的問(wèn)題,科學(xué)細(xì)分客戶是解決這一問(wèn)題的有效手段。聚類可以將目標(biāo)客戶分成多個(gè)類,同一個(gè)類中的客戶有很大的相似性,表現(xiàn)在購(gòu)買行為的高度一致,不同類間的客戶有很大的相異性,表現(xiàn)在購(gòu)買行為的截然不同。
3 結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代背景下“數(shù)據(jù)成為資產(chǎn)”,數(shù)據(jù)挖掘技術(shù)作為支撐精準(zhǔn)營(yíng)銷的重要手段,將它應(yīng)用于營(yíng)銷行業(yè)的決策中,不僅拓展了數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍,而且大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)獲得突破性回報(bào)。
參考文獻(xiàn)
[1]維克托?邁爾―舍恩伯格;肯尼思?庫(kù)克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.
[2]王偉玲.大數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略價(jià)值研究與思考.技術(shù)經(jīng)濟(jì)與管理研究[J],2015(1).
[3]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué)[J].中國(guó)軟科學(xué),2013(7):177-183.
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫(kù)集群技術(shù);分布集群
一、分布集群數(shù)據(jù)庫(kù)在大數(shù)據(jù)中的應(yīng)用
目前,許多數(shù)據(jù)增長(zhǎng)率很高的大型數(shù)據(jù)庫(kù)系統(tǒng)正被用于改善全球人類活動(dòng),如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫(kù)已成為提高數(shù)據(jù)訪問(wèn)速度的解決方案之一。為多種類型的用戶在多個(gè)存儲(chǔ)中組織數(shù)據(jù)訪問(wèn),分布集群數(shù)據(jù)庫(kù)的問(wèn)題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲(chǔ)中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時(shí)間的最佳方法之一。基于規(guī)則的聚類是提供數(shù)據(jù)庫(kù)自動(dòng)聚類和數(shù)據(jù)存儲(chǔ)模式解釋的解決方案之一,基于規(guī)則的集群通過(guò)分析屬性和記錄上的數(shù)據(jù)庫(kù)結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個(gè)集群,每個(gè)規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫(kù)是一種有向圖結(jié)構(gòu)的進(jìn)化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點(diǎn)的可重用性,而節(jié)點(diǎn)本身就是圖形結(jié)構(gòu)的功能。為了實(shí)現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫(kù)可以通過(guò)分析記錄來(lái)處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫(kù)的圖形結(jié)構(gòu)由三種節(jié)點(diǎn)組成:起始節(jié)點(diǎn)、判斷節(jié)點(diǎn)和處理節(jié)點(diǎn)。開(kāi)始節(jié)點(diǎn)表示節(jié)點(diǎn)轉(zhuǎn)換的開(kāi)始位置;判斷節(jié)點(diǎn)表示要在數(shù)據(jù)庫(kù)中檢查的屬性。分布集群數(shù)據(jù)庫(kù)規(guī)則提取的節(jié)點(diǎn)準(zhǔn)備包括兩個(gè)階段:節(jié)點(diǎn)定義和節(jié)點(diǎn)排列。節(jié)點(diǎn)定義的目的是準(zhǔn)備創(chuàng)建規(guī)則,節(jié)點(diǎn)排列是選擇重要的節(jié)點(diǎn),以便高效地提取大量規(guī)則。節(jié)點(diǎn)排列由以下兩個(gè)順序過(guò)程執(zhí)行,第一個(gè)過(guò)程是查找模板規(guī)則,第二個(gè)過(guò)程是結(jié)合第一個(gè)過(guò)程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過(guò)程中,分布集群數(shù)據(jù)庫(kù)規(guī)則提取中只使用了少數(shù)幾個(gè)屬性,它旨在增加獲得高支持模板的可能性。與沒(méi)有模板規(guī)則的方法相比,該節(jié)點(diǎn)排列方法具有更好的聚類結(jié)果,這兩個(gè)過(guò)程中的規(guī)則生成都是通過(guò)圖結(jié)構(gòu)的演化來(lái)實(shí)現(xiàn)。
二、在線規(guī)則更新系統(tǒng)的應(yīng)用
在線規(guī)則更新系統(tǒng)用于通過(guò)分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應(yīng)用中,每個(gè)節(jié)點(diǎn)都有自己的節(jié)點(diǎn)號(hào),描述每個(gè)節(jié)點(diǎn)號(hào)的節(jié)點(diǎn)信息。程序大小取決于節(jié)點(diǎn)的數(shù)量,這會(huì)影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點(diǎn)表示根據(jù)連接順序執(zhí)行的判斷節(jié)點(diǎn)序列的起始點(diǎn),開(kāi)始節(jié)點(diǎn)的多個(gè)位置將允許一個(gè)人提取各種規(guī)則。判斷節(jié)點(diǎn)表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié),從每個(gè)起始節(jié)點(diǎn)開(kāi)始的節(jié)點(diǎn)序列用虛線a、b和c表示,節(jié)點(diǎn)序列流動(dòng),直到支持判斷節(jié)點(diǎn)的下一個(gè)組合不滿足閾值。在節(jié)點(diǎn)序列中,如果具有已出現(xiàn)在上一個(gè)節(jié)點(diǎn)序列,將跳過(guò)這些節(jié)點(diǎn)。在更新每個(gè)集群中的規(guī)則時(shí),重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過(guò)程確定。當(dāng)計(jì)算集群中每個(gè)屬性和數(shù)據(jù)之間的輪廓值時(shí),閾值設(shè)置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過(guò)程中的判斷節(jié)點(diǎn)的屬性選擇。一些數(shù)據(jù)的庫(kù)存值和權(quán)重值低于0.85,因此這些值不包括在國(guó)民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個(gè)集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點(diǎn),進(jìn)而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中,完成主要的規(guī)則提取過(guò)程,這是一個(gè)標(biāo)準(zhǔn)的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過(guò)程,對(duì)初始數(shù)據(jù)集進(jìn)行初始集群;改善規(guī)則更新過(guò)程,僅對(duì)輪廓值低于閾值的數(shù)據(jù)執(zhí)行。
三、大規(guī)模并行處理技術(shù)的應(yīng)用
大規(guī)模并行處理技術(shù)主要用于編寫(xiě)和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書(shū)面代碼都是從C/C++語(yǔ)言翻譯成一個(gè)低級(jí)的核心匯編程序。在大數(shù)據(jù)應(yīng)用中,會(huì)產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計(jì)算中,應(yīng)該結(jié)合編程技術(shù),標(biāo)準(zhǔn)語(yǔ)言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個(gè)良好的優(yōu)化代碼,有必要直接在低級(jí)匯編語(yǔ)言上編寫(xiě)代碼。為了簡(jiǎn)化編寫(xiě)程序的任務(wù),可以在某個(gè)處理器上使用面向代碼生成器。使用一個(gè)專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語(yǔ)言可以獲得比在C/C++中翻譯的應(yīng)用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級(jí)匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語(yǔ)言(如C/C++)一起工作。大數(shù)據(jù)應(yīng)用環(huán)節(jié),在數(shù)據(jù)分類和計(jì)算中,當(dāng)兩個(gè)計(jì)算操作在不同的操作單元上執(zhí)行時(shí),才能在一個(gè)dsp核心的vliw命令中并行執(zhí)行兩個(gè)計(jì)算操作。根據(jù)運(yùn)算執(zhí)行單元的不同,計(jì)算運(yùn)算可分為op1和op2兩種類型。屬于不同組使得在一個(gè)命令中執(zhí)行兩個(gè)操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標(biāo)記“1”表示第一種類型的標(biāo)識(shí),標(biāo)記“2”分別表示第二種類型。如果兩個(gè)操作具有不同的類型并且沒(méi)有數(shù)據(jù)依賴關(guān)系,則可以進(jìn)行并行化,DSP核心的并行性是通過(guò)在一個(gè)核心中存在多個(gè)操作單元來(lái)保證的。在大數(shù)據(jù)計(jì)算和分析中,如果有足夠多的通用寄存器來(lái)執(zhí)行這兩個(gè)操作,并且它們可以并行執(zhí)行,代碼就會(huì)并行化,提升數(shù)據(jù)計(jì)算的效率。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 方法
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)04-0222-01
1 大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的重要性
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的快速發(fā)展,以及智能終端、網(wǎng)絡(luò)社會(huì)、數(shù)字地球等信息體的普及和建設(shè),全球數(shù)據(jù)量出現(xiàn)爆炸式增長(zhǎng),僅在2011年就達(dá)到1.8萬(wàn)億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)中心)預(yù)計(jì),到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。一方面,云計(jì)算為這些海量的、多樣化的數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái),同時(shí)數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識(shí)、規(guī)律和趨勢(shì),為決策提供信息參考。
如果運(yùn)用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設(shè)就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬(wàn)計(jì),儲(chǔ)戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。
數(shù)據(jù)挖掘是借助IT手段對(duì)經(jīng)營(yíng)決策產(chǎn)生決定性影響的一種管理手段。從定義上來(lái)看,數(shù)據(jù)挖掘是指一個(gè)完整的過(guò)程,該過(guò)程是從大量、不完全、模糊和隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、可實(shí)用的信息,并運(yùn)用這些信息做出決策。
2 數(shù)據(jù)挖掘的分類
數(shù)據(jù)挖掘技術(shù)從開(kāi)始的單一門類的知識(shí)逐漸發(fā)展成為一門綜合性的多學(xué)科知識(shí),并由此產(chǎn)生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實(shí)際需要,現(xiàn)對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行如下幾種分類:
2.1 按挖掘的數(shù)據(jù)庫(kù)類型分類
利用數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)分類成為可能是因?yàn)閿?shù)據(jù)庫(kù)在對(duì)數(shù)據(jù)儲(chǔ)存時(shí)就可以對(duì)數(shù)據(jù)按照其類型、模型以及應(yīng)用場(chǎng)景的不同來(lái)進(jìn)行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術(shù)時(shí)也會(huì)有滿足自身的方法。對(duì)數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來(lái)分類,另一種是根據(jù)其類型來(lái)分類,前者包括關(guān)系型、對(duì)象-關(guān)系型以及事務(wù)型和數(shù)據(jù)倉(cāng)庫(kù)型等,后者包括時(shí)間型、空間型和Web 型的數(shù)據(jù)挖掘方法。
2.2 按挖掘的知識(shí)類型分類
這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來(lái)實(shí)施的,其中包括多種分析的方式,例如相關(guān)性、預(yù)測(cè)及離群點(diǎn)分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時(shí),在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來(lái)對(duì)其進(jìn)行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來(lái)分類時(shí)可以將數(shù)據(jù)分為三個(gè)層次,即廣義知識(shí)的高抽象層,原始知識(shí)的原始層以及到多層的知識(shí)的多個(gè)抽象層。一個(gè)完善的數(shù)據(jù)挖掘可以實(shí)現(xiàn)對(duì)多個(gè)抽象層數(shù)據(jù)的挖掘,找到其有價(jià)值的知識(shí)。同時(shí),在對(duì)數(shù)據(jù)挖掘進(jìn)行分類時(shí)還可以根據(jù)其表現(xiàn)出來(lái)的模式及規(guī)則性和是否檢測(cè)出噪聲來(lái)分類,一般來(lái)說(shuō),數(shù)據(jù)的規(guī)則性可以通過(guò)多種不同的方法挖掘,例如相關(guān)性和關(guān)聯(lián)分析以及通過(guò)對(duì)其概念描述和聚類分類、預(yù)測(cè)等方法,同時(shí)還可以通過(guò)這些挖掘方法來(lái)檢測(cè)和排除噪聲。
2.3 按所用的技術(shù)類型分類
數(shù)據(jù)挖掘的時(shí)候采用的技術(shù)手段千變?nèi)f化,例如可以采用面向數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)以及神經(jīng)網(wǎng)絡(luò)及其可視化等技術(shù)手段,同時(shí)用戶在對(duì)數(shù)據(jù)進(jìn)行分析時(shí)也會(huì)使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等等。一般情況下,一個(gè)龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術(shù)和方法的綜合性系統(tǒng)。
2.4 按應(yīng)用分類
根據(jù)數(shù)據(jù)挖掘的應(yīng)用的領(lǐng)域來(lái)進(jìn)行分類,包括財(cái)經(jīng)行業(yè)、交通運(yùn)輸業(yè)、網(wǎng)絡(luò)通信業(yè)、生物醫(yī)學(xué)領(lǐng)域如DNA等,在這些行業(yè)或領(lǐng)域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對(duì)于特定的應(yīng)用場(chǎng)景,此時(shí)就可能需要與之相應(yīng)的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術(shù)可以在所有的行業(yè)中都能使用的技術(shù),每種數(shù)據(jù)挖掘技術(shù)都有自身的專用性。
3 數(shù)據(jù)挖掘中常用的方法
目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹(shù)、粗糙集和神經(jīng)網(wǎng)絡(luò)算法。以下對(duì)這四種算法進(jìn)行一一解釋說(shuō)明。
遺傳算法:該算法依據(jù)生物學(xué)領(lǐng)域的自然選擇規(guī)律以及遺傳的機(jī)理發(fā)展而來(lái),是一種隨機(jī)搜索的算法,利用仿生學(xué)的原理來(lái)對(duì)數(shù)據(jù)知識(shí)進(jìn)行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結(jié)合等優(yōu)點(diǎn)從而在數(shù)據(jù)挖掘中得到了應(yīng)用。
決策樹(shù)算法:在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位,這種算法的優(yōu)勢(shì)也比較明顯,在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速,同時(shí)描述起來(lái)也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。
粗糙集算法:這個(gè)算法將知識(shí)的理解視為對(duì)數(shù)據(jù)的劃分,將這種劃分的一個(gè)整體叫做概念,這種算法的基本原理是將不夠精確的知識(shí)與確定的或者準(zhǔn)確的知識(shí)進(jìn)行類別同時(shí)進(jìn)行類別刻畫(huà)。
神經(jīng)網(wǎng)絡(luò)算法:在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位,這種算法的優(yōu)勢(shì)也比較明顯,在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速,同時(shí)描述起來(lái)也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。光纜監(jiān)測(cè)及其故障診斷系統(tǒng)對(duì)于保證通信的順利至關(guān)重要,同時(shí)這種技術(shù)方法也是順應(yīng)當(dāng)今時(shí)代的潮流必須推廣使用的方法。同時(shí),該診斷技術(shù)為通信管網(wǎng)和日常通信提供了可靠的技術(shù)支持和可靠的后期保證。
參考文獻(xiàn)
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(01):146-169.
現(xiàn)狀
“檢察大數(shù)據(jù)”的概念厘定
“大數(shù)據(jù)”的生產(chǎn)與運(yùn)用是一個(gè)“人人為我,我為人人”的互通、共享、多贏過(guò)程。檢察機(jī)關(guān)在整合應(yīng)用其他政府機(jī)構(gòu)、企事業(yè)單位、社會(huì)組織提供的信息數(shù)據(jù)服務(wù)司法辦案的同時(shí),也在辦案中生產(chǎn)“大數(shù)據(jù)”。這些數(shù)據(jù)既可作為檢察機(jī)關(guān)校準(zhǔn)后續(xù)辦案的內(nèi)部參照系,同時(shí)部分?jǐn)?shù)據(jù)亦可對(duì)外輸出服務(wù)社會(huì)。前者如在刑事檢察中整合同類案件形成案例數(shù)據(jù)庫(kù),用以提升公訴量刑精準(zhǔn)度,后者以當(dāng)前檢察機(jī)關(guān)向社會(huì)公眾提供的行賄犯罪檔案查詢服務(wù)最為典型。顯然作為數(shù)據(jù)運(yùn)用者,檢察機(jī)關(guān)“大數(shù)據(jù)”包括檢察工作所涉及的一切有用信息數(shù)據(jù)。其中,相當(dāng)一部分?jǐn)?shù)據(jù)并非檢察機(jī)關(guān)在司法辦案中產(chǎn)出的“原生”數(shù)據(jù)。如職務(wù)犯罪偵查辦案中反貪部門調(diào)用房產(chǎn)、銀行、公安行政機(jī)關(guān)的信息數(shù)據(jù)庫(kù)進(jìn)行初查;相關(guān)業(yè)務(wù)部門在審查、出庭公訴、訴訟監(jiān)督、參與社會(huì)治理等方面運(yùn)用信息化、數(shù)字化新技術(shù)等。
“檢察大數(shù)據(jù)”與上述檢察機(jī)關(guān)運(yùn)用的“大數(shù)據(jù)”有本質(zhì)區(qū)別。“檢察大數(shù)據(jù)”專指檢察機(jī)關(guān)司法辦案大數(shù)據(jù),是檢察機(jī)關(guān)在司法辦案中的“原生”案件信息數(shù)據(jù),其最核心的特征是相關(guān)數(shù)據(jù)是關(guān)于檢察業(yè)務(wù)辦案的信息數(shù)據(jù)。目前,在檢察司法辦案大數(shù)據(jù)的擷取、管理、應(yīng)用方面,最高人民檢察院推進(jìn)的“統(tǒng)一業(yè)務(wù)應(yīng)用系統(tǒng)”是國(guó)家層面“檢察大數(shù)據(jù)”生成的最重要平臺(tái);同時(shí)各地檢察機(jī)關(guān)亦多有創(chuàng)新,如北京市人民檢察院開(kāi)發(fā)應(yīng)用的“檢立方”系統(tǒng)、上海市閔行區(qū)人民檢察院試運(yùn)行的“檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)”、浦東新區(qū)人民檢察院試運(yùn)行的“綜合管理信息平臺(tái)一期”、湖北省人民檢察院研發(fā)的“互聯(lián)網(wǎng)檢務(wù)辦公室”,南京市鼓樓區(qū)人民檢察院研發(fā)的辦公辦案軟件“移動(dòng)檢務(wù)通”等。上述系統(tǒng)平臺(tái)通過(guò)案件管理部門案件受理信息輸入及辦案人員在辦案過(guò)程中的流程信息輸入,生成、存儲(chǔ)、管理與檢察機(jī)關(guān)司法辦案相關(guān)的各項(xiàng)信息數(shù)據(jù),并通過(guò)對(duì)大數(shù)據(jù)不同子系統(tǒng)數(shù)據(jù)的深度分析,進(jìn)而服務(wù)領(lǐng)導(dǎo)決策與司法辦案。
當(dāng)前檢察工作中的大數(shù)據(jù)運(yùn)用
無(wú)論是檢察機(jī)關(guān)的“原生”大數(shù)據(jù),還是第三方生成的關(guān)聯(lián)大數(shù)據(jù),在當(dāng)前的檢察辦案與司法管理工作中都有著極為廣闊的應(yīng)用前景。作為檢察機(jī)關(guān)大數(shù)據(jù)的核心內(nèi)容,“原生”大數(shù)據(jù)即“檢察大數(shù)據(jù)”,在輔助檢察辦案、服務(wù)司法管理中發(fā)揮著極為重要的作用。
在“檢察大數(shù)據(jù)”輔助檢察辦案方面,目前較為典型的如貴州省人民檢察機(jī)關(guān)的“大數(shù)據(jù)司法辦案輔助系統(tǒng)”。司法辦案輔助系統(tǒng)運(yùn)用“實(shí)體識(shí)別”“數(shù)學(xué)建模”等大數(shù)據(jù)技術(shù),通過(guò)繪制“犯罪構(gòu)成知識(shí)”圖譜,建立各罪名案件數(shù)學(xué)模型的司法辦案輔助系統(tǒng),為辦案提供案件信息智能采集、“要素―證據(jù)”智能關(guān)聯(lián)和風(fēng)險(xiǎn)預(yù)警、證據(jù)材料甄別,以及類案推送、量刑建議計(jì)算等智能化服務(wù)。目前,貴州省人民檢察機(jī)關(guān)的大數(shù)據(jù)司法辦案輔助系統(tǒng)已進(jìn)行了三次迭代升級(jí),正在貴州全省4個(gè)市(州)院和31個(gè)基層院試點(diǎn)運(yùn)行。
在“檢察大數(shù)據(jù)”服務(wù)司法管理方面,上海市閔行區(qū)人民檢察院的檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)非常具有代表性。該院通過(guò)對(duì)各職能部門受理、立案(項(xiàng))、辦理的案件以及不依附于自偵、批捕、等主要辦案業(yè)務(wù)的,有完整流程、審查結(jié)論及相關(guān)法律文書(shū)的訴訟監(jiān)督、社會(huì)治理、維護(hù)穩(wěn)定、預(yù)防犯罪等檢察業(yè)務(wù)進(jìn)行梳理,對(duì)檢察建議、糾正違法等共性的檢察業(yè)務(wù)指標(biāo)進(jìn)行歸并,形成了較為規(guī)范的檢察機(jī)關(guān)司法辦案大數(shù)據(jù)目錄和工作指標(biāo)w系。通過(guò)對(duì)檢察官在執(zhí)法辦案中產(chǎn)生的“原生”大數(shù)據(jù)的深度挖掘和研判分析,將案件統(tǒng)計(jì)、質(zhì)量監(jiān)控、專題研判、績(jī)效分析有機(jī)融為一體,進(jìn)而使辦案監(jiān)督管理者能夠及時(shí)準(zhǔn)確找出檢察官在辦案中存在的司法不規(guī)范問(wèn)題,有效強(qiáng)化對(duì)司法辦案的績(jī)效考評(píng)與內(nèi)部監(jiān)控。
除了重視對(duì)“原生”大數(shù)據(jù)的收集整理與挖掘應(yīng)用,如何發(fā)揮好“他山之石”的作用,在檢察辦案中運(yùn)用好第三方關(guān)聯(lián)大數(shù)據(jù),也是大數(shù)據(jù)技術(shù)與檢察辦案深度融合的重要內(nèi)容。除了上述在職務(wù)犯罪案件偵查中對(duì)房產(chǎn)、銀行、公安行政機(jī)關(guān)等提供的關(guān)聯(lián)數(shù)據(jù)的常規(guī)運(yùn)用外,當(dāng)前一些地方檢察機(jī)關(guān)正在進(jìn)行創(chuàng)新運(yùn)用第三方大數(shù)據(jù)方面的積極探索。如江蘇省無(wú)錫市錫山區(qū)人民檢察院對(duì)接社會(huì)治理公共服務(wù)管理平臺(tái)和民情APP,推出檢察民情APP的創(chuàng)新做法。自對(duì)接平臺(tái)以來(lái),錫山區(qū)人民檢察院已查閱近6000條民情信息,從海量數(shù)據(jù)中了解掌握群眾訴求,立足檢察職能,從中發(fā)現(xiàn)老百姓對(duì)征地拆遷、環(huán)境保護(hù)、社會(huì)保障等方面的民生需求,聚焦群眾關(guān)注的熱點(diǎn)民生問(wèn)題深入挖掘職務(wù)犯罪案件線索、訴訟監(jiān)督線索、執(zhí)行監(jiān)督線索及公益訴訟線索,使第三方大數(shù)據(jù)真正成為輔助檢察辦案,拓展監(jiān)督案源的新渠道。
短板
檢察大數(shù)據(jù)系統(tǒng)的提升點(diǎn)
目前,檢察大數(shù)據(jù)系統(tǒng)在建設(shè)與應(yīng)用方面存在的主要問(wèn)題:
“大數(shù)據(jù)時(shí)代的預(yù)言家”維克托近日在北京面對(duì)一萬(wàn)多名技術(shù)信徒再次預(yù)言。
顯然,這三大經(jīng)典的技術(shù)信條在大數(shù)據(jù)時(shí)代面臨動(dòng)搖,
技術(shù)信徒的思維模式也即將發(fā)生顛覆。
那么,大數(shù)據(jù)對(duì)技術(shù)信徒意味著什么?
他們又將如何面對(duì)這一顛覆性的變革?
“技術(shù)匯成一條大河,一波推動(dòng)另外一波。”IBM中國(guó)開(kāi)發(fā)中心首席技術(shù)官兼新技術(shù)研發(fā)中心總經(jīng)理毛新生帶著對(duì)技術(shù)的滿腔癡迷這樣形容道。
一波未平一波又起,移動(dòng)、社交商務(wù)、云計(jì)算、大數(shù)據(jù)等先后涌現(xiàn)的新趨勢(shì)正在融合成一股巨大的潮流,將所有的行業(yè)IT化,進(jìn)而推動(dòng)商業(yè)和社會(huì)的演進(jìn)。這也就意味著“科技是第一生產(chǎn)力”在當(dāng)下有了更深層次的涵義——“IBM認(rèn)為,在由新一代技術(shù)組成的智慧運(yùn)算時(shí)代,中國(guó)的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運(yùn)用到自身的變革轉(zhuǎn)型之中。” IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠為企業(yè)新發(fā)展出謀獻(xiàn)策。
由2012年的“軟件技術(shù)峰會(huì)”改名為2013年的“技術(shù)峰會(huì)”,在這么一個(gè)盛會(huì)上,IBM試圖展示的內(nèi)容涵蓋范圍更為廣泛——移動(dòng)應(yīng)用、大數(shù)據(jù)、云計(jì)算、DevOps軟件持續(xù)交付、應(yīng)用整合、社交商務(wù)、專家集成系統(tǒng)等熱議話題,上百場(chǎng)技術(shù)主題演講、28場(chǎng)分論壇、22場(chǎng)動(dòng)手實(shí)驗(yàn)室和80個(gè)未來(lái)產(chǎn)品的現(xiàn)場(chǎng)演示,再加上被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”的《大數(shù)據(jù)時(shí)代》作者維克托·邁爾-舍恩伯格以及數(shù)十位來(lái)自IBM的院士、杰出工程師、相關(guān)領(lǐng)域的全球首席技術(shù)官和首席架構(gòu)師的現(xiàn)場(chǎng)分享,IBM 2013技術(shù)峰會(huì)再次成為技術(shù)精英們關(guān)注的焦點(diǎn)。 大數(shù)據(jù)的新信條
《大數(shù)據(jù)時(shí)代》作者、牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯格的出現(xiàn)著實(shí)讓場(chǎng)內(nèi)數(shù)以萬(wàn)計(jì)的技術(shù)信徒激動(dòng)了一把。作為深刻洞察大數(shù)據(jù)給人類生活、工作和思維帶來(lái)的大變革的第一人,維克托以價(jià)格預(yù)測(cè)網(wǎng)站的例子作為開(kāi)場(chǎng)白,論證了大數(shù)據(jù)已經(jīng)悄然在大眾的身邊出現(xiàn)并給他們的生活帶來(lái)改變。
“全體性、混雜性和相關(guān)性是大數(shù)據(jù)的三個(gè)主要特點(diǎn),而且這三個(gè)特點(diǎn)是互相加強(qiáng)的。”維克托歸納出了大數(shù)據(jù)對(duì)應(yīng)的思維變革。收集和分析更多的數(shù)據(jù)才能獲取足夠的數(shù)據(jù)隱含的細(xì)節(jié),這些細(xì)節(jié)恰恰是隨機(jī)抽樣所錯(cuò)失的。“干凈”的、高質(zhì)量的數(shù)據(jù)不再是標(biāo)的,大數(shù)據(jù)需要我們摒棄對(duì)宏觀上精確性的追求,轉(zhuǎn)而獲得微觀上的準(zhǔn)確性,即接受混雜的數(shù)據(jù)。最重要的是,人們不再沉迷于追尋數(shù)據(jù)之間的因果關(guān)系,即不再糾結(jié)于為什么,而是直接獲得“是什么”的答案,并通過(guò)應(yīng)用相關(guān)關(guān)系,更好地捕捉現(xiàn)在和預(yù)測(cè)未來(lái)——抽樣因錯(cuò)失細(xì)節(jié)得不償失,盲目追求精確性已經(jīng)過(guò)時(shí),執(zhí)著于因果關(guān)系喪失機(jī)遇。
如何在大數(shù)據(jù)時(shí)代生存?維克托指出了兩個(gè)關(guān)鍵點(diǎn):一是意識(shí)到技術(shù)或者規(guī)模并不是成功的充分條件。遺忘規(guī)模經(jīng)濟(jì),因?yàn)樗男б鏁?huì)逐漸淡化。20年前,一個(gè)公司只有擁有上十萬(wàn)臺(tái)的服務(wù)器才能提供搜索服務(wù),但在大數(shù)據(jù)時(shí)代,由于云計(jì)算的便利性,不擁有實(shí)體服務(wù)器的公司,如前文提到的,它只有30個(gè)員工,但它有能力為其上10億的用戶提供數(shù)據(jù)分析。二是為了在大數(shù)據(jù)時(shí)代獲得勝利,大數(shù)據(jù)的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍(lán)色被谷歌選為搜索窗口的色彩,但藍(lán)色實(shí)際上有51種,而且這51種藍(lán)色人依靠裸眼無(wú)法明確區(qū)分,卻能在心理層面給人帶來(lái)不同的感受。經(jīng)過(guò)大數(shù)據(jù)分析,谷歌發(fā)現(xiàn)原本由人工選出來(lái)的藍(lán)色會(huì)導(dǎo)致谷歌損失200億~300億美元的收入,因?yàn)檫@一種藍(lán)色并不最具備誘惑力,無(wú)法激起人們點(diǎn)擊的欲望。
大數(shù)據(jù)的力量需要具備大數(shù)據(jù)的思維模式,并有效利用大數(shù)據(jù)的工具去發(fā)掘。IBM杰出工程師、InfoSphere Stream高級(jí)開(kāi)發(fā)經(jīng)理James R Giles闡述了IBM對(duì)大數(shù)據(jù)的看法:“我們正一步步走到了一個(gè)新紀(jì)元——大數(shù)據(jù)時(shí)代。如同對(duì)待自然資源一樣,我們需要開(kāi)掘、轉(zhuǎn)變、銷售、保護(hù)大數(shù)據(jù)資源;不同的是,大數(shù)據(jù)資源是無(wú)窮無(wú)盡的,我們不能任由大數(shù)據(jù)淹沒(méi)自己,而應(yīng)該在獲得洞察需求的驅(qū)使下獲得價(jià)值。”
大數(shù)據(jù)的類型廣義而言有移動(dòng)數(shù)據(jù)和靜態(tài)數(shù)據(jù),還有結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù),這對(duì)應(yīng)著不同的處理方式。“技術(shù)人員的責(zé)任是,能夠去管理這些數(shù)據(jù),能夠理解這些從不同的數(shù)據(jù)源而來(lái)、不同類型的數(shù)據(jù),能夠分析這些數(shù)據(jù),得出結(jié)論,讓其提供決策支持,為企業(yè)擁抱新的大數(shù)據(jù)時(shí)代提供技術(shù)支撐,以保證管理、安全、商業(yè)的持續(xù)性。” James R Giles號(hào)召技術(shù)人員積極行動(dòng),以大數(shù)據(jù)的思維模式展現(xiàn)技術(shù)的價(jià)值和魅力。
找到內(nèi)在聯(lián)系
技術(shù)的趨勢(shì)總是融合,也只有有機(jī)融合才能形成合力,發(fā)揮更大的威力,而實(shí)現(xiàn)這一合力的前提是明確各個(gè)趨勢(shì)之間的內(nèi)在聯(lián)系。
“實(shí)際上,社交商務(wù)、移動(dòng)、大數(shù)據(jù)、云計(jì)算是一體化的。”毛新生建議技術(shù)人員用一個(gè)全面的、融合的范式來(lái)沉著看待和應(yīng)對(duì)紛繁的熱點(diǎn)技術(shù),理解這些熱點(diǎn)會(huì)如何影響整個(gè)IT的走向,進(jìn)而明晰IT如何可以很好地支持各行各業(yè)的業(yè)務(wù)轉(zhuǎn)型和創(chuàng)新,“讓每個(gè)行業(yè)都可以從新的技術(shù)轉(zhuǎn)型當(dāng)中獲得足夠的原動(dòng)力”。
從貼近最終用戶的角度來(lái)看,移動(dòng)技術(shù)、社交技術(shù)改變了商業(yè)機(jī)構(gòu)與其雇員、客戶進(jìn)行互動(dòng)的方式。“就我個(gè)人的經(jīng)歷而言,航空公司的移動(dòng)應(yīng)用可以提供更好的客戶交互。我是西北航空公司的粉絲,因?yàn)樗业囊苿?dòng)應(yīng)用服務(wù)很貼心,比如查詢航班信息、根據(jù)我的喜好預(yù)留位置、定制化地進(jìn)行社交推薦等。”毛新生以一個(gè)普通消費(fèi)者的感受證明了企業(yè)通過(guò)移動(dòng)應(yīng)用收集并利用用戶行為數(shù)據(jù)所帶來(lái)的服務(wù)質(zhì)量的提升。
移動(dòng)催生了“一種嶄新的服務(wù)交付端點(diǎn)”,即為用戶提供了更多樣化的服務(wù)體驗(yàn)點(diǎn),讓用戶隨時(shí)隨地可以利用碎片化的時(shí)間去獲得業(yè)務(wù)服務(wù),也為企業(yè)帶來(lái)了全新的服務(wù)交付渠道。移動(dòng)這個(gè)渠道提供了更為豐富的全樣性數(shù)據(jù),在此基礎(chǔ)上,大數(shù)據(jù)分析就更可信。“移動(dòng)所具備的碎片化特點(diǎn)會(huì)帶來(lái)更大量的用戶行為信息。當(dāng)把所有的人的行為結(jié)合在一起,就可以做群體的社會(huì)性分析。社會(huì)性分析會(huì)得到比較準(zhǔn)確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機(jī)會(huì)。”毛新生認(rèn)為移動(dòng)與大數(shù)據(jù)結(jié)合給企業(yè)提供了新的商業(yè)機(jī)會(huì)。
移動(dòng)的設(shè)備無(wú)處不在。人、汽車,甚至建筑物、道路、橋梁,它們無(wú)時(shí)無(wú)刻不在提供數(shù)據(jù),這就是新的數(shù)據(jù)源,是它們引領(lǐng)我們來(lái)到維克托所描述的更為廣闊的大數(shù)據(jù)世界。
移動(dòng)和社交商務(wù)的便捷性使得企業(yè)的整個(gè)業(yè)務(wù)流程變得非常自動(dòng)化,用戶可以享受自助服務(wù),對(duì)應(yīng)到企業(yè)端就意味著業(yè)務(wù)流程對(duì)前端的需求要反應(yīng)得更為迅速,也意味著各個(gè)業(yè)務(wù)系統(tǒng)之間無(wú)縫連接,否則沒(méi)有辦法支撐以最終用戶為中心的服務(wù)體驗(yàn),但跨部門和跨應(yīng)用的整合實(shí)屬不易。進(jìn)一步延伸開(kāi)來(lái),對(duì)用戶體驗(yàn)的追求是無(wú)止境的,合作伙伴的API和服務(wù)可以作為補(bǔ)充,這即是“跨企業(yè)邊界”的行為。這種行為必然導(dǎo)致大規(guī)模的用戶訪問(wèn)。這些整合和外部拓展都需要云計(jì)算提供靈活有效的基礎(chǔ)。沒(méi)有云計(jì)算,移動(dòng)前端的體驗(yàn)、大數(shù)據(jù)分析的效果都會(huì)大打折扣。“云的基礎(chǔ)設(shè)施使大規(guī)模互動(dòng)、大規(guī)模數(shù)據(jù)處理、大規(guī)模應(yīng)用可以更好地服務(wù)我們。”毛新生指出。
環(huán)境變化加速,競(jìng)爭(zhēng)更加激烈,要求企業(yè)的反應(yīng)速度越來(lái)越快,應(yīng)用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個(gè)改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應(yīng)用和業(yè)務(wù)流程的設(shè)計(jì)、開(kāi)發(fā)、部署、測(cè)試、維護(hù)的整個(gè)過(guò)程要大大加快,也就是所謂的DevOps。只有把敏捷的開(kāi)發(fā)和運(yùn)維結(jié)合起來(lái),生命周期變得以天為周期,才能響應(yīng)新的商業(yè)環(huán)境。”
“移動(dòng)、云計(jì)算、大數(shù)據(jù)、社交商務(wù)之間的緊密聯(lián)系讓我們應(yīng)該以整體的眼光來(lái)審視它們。”胡世忠堅(jiān)信,它們的組合可以創(chuàng)造可持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì),可以迸發(fā)變革的力量。
至于一個(gè)企業(yè)應(yīng)該從哪里下手來(lái)實(shí)現(xiàn)這一幅宏偉藍(lán)圖?毛新生給出的答案是:“每一個(gè)企業(yè),因?yàn)樗幍男袠I(yè)或者特定的情況而擁有不同的切入點(diǎn),有一些企業(yè)需要從移動(dòng)開(kāi)始,有一些企業(yè)需要從云計(jì)算開(kāi)始,有一些企業(yè)需要從大數(shù)據(jù)開(kāi)始,但是它們是不可分割的整體,只有綜合地運(yùn)用它們,找到適合自己的切入點(diǎn),一步一步腳踏實(shí)地,才能掌握先機(jī),打造競(jìng)爭(zhēng)力。在這個(gè)過(guò)程中,要擁有正確的思維,改變既有思維,理解趨勢(shì),制定策略。”
例如,銀行、保險(xiǎn)、零售業(yè)這一類和最終消費(fèi)者打交道的服務(wù)業(yè)在很大概率上需要先從移動(dòng)、社交商務(wù)入手,從而使其有機(jī)會(huì)改善和用戶交互的過(guò)程。而以數(shù)據(jù)為生的行業(yè)會(huì)琢磨如何將自己的內(nèi)容和資源數(shù)據(jù)增值,而傳統(tǒng)的運(yùn)營(yíng)基礎(chǔ)設(shè)施的重資產(chǎn)企業(yè),會(huì)追求將資產(chǎn)數(shù)字化,得到數(shù)據(jù)并進(jìn)行分析,以優(yōu)化資產(chǎn)的生命周期管理來(lái)預(yù)防性地降低維護(hù)成本,這些企業(yè)是以大數(shù)據(jù)作為切入點(diǎn)的。還有一些企業(yè)希望跨行業(yè)整合進(jìn)行業(yè)務(wù)創(chuàng)新,背后牽扯到它們自身現(xiàn)有的業(yè)務(wù)模式和新業(yè)務(wù)模式的整合,這種情況下需要以云的方式構(gòu)建新的應(yīng)用、服務(wù)、商業(yè)流程。
毛新生認(rèn)為切入點(diǎn)不同只是表象,每一種場(chǎng)景到最后都是綜合性的運(yùn)用,要把這幾個(gè)技術(shù)綜合運(yùn)用起來(lái)。從前端開(kāi)始,首先是利用移動(dòng),并借助社交渠道交流,很快這些渠道會(huì)得到新的數(shù)據(jù),這些新的數(shù)據(jù)和原有的交易數(shù)據(jù)和積累的數(shù)據(jù)結(jié)合起來(lái)做進(jìn)一步的數(shù)據(jù)分析,這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析以后可以做社交推薦、關(guān)聯(lián)推薦了。隨后,能不能跨界再實(shí)現(xiàn)更廣泛的銷售?跟別的價(jià)值鏈上的合作伙伴合作,那么引入云是解決之道。數(shù)據(jù)量增大,用戶數(shù)增多,云的基礎(chǔ)設(shè)施可以讓成本更合理。“所以說(shuō),到最后都是綜合性的應(yīng)用,盡管起點(diǎn)不一樣”,毛新生說(shuō)。
對(duì)技術(shù)人員而言,IT就是交付業(yè)務(wù)流程的基礎(chǔ),是信息化的工具。它的目標(biāo)無(wú)非是優(yōu)化業(yè)務(wù)流程或者創(chuàng)新業(yè)務(wù)流程。創(chuàng)新到達(dá)一定程度后,業(yè)務(wù)流程的量變會(huì)導(dǎo)致質(zhì)變。“這就解釋了為何全球越來(lái)越多的CEO將技術(shù)視為驅(qū)動(dòng)企業(yè)發(fā)展的首要因素。” IBM軟件集團(tuán)大中華區(qū)中間件集團(tuán)總經(jīng)理李紅焰強(qiáng)調(diào),技術(shù)人員有能力,也有責(zé)任將“看不見(jiàn)的技術(shù)轉(zhuǎn)變?yōu)榭吹靡?jiàn)的享受”。
移動(dòng)開(kāi)發(fā)的轉(zhuǎn)變
在大數(shù)據(jù)的帶領(lǐng)下我們進(jìn)入移動(dòng)時(shí)代,企業(yè)有了新機(jī)遇,技術(shù)人員卻有了新挑戰(zhàn)。為什么移動(dòng)開(kāi)發(fā)和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術(shù)人員腦子里最主要的兩個(gè)問(wèn)題。
IBM杰出工程師及IBM移動(dòng)平臺(tái)首席架構(gòu)師Greg Truty解答了這兩個(gè)疑問(wèn)。他認(rèn)為,很多企業(yè)現(xiàn)在所做的事情與在移動(dòng)的狀態(tài)下做的事情是不一樣的,移動(dòng)狀態(tài)下的任務(wù)和規(guī)劃更具有戰(zhàn)略性。移動(dòng)應(yīng)用是在不穩(wěn)定的網(wǎng)絡(luò)上運(yùn)行的,所占用的資源更少。用戶在移動(dòng)設(shè)備上和非移動(dòng)設(shè)備上的體驗(yàn)是完全不一樣的,他們會(huì)希望在不穩(wěn)定的網(wǎng)絡(luò)上仍然能夠獲得良好的體驗(yàn)。企業(yè)現(xiàn)在需要思考的是,怎么樣把大量數(shù)據(jù)、大量體驗(yàn)變成一些有意義的體驗(yàn)。同時(shí),移動(dòng)管理的需求也不一樣了,開(kāi)發(fā)的特性也不一樣了。比如對(duì)一個(gè)企業(yè)來(lái)說(shuō),移動(dòng)開(kāi)發(fā)周期更短,有更多設(shè)備需要支持,有更多開(kāi)發(fā)方法可供選擇,也有更多的工具和庫(kù)可供選擇,這時(shí)候企業(yè)就需要仔細(xì)斟酌,哪些開(kāi)發(fā)方法和工具是自己需要的。
自然而然,對(duì)于設(shè)備的管理也有了變化,因?yàn)閼?yīng)用變化了。“一直以來(lái),客戶端服務(wù)器的應(yīng)用架構(gòu)是企業(yè)在使用的。你需要協(xié)調(diào)在服務(wù)器端的服務(wù)以及在客戶端的服務(wù),挑戰(zhàn)非常大。你不可能強(qiáng)迫客戶運(yùn)行你的應(yīng)用,而必須能協(xié)調(diào)和兼容原有的系統(tǒng)。這是非常關(guān)鍵的一點(diǎn)。” Greg Truty強(qiáng)調(diào)了設(shè)備管理的重要性。
此外,產(chǎn)品種類也非常多,新應(yīng)用層出不窮。Greg Truty 認(rèn)為多而新的局面下更需要冷靜處理:“我們會(huì)把應(yīng)用和數(shù)據(jù)結(jié)合起來(lái),移動(dòng)和社交網(wǎng)絡(luò)結(jié)合起來(lái),這樣做會(huì)創(chuàng)造一些新的得到數(shù)據(jù)的機(jī)會(huì),需要進(jìn)行管理。新的機(jī)會(huì)、新的技術(shù),給整個(gè)IT組織帶來(lái)了更多的挑戰(zhàn)。”
關(guān)鍵詞:大數(shù)據(jù) Hadoop Spark Spark 流
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)09-0000-00
大數(shù)據(jù)遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),它以一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù)[1]。然而面對(duì)龐大的數(shù)據(jù)來(lái)獲得有價(jià)值的信息是一個(gè)巨大的挑戰(zhàn)。為了克服上述困難,近幾年來(lái)推出了Hadoop、PureData和Exadata等多種大數(shù)據(jù)系統(tǒng)分析平臺(tái),以Hadoop平臺(tái)最為突出,深受用戶的歡迎。但是隨著應(yīng)用的不斷深入,Hadoop暴露出了它的局限性。主要體現(xiàn)在以下幾方面:第一,操作過(guò)于單一,僅支持Map和Reduce兩種操作;第二,迭代計(jì)算效率較低,尤其在機(jī)器學(xué)習(xí)和圖形計(jì)算方面[2]。 2013年底由Apache 軟件基金會(huì)提出的Spark框架技術(shù)較好地解決了這些問(wèn)題。
1 Spark技術(shù)架構(gòu)
1.1 Spark設(shè)計(jì)思想
Spark是一種基于HDFS的并行計(jì)算架構(gòu)。主要思想是通過(guò)一種新的作業(yè)和數(shù)據(jù)容錯(cuò)方式來(lái)減少磁盤和網(wǎng)絡(luò)的I/O開(kāi)銷 其核心技術(shù)是彈性分布式數(shù)據(jù)集(RDD),是指在一組存儲(chǔ)計(jì)算機(jī)中的只讀數(shù)據(jù)集合,這個(gè)數(shù)據(jù)集合可以在分區(qū)對(duì)象丟失后進(jìn)行重建[5]。也就是說(shuō)RDD的元素不一定需要存儲(chǔ)在物理介質(zhì)中,相反,一個(gè)RDD的處理進(jìn)程包含了如何從可靠的數(shù)據(jù)存儲(chǔ)中去獲取足夠的信息來(lái)對(duì)這個(gè)RDD進(jìn)行處理。如果RDDS的任務(wù)節(jié)點(diǎn)失敗,總可以進(jìn)行重建[3]。
1.2 Spark系統(tǒng)架構(gòu)
與MapReduce不同,Spark并不僅僅局限于編寫(xiě)map和reduce兩個(gè)方法,它為用戶提供了更為強(qiáng)大的內(nèi)存計(jì)算模型,使得用戶可以通過(guò)編程將數(shù)據(jù)讀取到集群的內(nèi)存當(dāng)中,這樣可以快速在內(nèi)存中對(duì)數(shù)據(jù)集進(jìn)行多次迭代,支持復(fù)雜的數(shù)據(jù)挖掘算法和圖計(jì)算算法使用Scala語(yǔ)言開(kāi)發(fā),以Mesos作為底層的調(diào)度框架,可以和 Hadoop和Ec2緊密集成,直接讀取HDFS或S3的文件進(jìn)行計(jì)算并把結(jié)果寫(xiě)回HDFS或S3,是Hadoop和Amazon云計(jì)算生態(tài)圈的一部分,項(xiàng)目的core部分代碼只有63個(gè)Scala文件,執(zhí)行效率高效。Spark主要由四個(gè)模塊組成:Spark SQL、MLlib、Spark 流和GraphX。Spark SQL為了兼容主流關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)(RDBMS)可以允許用戶編寫(xiě)SQL和HQL兩種腳本執(zhí)行查詢,其核心組件是JavaSchemaRDD,它是一個(gè)類似于RDBMS的一個(gè)Table,由Row和Schema對(duì)象來(lái)描述Table中行對(duì)象和列的DataType。
2 Spark運(yùn)行模式
2.1 Spark任務(wù)調(diào)度方式
Spark的運(yùn)行模式有多種,主要由SparkContext的MASTER環(huán)境變量所獲得的值來(lái)決定,有些模式還需要程序接口來(lái)配合輔助決定。但概括起來(lái),Spark運(yùn)行都以Spark-Context為總調(diào)度驅(qū)動(dòng)程序,負(fù)責(zé)應(yīng)用程序的資源分配,期間分別創(chuàng)建作業(yè)調(diào)度和任務(wù)調(diào)度兩級(jí)模塊。作業(yè)調(diào)度模塊是基于階段的高層調(diào)度模塊,每個(gè)Spark 作業(yè)計(jì)算通常有多個(gè)階段,每個(gè)階段分解為一組任務(wù)集,以任務(wù)組的形式提交給底層任務(wù)調(diào)度模塊來(lái)具體執(zhí)行實(shí)際計(jì)算任務(wù),任務(wù)調(diào)度模塊負(fù)責(zé)啟動(dòng)實(shí)際任務(wù),監(jiān)控和匯報(bào)任務(wù)運(yùn)行情況。如果分配任務(wù)成功,SparkContext會(huì)將應(yīng)用程序代碼給指定的執(zhí)行者完成一個(gè)或多個(gè)任務(wù)[4]。
2.2 Spark運(yùn)行模式類型
Spark的運(yùn)行模式,歸納起來(lái)有六種。
(1)Local[M]。該模式使用 LocalBackend 調(diào)用TaskSchedulerImpl 實(shí)現(xiàn)。LocalBackend 響應(yīng)Scheduler的receiveOffers請(qǐng)求,根據(jù)可用CPU Core的設(shè)定值[M]直接生成WorkerOffer資源返回給Scheduler,并通過(guò)Executor類在線程池中依次啟動(dòng)和運(yùn)行Scheduler返回的任務(wù)列表。
(2)Standalone。該模式使用SparkDeploySchedulerBackend調(diào)用TaskSchedulerImpl來(lái)實(shí)現(xiàn) ,而SparkDeploySchedulerBackend同時(shí)繼承了CoarseGrainedSchedulerBackend。是一個(gè)在Akka Actor上實(shí)現(xiàn)的粗粒度的資源調(diào)度類,在整個(gè)Spark Job運(yùn)行期間,監(jiān)聽(tīng)和擁有注冊(cè)給它的Executor資源,比如接受Executor注冊(cè),狀態(tài)更新,響應(yīng)Scheduler請(qǐng)求等,并且根據(jù)現(xiàn)有Executor資源發(fā)起任務(wù)流程調(diào)度。
(3)Local-cluster。偽分布模式實(shí)際上是在Standalone模式上實(shí)現(xiàn)的,也就是在SparkContext初始化的過(guò)程中在本地啟動(dòng)一個(gè)單機(jī)的偽分布Spark集群,后面的執(zhí)行流程與Standalone模式相同。
(4)Mesos。該模式主要根據(jù)顆粒度大小來(lái)區(qū)分,粗粒度的CoarseMesosSchedulerBackend繼承了CoarseGrained SchedulerBackend,相對(duì)于父類額外做的工作還要實(shí)現(xiàn)MScheduler接口,注冊(cè)到Mesos資源調(diào)度的框架中,用于接收Mesos的資源分配,在得到資源后通過(guò)Mesos框架遠(yuǎn)程啟動(dòng)CoarseGrainedExecutorBackend,以后的任務(wù)交互過(guò)程和Spark standalone模式一樣,由DriverActor和Executor Actor直接完成。 細(xì)粒度的MesosSchedulerBackend直接繼承SchedulerBackend,但同樣實(shí)現(xiàn)了MScheduler接口,完成Mesos資源調(diào)度框架中的注冊(cè),接收Mesos的資源分配。不同之處是在接收資源分配以后,MesosSchedulerBackend啟動(dòng)的是遠(yuǎn)程Executor,通過(guò)在遠(yuǎn)程執(zhí)行命令來(lái)啟動(dòng)MesosExecutorBackend,直接執(zhí)行對(duì)應(yīng)的任務(wù)。
(5)Yarn-standalone。Yarn-Standalone模式相對(duì)其它模式有些特殊,需要外部程序輔助啟動(dòng)應(yīng)用程序。Client通過(guò)Yarn Client API在Hadoop集群上啟動(dòng)一個(gè)Spark App Master,Spark App Master首先為自己注冊(cè)一個(gè)Yarn App Master,再啟動(dòng)用戶程序,然后根據(jù)Client傳遞過(guò)來(lái)的參數(shù),Spark App Master通過(guò)Yarn RM/NM接口在集群中啟動(dòng)多個(gè)Container運(yùn)行CoarseGrainedExecutorBackend往CoarseGrainedSchedulerBackend注冊(cè)。后面的任務(wù)調(diào)度流程跟其它Cluster模式類似,不再述說(shuō)。
(6)Yarn-client。該模式的SparkContext運(yùn)行在本地,適用于應(yīng)用程序本身需要在本地交互的情景。這種模式下SparkContext在初始化時(shí)首先啟動(dòng)YarnClientSchedulerBackend,然后再調(diào)用客戶端包遠(yuǎn)程啟動(dòng)一個(gè)作業(yè)作為Spark的App Master,相對(duì)于Yarn-standalone模式,此模式不再負(fù)責(zé)啟動(dòng)用戶程序,而只是啟動(dòng)Backend便于跟客戶端本地Driver進(jìn)行數(shù)據(jù)傳遞,后面的任務(wù)調(diào)度流程跟其它模式類似。
3 Spark應(yīng)用現(xiàn)狀及發(fā)展
目前SPARK已經(jīng)構(gòu)建了自己的整個(gè)大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術(shù)、機(jī)器學(xué)習(xí)、NoSQL查詢等方面的技術(shù),并且是Apache頂級(jí)項(xiàng)目。雖然Spark對(duì)內(nèi)存要求較高,推出時(shí)間較短未經(jīng)過(guò)實(shí)踐考驗(yàn),但伴隨著大數(shù)據(jù)相關(guān)技術(shù)和產(chǎn)業(yè)的逐步成熟,繼Hadoop之后,Spark技術(shù)以集大成的無(wú)可比擬的優(yōu)勢(shì),發(fā)展迅速,將成為替代Hadoop的下一代云計(jì)算、大數(shù)據(jù)核心技術(shù)。可以預(yù)計(jì)2015年下半年在社區(qū)和商業(yè)應(yīng)用上會(huì)有爆發(fā)式的增長(zhǎng)。
參考文獻(xiàn)
[1] K. Shvachko, K. Hairong, S. Radia e R. Chansler. The Hadoop Distributed File System[C]. IEEE 26th Symposium on Mass Storage Systems and Technologies, 2010.
[2] Spark: Lighting-fast cluster computing[EB/OL]. http:///.
[3] M. Hirzel, H. Andrade, B. Gedik, et al. IBM Streams Processing Language: Analyzing Big Data in motion[J]. IBM Journal of Research and Development.2013,57(7):1-7.
[4] T. Chardonnens, P. Cudre-Mauroux, M. Grund ,et al.Big data analytics on high Velocity streams: A case study[C]. IEEE International Conference on Big Data, 2013.
關(guān)鍵詞:大數(shù)據(jù);智能交通;數(shù)據(jù)技術(shù)
隨著國(guó)民經(jīng)濟(jì)的不斷發(fā)展,人們生活水平的不斷提高,居民購(gòu)買汽車能力加強(qiáng)。我國(guó)的汽車保有量隨之增加,在一些大城市機(jī)動(dòng)車擁有量以超過(guò)10%的速度加速,機(jī)動(dòng)車成為每個(gè)家庭代步的交通工具,在有限的交通資源配置下,機(jī)動(dòng)車的增加縮短了道路使用周期,城市主干道路超負(fù)荷使用,違法停車致使道路不能合理使用、行車不文明、乘車環(huán)境不良等現(xiàn)象有增無(wú)減。大數(shù)據(jù)時(shí)代,如何改善當(dāng)前的交通狀況是本文闡述的核心內(nèi)容。文章從以下幾個(gè)方面來(lái)闡述:大數(shù)據(jù)的現(xiàn)狀、大數(shù)據(jù)的概述、大數(shù)據(jù)的應(yīng)用、智能交通的需求、智能交通體系的建立、數(shù)據(jù)技術(shù)。
1 大數(shù)據(jù)的現(xiàn)狀
據(jù)權(quán)威數(shù)據(jù)顯示,大數(shù)據(jù)應(yīng)用在我國(guó)還處在起步階段。但在未來(lái)三年,通信、金融領(lǐng)域?qū)⒃诖髷?shù)據(jù)市場(chǎng)突破100億元。市場(chǎng)規(guī)模在2012年有望達(dá)到4.7億元,到2013年增至11.2億元,增長(zhǎng)率高達(dá)138%,2014年,保持了與2013年基本持平的增速,增長(zhǎng)率為114.38%,市場(chǎng)規(guī)模達(dá)到24.1億元,未來(lái)三年內(nèi)有望突破150億元,2016年有望達(dá)到180億規(guī)模。自從2014年以來(lái),各界對(duì)大數(shù)據(jù)的誕生都備加關(guān)注,已滲透到各個(gè)領(lǐng)域:交通行業(yè)、醫(yī)療行業(yè)、生物技術(shù)、零售行業(yè)、電商、農(nóng)牧業(yè)、個(gè)人位置服務(wù)等行業(yè),由此也正在不斷涌現(xiàn)大數(shù)據(jù)的新產(chǎn)品、新技術(shù)、新服務(wù)。
大數(shù)據(jù)行業(yè)“十三五”規(guī)劃主要目標(biāo):在2020年,將大數(shù)據(jù)打造成為國(guó)民經(jīng)濟(jì)新興支柱產(chǎn)業(yè)并在社會(huì)各領(lǐng)域廣泛應(yīng)用,推動(dòng)我國(guó)大數(shù)據(jù)產(chǎn)業(yè)穩(wěn)步快速發(fā)展,基本健全大數(shù)據(jù)產(chǎn)業(yè)體系,推動(dòng)制定一批相關(guān)大數(shù)據(jù)的國(guó)標(biāo)、行標(biāo)和地方標(biāo)準(zhǔn),引進(jìn)具備大數(shù)據(jù)條件的企業(yè),建設(shè)大數(shù)據(jù)產(chǎn)業(yè)孵化基地,提高全國(guó)信息化總體水平,以躋身世界先進(jìn)水平。
2 大數(shù)據(jù)的概述
2.1 大數(shù)據(jù)定義
大數(shù)據(jù)即巨量數(shù)據(jù)集合,目前還沒(méi)有一個(gè)統(tǒng)一的定義。大數(shù)據(jù)的概念最早是由全球著名的管理咨詢公司麥肯錫提出,2011年Mckinsey研究稱,大數(shù)據(jù)通常是指信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),在各個(gè)行業(yè)和業(yè)務(wù)領(lǐng)域,數(shù)據(jù)已經(jīng)滲透到行業(yè)中并逐漸成為重要的要素,人們能夠從海量數(shù)據(jù)中挖掘出有用的數(shù)據(jù)并加以應(yīng)用。對(duì)大數(shù)據(jù)定義的另一說(shuō)法是利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。
隨著信息時(shí)代的高速發(fā)展,大數(shù)據(jù)已經(jīng)成為社會(huì)生產(chǎn)力發(fā)展的又一推動(dòng)力。大數(shù)據(jù)被稱為是繼云計(jì)算、物聯(lián)網(wǎng)之后信息時(shí)代的又一大顛覆性的技術(shù)革命。大數(shù)據(jù)的數(shù)據(jù)量巨大,一般10TB規(guī)模左右,但在實(shí)際應(yīng)用中,多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量,甚至EB、ZB、TB的數(shù)據(jù)量。
2.2 大數(shù)據(jù)的特點(diǎn)
2.2.1 數(shù)據(jù)量巨大
數(shù)據(jù)量級(jí)別從TB級(jí)別躍升到PB級(jí)別。隨著可穿戴設(shè)備、物聯(lián)網(wǎng)和云計(jì)算、云存儲(chǔ)等技術(shù)的發(fā)展,用戶的每一個(gè)動(dòng)作都可以被記錄,由此每天產(chǎn)生大量的數(shù)據(jù)信息。據(jù)有關(guān)人士估算:1986~2007年,全球數(shù)據(jù)的存儲(chǔ)能力每年提高23%,雙向通信能力每年提高28%,通用計(jì)算能力每年提高58%;2007年,人類大約存儲(chǔ)了超過(guò)300EB
的數(shù)據(jù);到2013年,世界上存儲(chǔ)的數(shù)據(jù)能達(dá)到約1.2ZB。
2.2.2 數(shù)據(jù)類型多樣化
即數(shù)據(jù)類型繁多,產(chǎn)生了海量的新數(shù)據(jù)集,新數(shù)據(jù)集可以是關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)這樣的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化數(shù)據(jù)和無(wú)結(jié)構(gòu)數(shù)據(jù),從靜態(tài)的數(shù)據(jù)庫(kù)到動(dòng)態(tài)的數(shù)據(jù)流,從簡(jiǎn)單的數(shù)據(jù)對(duì)象到時(shí)間數(shù)據(jù)、生物序列數(shù)據(jù)、傳感器數(shù)據(jù)、空間數(shù)據(jù)、超文本數(shù)據(jù)、多媒體數(shù)據(jù)、軟件程序代碼、Web數(shù)據(jù)和社會(huì)網(wǎng)絡(luò)數(shù)據(jù)[1]。各種數(shù)據(jù)集不僅產(chǎn)生于組織內(nèi)部運(yùn)作的各個(gè)環(huán)節(jié),也來(lái)自于組織外部。
2.2.3 數(shù)據(jù)的時(shí)效性高
所謂的數(shù)據(jù)時(shí)效性高指以實(shí)時(shí)數(shù)據(jù)處理、實(shí)時(shí)結(jié)果導(dǎo)向?yàn)樘卣鞯慕鉀Q方案,數(shù)據(jù)的傳輸速度、響應(yīng)、反應(yīng)的速度不斷加快。數(shù)據(jù)時(shí)效性為了去偽存真,采用非結(jié)構(gòu)化數(shù)據(jù)剔除數(shù)據(jù)中無(wú)用的信息,而當(dāng)前未有真正的解決方法,只能是人工承擔(dān)其中的智能部分。有些專員負(fù)責(zé)數(shù)據(jù)分析問(wèn)題并提出分析后的解決方案。
2.2.4 數(shù)據(jù)真實(shí)性低
即數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的高質(zhì)量是大數(shù)據(jù)時(shí)代重要的關(guān)注點(diǎn)。但在生活中,“臟數(shù)據(jù)”無(wú)處不在,例如,一些低劣的偽冒產(chǎn)品被推上市場(chǎng),由于營(yíng)銷手段的成功,加之其他因素的影響導(dǎo)致評(píng)分很高。但是這并不是真實(shí)的數(shù)據(jù),如果對(duì)數(shù)據(jù)不加分析和鑒別而直接使用,即使計(jì)算的結(jié)果精度高,結(jié)果都是無(wú)意義的,因?yàn)閿?shù)據(jù)本身就存在問(wèn)題出現(xiàn)。
2.2.5 價(jià)值密度低
指隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息巨大,信息感知存在于客觀事物中,有很多不相關(guān)的信息。由于數(shù)據(jù)采集的不及時(shí),數(shù)據(jù)樣本不全面,數(shù)據(jù)可能不連續(xù)等等,數(shù)據(jù)可能會(huì)失真,但當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模,可以通過(guò)更多的數(shù)據(jù)達(dá)到更真實(shí)全面的反饋。
2.3 大數(shù)據(jù)的應(yīng)用
2.3.1 醫(yī)療大數(shù)據(jù)
利用大數(shù)據(jù)平臺(tái)收集患者原先就醫(yī)的病例和治療方案,根據(jù)患者的體征,建立疾病數(shù)據(jù)庫(kù)并對(duì)患者的病例分類數(shù)據(jù)庫(kù)。一旦患者在哪個(gè)醫(yī)院就醫(yī),憑著醫(yī)保卡或就診卡,醫(yī)生就可以從疾病數(shù)據(jù)庫(kù)中參考病人的疾病特征、所做的檢查報(bào)告結(jié)果快速幫助患者確診。同時(shí)擁有的數(shù)據(jù)也有利于醫(yī)藥行業(yè)開(kāi)發(fā)出更符合治療疾病的醫(yī)療器械和藥物的研發(fā)。
2.3.2 傳統(tǒng)農(nóng)牧業(yè)大數(shù)據(jù)
因?yàn)閭鹘y(tǒng)農(nóng)牧業(yè)主要依賴于天氣、土壤、空氣質(zhì)量等客觀因素,因此利用大數(shù)據(jù)可以收集客觀因素的數(shù)據(jù)以及作物成熟度,甚至是設(shè)備和勞動(dòng)力的成本及可用性方面的實(shí)時(shí)數(shù)據(jù),能夠幫助農(nóng)民選擇正確的播種時(shí)間、施肥和收割作物的決策。當(dāng)農(nóng)民遇到技術(shù)市場(chǎng)問(wèn)題可以請(qǐng)教專業(yè)人員,專業(yè)人員根據(jù)實(shí)時(shí)數(shù)據(jù)做出科學(xué)的指導(dǎo),制定合理的優(yōu)化決策,降低農(nóng)民的損失成本,提高產(chǎn)品的產(chǎn)量,從而為轉(zhuǎn)向規(guī)模化經(jīng)營(yíng)打下良好基礎(chǔ)。
2.3.3 輿情大數(shù)據(jù)
利用大數(shù)據(jù)技術(shù)收集民眾訴求的數(shù)據(jù),降低社會(huì),有利管理犯罪行為。通過(guò)大數(shù)據(jù)收集在微博的尋找走失的親人或提供可能被拐賣人口的信息,來(lái)幫助別人。
3 智能交通的需求
隨著城市一體化的快速發(fā)展,新時(shí)代農(nóng)民工涌入大城市,促使城市人口的增大不斷給城市交通帶來(lái)問(wèn)題。究其原因主要有:一是機(jī)動(dòng)車的迅猛發(fā)展導(dǎo)致城市主次干道的流量趨于飽和,大量機(jī)動(dòng)車的通行和停放占據(jù)主干道路。二是城市交通的道路基礎(chǔ)設(shè)施供給不平衡導(dǎo)致路網(wǎng)承擔(dān)能力差。三是停車泊位數(shù)量不足導(dǎo)致機(jī)動(dòng)車使用者不得不過(guò)多依賴道路停車。四是公共設(shè)施的公交車分擔(dān)率不高導(dǎo)致交通運(yùn)輸效率降低。五是城市的土地開(kāi)發(fā)利用與道路交通發(fā)展不均衡。六是行人和機(jī)動(dòng)車主素質(zhì)不文明導(dǎo)致道路通行效率降低。為此,智能交通的出現(xiàn)是改善當(dāng)前城市交通的必要需求,能夠在一定程度上有效的解決城市交通問(wèn)題。
大數(shù)據(jù)是如何在智能交通的應(yīng)用呢?可以從兩個(gè)方面說(shuō)明:一是對(duì)交通運(yùn)行數(shù)據(jù)的收集。由于每天道路的通行機(jī)動(dòng)車較多,能夠產(chǎn)生較大的數(shù)據(jù),數(shù)據(jù)的采集并發(fā)數(shù)高,利用大數(shù)據(jù)使機(jī)動(dòng)車主更好的了解公路上的通行密度,有效合理對(duì)道路進(jìn)行規(guī)劃,可規(guī)定個(gè)別道路為單行線。其二是可以利用大數(shù)據(jù)來(lái)實(shí)現(xiàn)主干道根據(jù)道路的運(yùn)行狀況即時(shí)調(diào)度信號(hào)燈,提高已有線路運(yùn)行能力,可以保障交通參與者的生命和提高有關(guān)部門的工作效率,降低成本。對(duì)于機(jī)動(dòng)車主可以根據(jù)大數(shù)據(jù)隨時(shí)的了解當(dāng)前的交通狀況和停車位數(shù)量。如果交通擁堵,車主則可選擇另一路線,節(jié)約了車主的大量時(shí)間。
4 智能交通體系的建立
4.1 智能交通建立的框架
主要包括感知數(shù)據(jù)層、軟件應(yīng)用平臺(tái)及分析預(yù)測(cè)和優(yōu)化管理的應(yīng)用。物理感知層主要是采集交通的運(yùn)行狀況和對(duì)交通數(shù)據(jù)的及時(shí)感知;軟件應(yīng)用平臺(tái)主要整合每個(gè)感知終端的信息、將信息進(jìn)行轉(zhuǎn)換和處理,達(dá)到支撐分析并做出及時(shí)的預(yù)警措施。比如:對(duì)主要交通干進(jìn)行規(guī)劃,對(duì)頻發(fā)交通事故進(jìn)行監(jiān)控。同時(shí)還應(yīng)進(jìn)行應(yīng)用系統(tǒng)建設(shè)的優(yōu)化管理。比如:對(duì)機(jī)動(dòng)車進(jìn)行智能誘導(dǎo)、智能停車。
智能交通系統(tǒng)需要在各道路主干道上安裝高清攝像頭,采用先進(jìn)的視頻監(jiān)控、智能識(shí)別和信息技術(shù)手段,來(lái)增加可管理的維度,從空間的廣度、時(shí)間的深度、范圍的精細(xì)度來(lái)管理。整個(gè)系統(tǒng)的組成包括信息綜合應(yīng)用平臺(tái)、信號(hào)控制系統(tǒng)、視頻監(jiān)控系統(tǒng)、智能卡口系統(tǒng)、電子警察系統(tǒng)、信息采集系統(tǒng)、信息系統(tǒng)。每個(gè)城市建立智能交通并進(jìn)行聯(lián)網(wǎng),則會(huì)產(chǎn)生越來(lái)越多的視頻監(jiān)控?cái)?shù)據(jù)、卡口電警數(shù)據(jù)、路況信息、管控信息、營(yíng)運(yùn)信息、GPS定位信息、射頻識(shí)別信息等數(shù)據(jù),每天產(chǎn)生的數(shù)據(jù)量將可以達(dá)到PB級(jí)別,并且呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)。
4.2 智能交通數(shù)據(jù)處理體系的構(gòu)成
主要包括交通的數(shù)據(jù)輸入、車輛信息、道路承載能力等的數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索。其中交通數(shù)據(jù)輸入可以是靜態(tài)數(shù)據(jù)或者是動(dòng)態(tài)數(shù)據(jù)。數(shù)據(jù)處理是針對(duì)實(shí)時(shí)數(shù)據(jù)的處理。數(shù)據(jù)主要存儲(chǔ)的是每天采集的巨大數(shù)據(jù)量。為了從中獲取有用的數(shù)據(jù),則需要進(jìn)行數(shù)據(jù)查詢和檢索,還要對(duì)數(shù)據(jù)進(jìn)行規(guī)劃。
5 大數(shù)據(jù)技術(shù)
5.1 數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)采集與預(yù)處理主要對(duì)交通領(lǐng)域全業(yè)態(tài)數(shù)據(jù)的立體采集與處理來(lái)支撐交通建設(shè)、管理、運(yùn)行決策。采集的數(shù)據(jù)主要是車輛的實(shí)時(shí)通行數(shù)據(jù),以實(shí)現(xiàn)實(shí)時(shí)監(jiān)控、事先預(yù)測(cè)、及時(shí)預(yù)警,完成道路網(wǎng)流量的調(diào)配、控。這些數(shù)據(jù)獲取可以采用安裝的傳感器、識(shí)別技術(shù)并完成對(duì)已接收數(shù)據(jù)的辨析、轉(zhuǎn)換、抽取、清洗等操作。
5.2 數(shù)據(jù)存儲(chǔ)與管理
大數(shù)據(jù)的存儲(chǔ)與管理是把采集到的數(shù)據(jù)存放在存儲(chǔ)器,并建立相應(yīng)的數(shù)據(jù)庫(kù),如關(guān)系數(shù)據(jù)庫(kù)、Not Only SQL即對(duì)關(guān)系型SQL數(shù)據(jù)系統(tǒng)的補(bǔ)充。利用數(shù)據(jù)庫(kù)采用更簡(jiǎn)單的數(shù)據(jù)模型,并將元數(shù)據(jù)與應(yīng)用數(shù)據(jù)分離,從而實(shí)現(xiàn)管理和調(diào)用。
5.3 數(shù)據(jù)分析與挖掘
數(shù)據(jù)分析及挖掘技術(shù)是大數(shù)據(jù)的核心技術(shù)。從海量數(shù)據(jù)中,提取隱含在其中,人們事先未知的,但又可能有用的信息和知識(shí)的過(guò)程。從復(fù)雜數(shù)據(jù)類型中挖掘,如文本、圖片、視頻、音頻。該技術(shù)主要從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu),可以預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。
5.4 數(shù)據(jù)展現(xiàn)與應(yīng)用
數(shù)據(jù)技術(shù)能夠?qū)⒚刻焖a(chǎn)生的大量數(shù)據(jù)從中挖掘出有用的數(shù)據(jù),應(yīng)用到各個(gè)領(lǐng)域有需要的地方以提高運(yùn)行效率。
6 結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代,能對(duì)智能交通信息資源進(jìn)行優(yōu)化配置,能夠改善傳統(tǒng)的交通問(wèn)題。對(duì)非機(jī)動(dòng)車主而言,利用大數(shù)據(jù)可以更好的規(guī)劃線路,更好的了解交通狀況,在一定程度上可以對(duì)問(wèn)題預(yù)先提出解決方案,起到節(jié)省大量時(shí)間、額外的開(kāi)支。同時(shí)對(duì)交管部門而言,能夠在限的警力情況下合理配置人員資源和交通設(shè)備,主干道路在高峰期出現(xiàn)的問(wèn)題能夠合理利用大數(shù)據(jù)信息配置資源,在刑事案件偵查中也能發(fā)揮更重要的作用。
全國(guó)要實(shí)現(xiàn)智能交通的聯(lián)網(wǎng),依然有問(wèn)題需要突破,這都是大數(shù)據(jù)的數(shù)據(jù)技術(shù)應(yīng)用所在。
關(guān)鍵詞:煙草;數(shù)據(jù)中心;大數(shù)據(jù);Hadoop;Impala
1.大數(shù)據(jù)技術(shù)現(xiàn)狀
當(dāng)前許多企業(yè)都已基本實(shí)現(xiàn)了信息化建設(shè),企業(yè)積累了海量數(shù)據(jù)。同時(shí)企業(yè)間的競(jìng)爭(zhēng)日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準(zhǔn)確、快速和個(gè)性化地為客戶提品及服務(wù)。而大數(shù)據(jù)技術(shù)能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無(wú)法獲知的價(jià)值和模式,幫助企業(yè)更加迅速、科學(xué)、準(zhǔn)確地進(jìn)行決策和預(yù)測(cè)。
1.1大數(shù)據(jù)技術(shù)現(xiàn)狀
廣大企業(yè)的迫切需求反之也促進(jìn)了大數(shù)據(jù)技術(shù)的飛速發(fā)展,涌現(xiàn)出了諸如Hadoop、Spark等實(shí)用的架構(gòu)平臺(tái)。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,允許使用簡(jiǎn)單的編程模型進(jìn)行跨計(jì)算機(jī)集群的分布式大數(shù)據(jù)處理。通過(guò)使用專門為分布式計(jì)算設(shè)計(jì)的文件系統(tǒng)HDFS,計(jì)算的時(shí)候只需要將計(jì)算代碼推送到存儲(chǔ)節(jié)點(diǎn)上,即可在存儲(chǔ)節(jié)點(diǎn)上完成數(shù)據(jù)本地化計(jì)算。因此,Hadoop實(shí)現(xiàn)了高可靠性、高可拓展性、高容錯(cuò)性和高效性,可以輕松應(yīng)對(duì)PB級(jí)別的數(shù)據(jù)處理。
1.2大數(shù)據(jù)技術(shù)對(duì)煙草數(shù)據(jù)中心建設(shè)的影響
當(dāng)前,煙草企業(yè)基于多年的信息化建設(shè)已經(jīng)積累了海量數(shù)據(jù),同時(shí)每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下,需要在數(shù)據(jù)采集、存儲(chǔ)和運(yùn)算方面采用與以往完全不同的計(jì)算存儲(chǔ)模式,這就不可避免地需要采用大數(shù)據(jù)技術(shù)。同時(shí),除了購(gòu)進(jìn)單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外,還產(chǎn)生越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術(shù),對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理,可為人工判斷和機(jī)器學(xué)縮減范圍。對(duì)海量數(shù)據(jù)以及非結(jié)構(gòu)化的信息進(jìn)行分析統(tǒng)計(jì),僅僅依靠傳統(tǒng)的技術(shù)手段很難實(shí)現(xiàn),只有引入大數(shù)據(jù)技術(shù)才能充分的將所有的數(shù)據(jù)資源利用起來(lái),成為企業(yè)決策的助力。
2.江蘇煙草數(shù)據(jù)中心應(yīng)用現(xiàn)狀
2.1江蘇煙草數(shù)據(jù)中心體系架構(gòu)
目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個(gè)部分為核心,構(gòu)建了一套完整的數(shù)據(jù)中心架構(gòu)。一體化數(shù)據(jù)中心是整個(gè)數(shù)據(jù)中心最核心的部分。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)存儲(chǔ)、ETL工具等組成部分,構(gòu)建了業(yè)務(wù)數(shù)據(jù)的收集、加工、存儲(chǔ)、分發(fā)的總體架構(gòu)。建立了按ODS(SODS、UODS)、DW、DM三層結(jié)構(gòu)設(shè)計(jì)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)。一體化數(shù)據(jù)管理通過(guò)主數(shù)據(jù)管理、信息代碼管理、ESB平臺(tái)構(gòu)建了企業(yè)主數(shù)據(jù)收集、標(biāo)準(zhǔn)化、同步分發(fā)過(guò)程。結(jié)合指標(biāo)管理,全面管控企業(yè)的公用基礎(chǔ)信息。通過(guò)數(shù)據(jù)質(zhì)量管理,全面有效管控?cái)?shù)據(jù)質(zhì)量。通過(guò)數(shù)據(jù)服務(wù)管理,有效提升數(shù)據(jù)中心的對(duì)外服務(wù)能力與水平。通過(guò)元數(shù)據(jù)管理來(lái)管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過(guò)構(gòu)建移動(dòng)信息、業(yè)務(wù)分析、數(shù)據(jù)挖掘三大模塊,針對(duì)性解決當(dāng)前不同人員的決策、管理以及操作需求,發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術(shù)、平臺(tái)優(yōu)勢(shì)。通過(guò)移動(dòng)信息模塊為各級(jí)領(lǐng)導(dǎo)提供決策支持;通過(guò)業(yè)務(wù)分析模塊為業(yè)務(wù)人員的日常工作提供支撐;通過(guò)數(shù)據(jù)挖掘模塊,發(fā)掘數(shù)據(jù)所蘊(yùn)含的隱性價(jià)值。基于上述一整套架構(gòu)的支撐,目前數(shù)據(jù)中心構(gòu)建了全省范圍的數(shù)據(jù)集成、交換體系,一方面提升了全省基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質(zhì)量,另一方面為在建業(yè)務(wù)系統(tǒng)的實(shí)施、已有系統(tǒng)的改造提供了標(biāo)準(zhǔn)化的高質(zhì)量數(shù)據(jù)保障。
2.2大數(shù)據(jù)技術(shù)的應(yīng)用場(chǎng)景分析
隨著江蘇數(shù)據(jù)中心的不斷運(yùn)行,一些基于傳統(tǒng)技術(shù)架構(gòu)的功能逐漸暴露出種種問(wèn)題。其中較為突出的問(wèn)題有:一是使用者對(duì)于大數(shù)據(jù)量數(shù)據(jù)的查詢需求。基于傳統(tǒng)技術(shù)架構(gòu)的查詢功能響應(yīng)較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計(jì)分析應(yīng)用的數(shù)據(jù)結(jié)構(gòu)大多是預(yù)先定義好的,面對(duì)靈活的非傳統(tǒng)的統(tǒng)計(jì)查詢需求難以支撐,需要進(jìn)行額外的加工處理。江蘇煙草數(shù)據(jù)中心結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)特性,引入Hadoop平臺(tái)以及Impala等工具,搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái),以補(bǔ)充基于傳統(tǒng)技術(shù)架構(gòu)的功能不足,并為未來(lái)進(jìn)一步發(fā)展建設(shè)基于大數(shù)據(jù)技術(shù)和云環(huán)境的數(shù)據(jù)中心做好準(zhǔn)備。
3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)實(shí)現(xiàn)
3.1設(shè)計(jì)思路及架構(gòu)
基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)是在現(xiàn)有數(shù)據(jù)中心的建設(shè)成果之上,以數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)為基礎(chǔ),以Hadoop、Hive、Impala等大數(shù)據(jù)技術(shù)工具為手段,以簡(jiǎn)單靈活、快速高效的查詢展現(xiàn)為目標(biāo),建立的數(shù)據(jù)查詢分析支持平臺(tái)。
3.2技術(shù)方案
自定義數(shù)據(jù)查詢平臺(tái)的建設(shè)主要涉及數(shù)據(jù)存儲(chǔ)架構(gòu)、后臺(tái)數(shù)據(jù)加工準(zhǔn)備、前端展現(xiàn)三塊內(nèi)容。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)存儲(chǔ)分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關(guān)的元數(shù)據(jù)存儲(chǔ),另一部分則是查詢所需的各種統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)。元數(shù)據(jù)的存儲(chǔ)根據(jù)元數(shù)據(jù)庫(kù)的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫(kù)的元數(shù)據(jù)存儲(chǔ)。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù),以及前端自定義查詢需要定義的權(quán)限、數(shù)據(jù)源、表、列和表列關(guān)系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲(chǔ)。這部分存儲(chǔ)的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)則是使用Hadoop的HDFS實(shí)現(xiàn)的。根據(jù)Hadoop平臺(tái)架構(gòu),自定義數(shù)據(jù)查詢平臺(tái)的HDFS建立在6臺(tái)虛擬主機(jī)構(gòu)建的集群上的。其中:2臺(tái)虛擬主機(jī)作為NameNode,一臺(tái)為主節(jié)點(diǎn),另一臺(tái)為備份節(jié)點(diǎn);其余4臺(tái)虛擬主機(jī)都作為DataNode用于存儲(chǔ)數(shù)據(jù)。所有數(shù)據(jù)將會(huì)統(tǒng)一分塊自動(dòng)分配存儲(chǔ)到4個(gè)DataNode上。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)加工,是通過(guò)開(kāi)源ETL工具KETTLE實(shí)現(xiàn)的。通過(guò)KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)集市中讀取需要的數(shù)據(jù),根據(jù)自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)模型定義對(duì)數(shù)據(jù)進(jìn)行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺(tái)的前端展現(xiàn)功能,主要是基于JSP技術(shù)實(shí)現(xiàn)頁(yè)面開(kāi)發(fā),通過(guò)JDBC或者ODBC對(duì)后臺(tái)Mysql數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn)。使用者在查詢頁(yè)面中組織定義查詢的內(nèi)容,查詢服務(wù)自動(dòng)根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內(nèi)容拼接轉(zhuǎn)換成為查詢SQL,之后通過(guò)Impala執(zhí)行查詢SQL對(duì)HDFS文件系統(tǒng)中的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行查詢。
3.3系統(tǒng)實(shí)現(xiàn)效果
利用大數(shù)據(jù)技術(shù),自定義數(shù)據(jù)查詢平臺(tái)較好地解決了目前數(shù)據(jù)中心所面對(duì)的問(wèn)題,滿足了使用人員對(duì)于大數(shù)據(jù)量以及分析靈活性的需求。面對(duì)使用人員層出不窮的查詢需求,自定義數(shù)據(jù)查詢平臺(tái)通過(guò)預(yù)先梳理、分類定義各種維度以及統(tǒng)計(jì)指標(biāo)。使用者可以自由的根據(jù)實(shí)際需求選擇分析所需的維度及統(tǒng)計(jì)指標(biāo),同時(shí)還可以基于這些基礎(chǔ)的內(nèi)容更進(jìn)一步自定義過(guò)濾條件以及計(jì)算公式,并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面,自定義查詢平臺(tái)相比傳統(tǒng)架構(gòu)的查詢功能有了較大提升。
4.結(jié)束語(yǔ)
大數(shù)據(jù)技術(shù)的發(fā)展方興未艾,應(yīng)用前景無(wú)比廣闊,對(duì)各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設(shè)既要看到大數(shù)據(jù)技術(shù)未來(lái)的前景,更需要明確地認(rèn)識(shí)到大數(shù)據(jù)平臺(tái)的建設(shè)并非一朝一夕,需要有明確而長(zhǎng)遠(yuǎn)的規(guī)劃,不斷完善數(shù)據(jù)環(huán)境建設(shè)、云計(jì)算環(huán)境的構(gòu)建以及數(shù)據(jù)服務(wù)的擴(kuò)展。
參考文獻(xiàn)
[1]陳鵬.大數(shù)據(jù)時(shí)代下的信息安全問(wèn)題研究[J].電子制,2015,18:48
[2]劉憶魯,劉長(zhǎng)銀,侯艷權(quán).大數(shù)據(jù)時(shí)代下的信息安全問(wèn)題論述[J].信息通信.2016,181-182