歡迎訪問愛發(fā)表,線上期刊服務(wù)咨詢

大數(shù)據(jù)技術(shù)8篇

時間:2023-03-22 17:36:51

緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇大數(shù)據(jù)技術(shù),愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!

大數(shù)據(jù)技術(shù)

篇1

關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 營銷

中圖分類號:F49 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2015)030-0209-01

近幾年,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。2012 年3 月,奧巴馬公布了美國《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,標(biāo)志著大數(shù)據(jù)已經(jīng)成為國家戰(zhàn)略,上升為國家意志。從硅谷到北京,大數(shù)據(jù)的話題傳播迅速。

1 大數(shù)據(jù)時代

隨著計(jì)算機(jī)技術(shù)全面融入社會生活,經(jīng)過半個多世紀(jì)的發(fā)展,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念。

1.1 大數(shù)據(jù)時代產(chǎn)生的背景

最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。”大規(guī)模生產(chǎn)、分享和應(yīng)用海量數(shù)據(jù)的時代之所以能夠開啟,源于信息科技的進(jìn)步、互聯(lián)網(wǎng)與云計(jì)算技術(shù)和物聯(lián)網(wǎng)的發(fā)展。

(1)信息科技的進(jìn)步。信息處理、信息存儲和信息傳遞是信息科技的三個主要支撐,存儲設(shè)備性價比不斷提升、網(wǎng)絡(luò)帶寬的持續(xù)增加,為大數(shù)據(jù)的存儲和傳播提供了物質(zhì)基礎(chǔ)。

(2)互聯(lián)網(wǎng)與云計(jì)算技術(shù)。互聯(lián)網(wǎng)時代,電子商務(wù)、社交網(wǎng)絡(luò)和移動通信產(chǎn)生了大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以云計(jì)算為基礎(chǔ)的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲下來,并隨時進(jìn)行分析與計(jì)算。互聯(lián)網(wǎng)領(lǐng)域的公司最早重視數(shù)據(jù)資產(chǎn)的價值,他們從大數(shù)據(jù)中淘金,并且引領(lǐng)著大數(shù)據(jù)的發(fā)展趨勢。

(3)物聯(lián)網(wǎng)的發(fā)展。眾所周知,物聯(lián)網(wǎng)時代所創(chuàng)造的數(shù)據(jù)不是互聯(lián)網(wǎng)時代所能比擬的,而且物聯(lián)網(wǎng)的數(shù)據(jù)是異構(gòu)的、多樣性的、非結(jié)構(gòu)和有噪聲的,最顯著的特點(diǎn)是是它的高增長率。大數(shù)據(jù)是物聯(lián)網(wǎng)中的關(guān)鍵技術(shù),物聯(lián)網(wǎng)對大數(shù)據(jù)技術(shù)的要求更高,它的發(fā)展離不開大數(shù)據(jù)。

1.2 大數(shù)據(jù)與數(shù)據(jù)挖掘

Google、Amazon、Facebook、Twitter,這些稱霸全球互聯(lián)網(wǎng)的企業(yè),它們的成功都具備一個共同的因素,就是收集分析海量的各種類型的數(shù)據(jù),并能夠快速獲取影響未來的信息的能力。“購買了此商品的顧客還購買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統(tǒng)了,而創(chuàng)造出這個系統(tǒng)的正是Amazon。Amazon 通過分析商品的購買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數(shù)據(jù),并與行為模式相似的其他用戶的歷史數(shù)據(jù)進(jìn)行對照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認(rèn)識這些人”的提示,這種提示可以準(zhǔn)確到令人恐怖的程度,而這正是對龐大的數(shù)據(jù)進(jìn)行分析而得到的結(jié)果。這種以數(shù)據(jù)分析為核心的技術(shù)就是數(shù)據(jù)挖掘(data mining)。

從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、復(fù)雜的、不規(guī)則的、隨機(jī)的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒有發(fā)覺的、有潛在價值的信息和知識的過程。從商業(yè)角度來說,數(shù)據(jù)挖掘是從龐大的數(shù)據(jù)庫中抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價值,從中獲取輔助商業(yè)決策的關(guān)鍵信息和有用知識。大數(shù)據(jù)概念的提出,將為數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用帶來一個很大的機(jī)遇。

2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中提取隱藏的預(yù)測性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據(jù)。

2.1 數(shù)據(jù)挖掘原理

數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Diseoveryin Databases,KDD),是一個從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并抽取隱含的、明顯未知的、具有潛在用處的信息的過程。數(shù)據(jù)挖掘一般流程主要包括三個階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評價。在數(shù)據(jù)挖掘的處理過程中,數(shù)據(jù)挖掘分析方法是最為關(guān)鍵的。

(1)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備是從海量數(shù)據(jù)源得到數(shù)據(jù)挖掘所用的數(shù)據(jù),將數(shù)據(jù)集成到一起的過程。由于數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的污染,即數(shù)據(jù)可能存在不一致,或有缺失數(shù)據(jù)、臟數(shù)據(jù)的存在,因此需通過數(shù)據(jù)整理,對數(shù)據(jù)進(jìn)行清洗及預(yù)處理。

(2)數(shù)據(jù)挖掘。是數(shù)據(jù)挖掘中最關(guān)鍵的一步,使用智能的方法提取數(shù)據(jù)模式,例如決策樹、分類和聚類、關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)等。首先決定要提取什么樣的模型,然后選取相應(yīng)的算法參數(shù),分析數(shù)據(jù)從而得到可能形成知識的模式模型。

(3)結(jié)果解釋和評價。數(shù)據(jù)挖掘后的結(jié)果需要轉(zhuǎn)換成用戶能夠理解的規(guī)則或模式,并根據(jù)其是否對決策問題具有實(shí)際意義進(jìn)行評價。

2.2 數(shù)據(jù)挖掘技術(shù)在營銷中的應(yīng)用

無差別的大眾媒體營銷已經(jīng)無法滿足零和的市場環(huán)境下的競爭要求。精準(zhǔn)營銷是企業(yè)現(xiàn)在及未來的發(fā)展方向,在精準(zhǔn)營銷領(lǐng)域,最常用的數(shù)據(jù)挖掘分析方法包括分類、聚類和關(guān)聯(lián)三類。

(1)關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,例如空間關(guān)聯(lián)挖掘出啤酒與尿布效應(yīng);時間關(guān)聯(lián)挖掘出孕嬰用品與家居裝修關(guān)系;時間關(guān)聯(lián)挖掘出調(diào)味品、紙巾與化妝品的消費(fèi)等。

此外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)也可用于序列模式發(fā)現(xiàn)。序列模式發(fā)現(xiàn)的側(cè)重點(diǎn)在于分析數(shù)據(jù)項(xiàng)集在時間上或序列上的前后(因果)規(guī)律,可以看作是一種特定的關(guān)聯(lián)規(guī)則。例如顧客在購買了打印機(jī)后在一段時間內(nèi)是否會購買墨盒。

(2)分類分析。分類是假定數(shù)據(jù)庫中的每個對象屬于一個預(yù)先給定的類,從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。它屬于預(yù)測性模型,例如在銀行業(yè),事先定義用戶的信用狀況分為兩類:信用好和信用壞,對于一個信用狀態(tài)未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構(gòu)建一個分類模型,決策樹方法著眼于從一組無次序、無規(guī)則的客戶數(shù)據(jù)庫中推理出決策樹表現(xiàn)形式的分類規(guī)則。決策樹的非葉子節(jié)點(diǎn)均是客戶的一些基本特征,葉子節(jié)點(diǎn)是客戶分類標(biāo)識,由根節(jié)點(diǎn)至上而下,到每個葉子節(jié)點(diǎn),就生成了一條規(guī)則,由該決策樹可以得到很多規(guī)則,構(gòu)成了一個規(guī)則集合,從而進(jìn)行數(shù)據(jù)分析。

(3)聚類分析。聚類是將物理或抽象對象的集合進(jìn)行分組,然后組成為由類似或相似的對象組成的多個分類的分析過程,其目的就是通過相似的方法來收集數(shù)據(jù)分類。為品牌找客戶,回答品牌“誰來賣”是精準(zhǔn)營銷首先要解決的問題,科學(xué)細(xì)分客戶是解決這一問題的有效手段。聚類可以將目標(biāo)客戶分成多個類,同一個類中的客戶有很大的相似性,表現(xiàn)在購買行為的高度一致,不同類間的客戶有很大的相異性,表現(xiàn)在購買行為的截然不同。

3 結(jié)語

大數(shù)據(jù)時代背景下“數(shù)據(jù)成為資產(chǎn)”,數(shù)據(jù)挖掘技術(shù)作為支撐精準(zhǔn)營銷的重要手段,將它應(yīng)用于營銷行業(yè)的決策中,不僅拓展了數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍,而且大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)獲得突破性回報(bào)。

參考文獻(xiàn)

[1]維克托?邁爾―舍恩伯格;肯尼思?庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.

[2]王偉玲.大數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略價值研究與思考.技術(shù)經(jīng)濟(jì)與管理研究[J],2015(1).

[3]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué)[J].中國軟科學(xué),2013(7):177-183.

篇2

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫集群技術(shù);分布集群

一、分布集群數(shù)據(jù)庫在大數(shù)據(jù)中的應(yīng)用

目前,許多數(shù)據(jù)增長率很高的大型數(shù)據(jù)庫系統(tǒng)正被用于改善全球人類活動,如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫已成為提高數(shù)據(jù)訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數(shù)據(jù)訪問,分布集群數(shù)據(jù)庫的問題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時間的最佳方法之一。基于規(guī)則的聚類是提供數(shù)據(jù)庫自動聚類和數(shù)據(jù)存儲模式解釋的解決方案之一,基于規(guī)則的集群通過分析屬性和記錄上的數(shù)據(jù)庫結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個集群,每個規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫是一種有向圖結(jié)構(gòu)的進(jìn)化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點(diǎn)的可重用性,而節(jié)點(diǎn)本身就是圖形結(jié)構(gòu)的功能。為了實(shí)現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫可以通過分析記錄來處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫的圖形結(jié)構(gòu)由三種節(jié)點(diǎn)組成:起始節(jié)點(diǎn)、判斷節(jié)點(diǎn)和處理節(jié)點(diǎn)。開始節(jié)點(diǎn)表示節(jié)點(diǎn)轉(zhuǎn)換的開始位置;判斷節(jié)點(diǎn)表示要在數(shù)據(jù)庫中檢查的屬性。分布集群數(shù)據(jù)庫規(guī)則提取的節(jié)點(diǎn)準(zhǔn)備包括兩個階段:節(jié)點(diǎn)定義和節(jié)點(diǎn)排列。節(jié)點(diǎn)定義的目的是準(zhǔn)備創(chuàng)建規(guī)則,節(jié)點(diǎn)排列是選擇重要的節(jié)點(diǎn),以便高效地提取大量規(guī)則。節(jié)點(diǎn)排列由以下兩個順序過程執(zhí)行,第一個過程是查找模板規(guī)則,第二個過程是結(jié)合第一個過程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過程中,分布集群數(shù)據(jù)庫規(guī)則提取中只使用了少數(shù)幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規(guī)則的方法相比,該節(jié)點(diǎn)排列方法具有更好的聚類結(jié)果,這兩個過程中的規(guī)則生成都是通過圖結(jié)構(gòu)的演化來實(shí)現(xiàn)。

二、在線規(guī)則更新系統(tǒng)的應(yīng)用

在線規(guī)則更新系統(tǒng)用于通過分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應(yīng)用中,每個節(jié)點(diǎn)都有自己的節(jié)點(diǎn)號,描述每個節(jié)點(diǎn)號的節(jié)點(diǎn)信息。程序大小取決于節(jié)點(diǎn)的數(shù)量,這會影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點(diǎn)表示根據(jù)連接順序執(zhí)行的判斷節(jié)點(diǎn)序列的起始點(diǎn),開始節(jié)點(diǎn)的多個位置將允許一個人提取各種規(guī)則。判斷節(jié)點(diǎn)表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié),從每個起始節(jié)點(diǎn)開始的節(jié)點(diǎn)序列用虛線a、b和c表示,節(jié)點(diǎn)序列流動,直到支持判斷節(jié)點(diǎn)的下一個組合不滿足閾值。在節(jié)點(diǎn)序列中,如果具有已出現(xiàn)在上一個節(jié)點(diǎn)序列,將跳過這些節(jié)點(diǎn)。在更新每個集群中的規(guī)則時,重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過程確定。當(dāng)計(jì)算集群中每個屬性和數(shù)據(jù)之間的輪廓值時,閾值設(shè)置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過程中的判斷節(jié)點(diǎn)的屬性選擇。一些數(shù)據(jù)的庫存值和權(quán)重值低于0.85,因此這些值不包括在國民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點(diǎn),進(jìn)而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中,完成主要的規(guī)則提取過程,這是一個標(biāo)準(zhǔn)的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過程,對初始數(shù)據(jù)集進(jìn)行初始集群;改善規(guī)則更新過程,僅對輪廓值低于閾值的數(shù)據(jù)執(zhí)行。

三、大規(guī)模并行處理技術(shù)的應(yīng)用

大規(guī)模并行處理技術(shù)主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數(shù)據(jù)應(yīng)用中,會產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計(jì)算中,應(yīng)該結(jié)合編程技術(shù),標(biāo)準(zhǔn)語言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個良好的優(yōu)化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務(wù),可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語言可以獲得比在C/C++中翻譯的應(yīng)用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語言(如C/C++)一起工作。大數(shù)據(jù)應(yīng)用環(huán)節(jié),在數(shù)據(jù)分類和計(jì)算中,當(dāng)兩個計(jì)算操作在不同的操作單元上執(zhí)行時,才能在一個dsp核心的vliw命令中并行執(zhí)行兩個計(jì)算操作。根據(jù)運(yùn)算執(zhí)行單元的不同,計(jì)算運(yùn)算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執(zhí)行兩個操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標(biāo)記“1”表示第一種類型的標(biāo)識,標(biāo)記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數(shù)據(jù)依賴關(guān)系,則可以進(jìn)行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數(shù)據(jù)計(jì)算和分析中,如果有足夠多的通用寄存器來執(zhí)行這兩個操作,并且它們可以并行執(zhí)行,代碼就會并行化,提升數(shù)據(jù)計(jì)算的效率。

篇3

關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 方法

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2015)04-0222-01

1 大數(shù)據(jù)時代數(shù)據(jù)挖掘的重要性

隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的快速發(fā)展,以及智能終端、網(wǎng)絡(luò)社會、數(shù)字地球等信息體的普及和建設(shè),全球數(shù)據(jù)量出現(xiàn)爆炸式增長,僅在2011年就達(dá)到1.8萬億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)中心)預(yù)計(jì),到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時代已經(jīng)到來。一方面,云計(jì)算為這些海量的、多樣化的數(shù)據(jù)提供存儲和運(yùn)算平臺,同時數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律和趨勢,為決策提供信息參考。

如果運(yùn)用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設(shè)就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬計(jì),儲戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。

數(shù)據(jù)挖掘是借助IT手段對經(jīng)營決策產(chǎn)生決定性影響的一種管理手段。從定義上來看,數(shù)據(jù)挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機(jī)的數(shù)據(jù)集中識別有效的、可實(shí)用的信息,并運(yùn)用這些信息做出決策。

2 數(shù)據(jù)挖掘的分類

數(shù)據(jù)挖掘技術(shù)從開始的單一門類的知識逐漸發(fā)展成為一門綜合性的多學(xué)科知識,并由此產(chǎn)生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實(shí)際需要,現(xiàn)對數(shù)據(jù)挖掘技術(shù)進(jìn)行如下幾種分類:

2.1 按挖掘的數(shù)據(jù)庫類型分類

利用數(shù)據(jù)庫對數(shù)據(jù)分類成為可能是因?yàn)閿?shù)據(jù)庫在對數(shù)據(jù)儲存時就可以對數(shù)據(jù)按照其類型、模型以及應(yīng)用場景的不同來進(jìn)行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術(shù)時也會有滿足自身的方法。對數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來分類,另一種是根據(jù)其類型來分類,前者包括關(guān)系型、對象-關(guān)系型以及事務(wù)型和數(shù)據(jù)倉庫型等,后者包括時間型、空間型和Web 型的數(shù)據(jù)挖掘方法。

2.2 按挖掘的知識類型分類

這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來實(shí)施的,其中包括多種分析的方式,例如相關(guān)性、預(yù)測及離群點(diǎn)分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來對其進(jìn)行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來分類時可以將數(shù)據(jù)分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數(shù)據(jù)挖掘可以實(shí)現(xiàn)對多個抽象層數(shù)據(jù)的挖掘,找到其有價值的知識。同時,在對數(shù)據(jù)挖掘進(jìn)行分類時還可以根據(jù)其表現(xiàn)出來的模式及規(guī)則性和是否檢測出噪聲來分類,一般來說,數(shù)據(jù)的規(guī)則性可以通過多種不同的方法挖掘,例如相關(guān)性和關(guān)聯(lián)分析以及通過對其概念描述和聚類分類、預(yù)測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。

2.3 按所用的技術(shù)類型分類

數(shù)據(jù)挖掘的時候采用的技術(shù)手段千變?nèi)f化,例如可以采用面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的技術(shù)以及神經(jīng)網(wǎng)絡(luò)及其可視化等技術(shù)手段,同時用戶在對數(shù)據(jù)進(jìn)行分析時也會使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等等。一般情況下,一個龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術(shù)和方法的綜合性系統(tǒng)。

2.4 按應(yīng)用分類

根據(jù)數(shù)據(jù)挖掘的應(yīng)用的領(lǐng)域來進(jìn)行分類,包括財(cái)經(jīng)行業(yè)、交通運(yùn)輸業(yè)、網(wǎng)絡(luò)通信業(yè)、生物醫(yī)學(xué)領(lǐng)域如DNA等,在這些行業(yè)或領(lǐng)域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對于特定的應(yīng)用場景,此時就可能需要與之相應(yīng)的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術(shù)可以在所有的行業(yè)中都能使用的技術(shù),每種數(shù)據(jù)挖掘技術(shù)都有自身的專用性。

3 數(shù)據(jù)挖掘中常用的方法

目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經(jīng)網(wǎng)絡(luò)算法。以下對這四種算法進(jìn)行一一解釋說明。

遺傳算法:該算法依據(jù)生物學(xué)領(lǐng)域的自然選擇規(guī)律以及遺傳的機(jī)理發(fā)展而來,是一種隨機(jī)搜索的算法,利用仿生學(xué)的原理來對數(shù)據(jù)知識進(jìn)行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結(jié)合等優(yōu)點(diǎn)從而在數(shù)據(jù)挖掘中得到了應(yīng)用。

決策樹算法:在對模型的預(yù)測中,該算法具有很強(qiáng)的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進(jìn)行分類,從而對有潛在價值的信息進(jìn)行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進(jìn)行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應(yīng)用性很強(qiáng)。

粗糙集算法:這個算法將知識的理解視為對數(shù)據(jù)的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準(zhǔn)確的知識進(jìn)行類別同時進(jìn)行類別刻畫。

神經(jīng)網(wǎng)絡(luò)算法:在對模型的預(yù)測中,該算法具有很強(qiáng)的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進(jìn)行分類,從而對有潛在價值的信息進(jìn)行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進(jìn)行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應(yīng)用性很強(qiáng)。光纜監(jiān)測及其故障診斷系統(tǒng)對于保證通信的順利至關(guān)重要,同時這種技術(shù)方法也是順應(yīng)當(dāng)今時代的潮流必須推廣使用的方法。同時,該診斷技術(shù)為通信管網(wǎng)和日常通信提供了可靠的技術(shù)支持和可靠的后期保證。

參考文獻(xiàn)

[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(01):146-169.

篇4

現(xiàn)狀

“檢察大數(shù)據(jù)”的概念厘定

“大數(shù)據(jù)”的生產(chǎn)與運(yùn)用是一個“人人為我,我為人人”的互通、共享、多贏過程。檢察機(jī)關(guān)在整合應(yīng)用其他政府機(jī)構(gòu)、企事業(yè)單位、社會組織提供的信息數(shù)據(jù)服務(wù)司法辦案的同時,也在辦案中生產(chǎn)“大數(shù)據(jù)”。這些數(shù)據(jù)既可作為檢察機(jī)關(guān)校準(zhǔn)后續(xù)辦案的內(nèi)部參照系,同時部分?jǐn)?shù)據(jù)亦可對外輸出服務(wù)社會。前者如在刑事檢察中整合同類案件形成案例數(shù)據(jù)庫,用以提升公訴量刑精準(zhǔn)度,后者以當(dāng)前檢察機(jī)關(guān)向社會公眾提供的行賄犯罪檔案查詢服務(wù)最為典型。顯然作為數(shù)據(jù)運(yùn)用者,檢察機(jī)關(guān)“大數(shù)據(jù)”包括檢察工作所涉及的一切有用信息數(shù)據(jù)。其中,相當(dāng)一部分?jǐn)?shù)據(jù)并非檢察機(jī)關(guān)在司法辦案中產(chǎn)出的“原生”數(shù)據(jù)。如職務(wù)犯罪偵查辦案中反貪部門調(diào)用房產(chǎn)、銀行、公安行政機(jī)關(guān)的信息數(shù)據(jù)庫進(jìn)行初查;相關(guān)業(yè)務(wù)部門在審查、出庭公訴、訴訟監(jiān)督、參與社會治理等方面運(yùn)用信息化、數(shù)字化新技術(shù)等。

“檢察大數(shù)據(jù)”與上述檢察機(jī)關(guān)運(yùn)用的“大數(shù)據(jù)”有本質(zhì)區(qū)別。“檢察大數(shù)據(jù)”專指檢察機(jī)關(guān)司法辦案大數(shù)據(jù),是檢察機(jī)關(guān)在司法辦案中的“原生”案件信息數(shù)據(jù),其最核心的特征是相關(guān)數(shù)據(jù)是關(guān)于檢察業(yè)務(wù)辦案的信息數(shù)據(jù)。目前,在檢察司法辦案大數(shù)據(jù)的擷取、管理、應(yīng)用方面,最高人民檢察院推進(jìn)的“統(tǒng)一業(yè)務(wù)應(yīng)用系統(tǒng)”是國家層面“檢察大數(shù)據(jù)”生成的最重要平臺;同時各地檢察機(jī)關(guān)亦多有創(chuàng)新,如北京市人民檢察院開發(fā)應(yīng)用的“檢立方”系統(tǒng)、上海市閔行區(qū)人民檢察院試運(yùn)行的“檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)”、浦東新區(qū)人民檢察院試運(yùn)行的“綜合管理信息平臺一期”、湖北省人民檢察院研發(fā)的“互聯(lián)網(wǎng)檢務(wù)辦公室”,南京市鼓樓區(qū)人民檢察院研發(fā)的辦公辦案軟件“移動檢務(wù)通”等。上述系統(tǒng)平臺通過案件管理部門案件受理信息輸入及辦案人員在辦案過程中的流程信息輸入,生成、存儲、管理與檢察機(jī)關(guān)司法辦案相關(guān)的各項(xiàng)信息數(shù)據(jù),并通過對大數(shù)據(jù)不同子系統(tǒng)數(shù)據(jù)的深度分析,進(jìn)而服務(wù)領(lǐng)導(dǎo)決策與司法辦案。

當(dāng)前檢察工作中的大數(shù)據(jù)運(yùn)用

無論是檢察機(jī)關(guān)的“原生”大數(shù)據(jù),還是第三方生成的關(guān)聯(lián)大數(shù)據(jù),在當(dāng)前的檢察辦案與司法管理工作中都有著極為廣闊的應(yīng)用前景。作為檢察機(jī)關(guān)大數(shù)據(jù)的核心內(nèi)容,“原生”大數(shù)據(jù)即“檢察大數(shù)據(jù)”,在輔助檢察辦案、服務(wù)司法管理中發(fā)揮著極為重要的作用。

在“檢察大數(shù)據(jù)”輔助檢察辦案方面,目前較為典型的如貴州省人民檢察機(jī)關(guān)的“大數(shù)據(jù)司法辦案輔助系統(tǒng)”。司法辦案輔助系統(tǒng)運(yùn)用“實(shí)體識別”“數(shù)學(xué)建模”等大數(shù)據(jù)技術(shù),通過繪制“犯罪構(gòu)成知識”圖譜,建立各罪名案件數(shù)學(xué)模型的司法辦案輔助系統(tǒng),為辦案提供案件信息智能采集、“要素―證據(jù)”智能關(guān)聯(lián)和風(fēng)險預(yù)警、證據(jù)材料甄別,以及類案推送、量刑建議計(jì)算等智能化服務(wù)。目前,貴州省人民檢察機(jī)關(guān)的大數(shù)據(jù)司法辦案輔助系統(tǒng)已進(jìn)行了三次迭代升級,正在貴州全省4個市(州)院和31個基層院試點(diǎn)運(yùn)行。

在“檢察大數(shù)據(jù)”服務(wù)司法管理方面,上海市閔行區(qū)人民檢察院的檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)非常具有代表性。該院通過對各職能部門受理、立案(項(xiàng))、辦理的案件以及不依附于自偵、批捕、等主要辦案業(yè)務(wù)的,有完整流程、審查結(jié)論及相關(guān)法律文書的訴訟監(jiān)督、社會治理、維護(hù)穩(wěn)定、預(yù)防犯罪等檢察業(yè)務(wù)進(jìn)行梳理,對檢察建議、糾正違法等共性的檢察業(yè)務(wù)指標(biāo)進(jìn)行歸并,形成了較為規(guī)范的檢察機(jī)關(guān)司法辦案大數(shù)據(jù)目錄和工作指標(biāo)w系。通過對檢察官在執(zhí)法辦案中產(chǎn)生的“原生”大數(shù)據(jù)的深度挖掘和研判分析,將案件統(tǒng)計(jì)、質(zhì)量監(jiān)控、專題研判、績效分析有機(jī)融為一體,進(jìn)而使辦案監(jiān)督管理者能夠及時準(zhǔn)確找出檢察官在辦案中存在的司法不規(guī)范問題,有效強(qiáng)化對司法辦案的績效考評與內(nèi)部監(jiān)控。

除了重視對“原生”大數(shù)據(jù)的收集整理與挖掘應(yīng)用,如何發(fā)揮好“他山之石”的作用,在檢察辦案中運(yùn)用好第三方關(guān)聯(lián)大數(shù)據(jù),也是大數(shù)據(jù)技術(shù)與檢察辦案深度融合的重要內(nèi)容。除了上述在職務(wù)犯罪案件偵查中對房產(chǎn)、銀行、公安行政機(jī)關(guān)等提供的關(guān)聯(lián)數(shù)據(jù)的常規(guī)運(yùn)用外,當(dāng)前一些地方檢察機(jī)關(guān)正在進(jìn)行創(chuàng)新運(yùn)用第三方大數(shù)據(jù)方面的積極探索。如江蘇省無錫市錫山區(qū)人民檢察院對接社會治理公共服務(wù)管理平臺和民情APP,推出檢察民情APP的創(chuàng)新做法。自對接平臺以來,錫山區(qū)人民檢察院已查閱近6000條民情信息,從海量數(shù)據(jù)中了解掌握群眾訴求,立足檢察職能,從中發(fā)現(xiàn)老百姓對征地拆遷、環(huán)境保護(hù)、社會保障等方面的民生需求,聚焦群眾關(guān)注的熱點(diǎn)民生問題深入挖掘職務(wù)犯罪案件線索、訴訟監(jiān)督線索、執(zhí)行監(jiān)督線索及公益訴訟線索,使第三方大數(shù)據(jù)真正成為輔助檢察辦案,拓展監(jiān)督案源的新渠道。

短板

檢察大數(shù)據(jù)系統(tǒng)的提升點(diǎn)

目前,檢察大數(shù)據(jù)系統(tǒng)在建設(shè)與應(yīng)用方面存在的主要問題:

篇5

“大數(shù)據(jù)時代的預(yù)言家”維克托近日在北京面對一萬多名技術(shù)信徒再次預(yù)言。

顯然,這三大經(jīng)典的技術(shù)信條在大數(shù)據(jù)時代面臨動搖,

技術(shù)信徒的思維模式也即將發(fā)生顛覆。

那么,大數(shù)據(jù)對技術(shù)信徒意味著什么?

他們又將如何面對這一顛覆性的變革?

“技術(shù)匯成一條大河,一波推動另外一波。”IBM中國開發(fā)中心首席技術(shù)官兼新技術(shù)研發(fā)中心總經(jīng)理毛新生帶著對技術(shù)的滿腔癡迷這樣形容道。

一波未平一波又起,移動、社交商務(wù)、云計(jì)算、大數(shù)據(jù)等先后涌現(xiàn)的新趨勢正在融合成一股巨大的潮流,將所有的行業(yè)IT化,進(jìn)而推動商業(yè)和社會的演進(jìn)。這也就意味著“科技是第一生產(chǎn)力”在當(dāng)下有了更深層次的涵義——“IBM認(rèn)為,在由新一代技術(shù)組成的智慧運(yùn)算時代,中國的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運(yùn)用到自身的變革轉(zhuǎn)型之中。” IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠為企業(yè)新發(fā)展出謀獻(xiàn)策。

由2012年的“軟件技術(shù)峰會”改名為2013年的“技術(shù)峰會”,在這么一個盛會上,IBM試圖展示的內(nèi)容涵蓋范圍更為廣泛——移動應(yīng)用、大數(shù)據(jù)、云計(jì)算、DevOps軟件持續(xù)交付、應(yīng)用整合、社交商務(wù)、專家集成系統(tǒng)等熱議話題,上百場技術(shù)主題演講、28場分論壇、22場動手實(shí)驗(yàn)室和80個未來產(chǎn)品的現(xiàn)場演示,再加上被譽(yù)為“大數(shù)據(jù)時代的預(yù)言家”的《大數(shù)據(jù)時代》作者維克托·邁爾-舍恩伯格以及數(shù)十位來自IBM的院士、杰出工程師、相關(guān)領(lǐng)域的全球首席技術(shù)官和首席架構(gòu)師的現(xiàn)場分享,IBM 2013技術(shù)峰會再次成為技術(shù)精英們關(guān)注的焦點(diǎn)。 大數(shù)據(jù)的新信條

《大數(shù)據(jù)時代》作者、牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯格的出現(xiàn)著實(shí)讓場內(nèi)數(shù)以萬計(jì)的技術(shù)信徒激動了一把。作為深刻洞察大數(shù)據(jù)給人類生活、工作和思維帶來的大變革的第一人,維克托以價格預(yù)測網(wǎng)站的例子作為開場白,論證了大數(shù)據(jù)已經(jīng)悄然在大眾的身邊出現(xiàn)并給他們的生活帶來改變。

“全體性、混雜性和相關(guān)性是大數(shù)據(jù)的三個主要特點(diǎn),而且這三個特點(diǎn)是互相加強(qiáng)的。”維克托歸納出了大數(shù)據(jù)對應(yīng)的思維變革。收集和分析更多的數(shù)據(jù)才能獲取足夠的數(shù)據(jù)隱含的細(xì)節(jié),這些細(xì)節(jié)恰恰是隨機(jī)抽樣所錯失的。“干凈”的、高質(zhì)量的數(shù)據(jù)不再是標(biāo)的,大數(shù)據(jù)需要我們摒棄對宏觀上精確性的追求,轉(zhuǎn)而獲得微觀上的準(zhǔn)確性,即接受混雜的數(shù)據(jù)。最重要的是,人們不再沉迷于追尋數(shù)據(jù)之間的因果關(guān)系,即不再糾結(jié)于為什么,而是直接獲得“是什么”的答案,并通過應(yīng)用相關(guān)關(guān)系,更好地捕捉現(xiàn)在和預(yù)測未來——抽樣因錯失細(xì)節(jié)得不償失,盲目追求精確性已經(jīng)過時,執(zhí)著于因果關(guān)系喪失機(jī)遇。

如何在大數(shù)據(jù)時代生存?維克托指出了兩個關(guān)鍵點(diǎn):一是意識到技術(shù)或者規(guī)模并不是成功的充分條件。遺忘規(guī)模經(jīng)濟(jì),因?yàn)樗男б鏁饾u淡化。20年前,一個公司只有擁有上十萬臺的服務(wù)器才能提供搜索服務(wù),但在大數(shù)據(jù)時代,由于云計(jì)算的便利性,不擁有實(shí)體服務(wù)器的公司,如前文提到的,它只有30個員工,但它有能力為其上10億的用戶提供數(shù)據(jù)分析。二是為了在大數(shù)據(jù)時代獲得勝利,大數(shù)據(jù)的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍(lán)色被谷歌選為搜索窗口的色彩,但藍(lán)色實(shí)際上有51種,而且這51種藍(lán)色人依靠裸眼無法明確區(qū)分,卻能在心理層面給人帶來不同的感受。經(jīng)過大數(shù)據(jù)分析,谷歌發(fā)現(xiàn)原本由人工選出來的藍(lán)色會導(dǎo)致谷歌損失200億~300億美元的收入,因?yàn)檫@一種藍(lán)色并不最具備誘惑力,無法激起人們點(diǎn)擊的欲望。

大數(shù)據(jù)的力量需要具備大數(shù)據(jù)的思維模式,并有效利用大數(shù)據(jù)的工具去發(fā)掘。IBM杰出工程師、InfoSphere Stream高級開發(fā)經(jīng)理James R Giles闡述了IBM對大數(shù)據(jù)的看法:“我們正一步步走到了一個新紀(jì)元——大數(shù)據(jù)時代。如同對待自然資源一樣,我們需要開掘、轉(zhuǎn)變、銷售、保護(hù)大數(shù)據(jù)資源;不同的是,大數(shù)據(jù)資源是無窮無盡的,我們不能任由大數(shù)據(jù)淹沒自己,而應(yīng)該在獲得洞察需求的驅(qū)使下獲得價值。”

大數(shù)據(jù)的類型廣義而言有移動數(shù)據(jù)和靜態(tài)數(shù)據(jù),還有結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù),這對應(yīng)著不同的處理方式。“技術(shù)人員的責(zé)任是,能夠去管理這些數(shù)據(jù),能夠理解這些從不同的數(shù)據(jù)源而來、不同類型的數(shù)據(jù),能夠分析這些數(shù)據(jù),得出結(jié)論,讓其提供決策支持,為企業(yè)擁抱新的大數(shù)據(jù)時代提供技術(shù)支撐,以保證管理、安全、商業(yè)的持續(xù)性。” James R Giles號召技術(shù)人員積極行動,以大數(shù)據(jù)的思維模式展現(xiàn)技術(shù)的價值和魅力。

找到內(nèi)在聯(lián)系

技術(shù)的趨勢總是融合,也只有有機(jī)融合才能形成合力,發(fā)揮更大的威力,而實(shí)現(xiàn)這一合力的前提是明確各個趨勢之間的內(nèi)在聯(lián)系。

“實(shí)際上,社交商務(wù)、移動、大數(shù)據(jù)、云計(jì)算是一體化的。”毛新生建議技術(shù)人員用一個全面的、融合的范式來沉著看待和應(yīng)對紛繁的熱點(diǎn)技術(shù),理解這些熱點(diǎn)會如何影響整個IT的走向,進(jìn)而明晰IT如何可以很好地支持各行各業(yè)的業(yè)務(wù)轉(zhuǎn)型和創(chuàng)新,“讓每個行業(yè)都可以從新的技術(shù)轉(zhuǎn)型當(dāng)中獲得足夠的原動力”。

從貼近最終用戶的角度來看,移動技術(shù)、社交技術(shù)改變了商業(yè)機(jī)構(gòu)與其雇員、客戶進(jìn)行互動的方式。“就我個人的經(jīng)歷而言,航空公司的移動應(yīng)用可以提供更好的客戶交互。我是西北航空公司的粉絲,因?yàn)樗业囊苿討?yīng)用服務(wù)很貼心,比如查詢航班信息、根據(jù)我的喜好預(yù)留位置、定制化地進(jìn)行社交推薦等。”毛新生以一個普通消費(fèi)者的感受證明了企業(yè)通過移動應(yīng)用收集并利用用戶行為數(shù)據(jù)所帶來的服務(wù)質(zhì)量的提升。

移動催生了“一種嶄新的服務(wù)交付端點(diǎn)”,即為用戶提供了更多樣化的服務(wù)體驗(yàn)點(diǎn),讓用戶隨時隨地可以利用碎片化的時間去獲得業(yè)務(wù)服務(wù),也為企業(yè)帶來了全新的服務(wù)交付渠道。移動這個渠道提供了更為豐富的全樣性數(shù)據(jù),在此基礎(chǔ)上,大數(shù)據(jù)分析就更可信。“移動所具備的碎片化特點(diǎn)會帶來更大量的用戶行為信息。當(dāng)把所有的人的行為結(jié)合在一起,就可以做群體的社會性分析。社會性分析會得到比較準(zhǔn)確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機(jī)會。”毛新生認(rèn)為移動與大數(shù)據(jù)結(jié)合給企業(yè)提供了新的商業(yè)機(jī)會。

移動的設(shè)備無處不在。人、汽車,甚至建筑物、道路、橋梁,它們無時無刻不在提供數(shù)據(jù),這就是新的數(shù)據(jù)源,是它們引領(lǐng)我們來到維克托所描述的更為廣闊的大數(shù)據(jù)世界。

移動和社交商務(wù)的便捷性使得企業(yè)的整個業(yè)務(wù)流程變得非常自動化,用戶可以享受自助服務(wù),對應(yīng)到企業(yè)端就意味著業(yè)務(wù)流程對前端的需求要反應(yīng)得更為迅速,也意味著各個業(yè)務(wù)系統(tǒng)之間無縫連接,否則沒有辦法支撐以最終用戶為中心的服務(wù)體驗(yàn),但跨部門和跨應(yīng)用的整合實(shí)屬不易。進(jìn)一步延伸開來,對用戶體驗(yàn)的追求是無止境的,合作伙伴的API和服務(wù)可以作為補(bǔ)充,這即是“跨企業(yè)邊界”的行為。這種行為必然導(dǎo)致大規(guī)模的用戶訪問。這些整合和外部拓展都需要云計(jì)算提供靈活有效的基礎(chǔ)。沒有云計(jì)算,移動前端的體驗(yàn)、大數(shù)據(jù)分析的效果都會大打折扣。“云的基礎(chǔ)設(shè)施使大規(guī)模互動、大規(guī)模數(shù)據(jù)處理、大規(guī)模應(yīng)用可以更好地服務(wù)我們。”毛新生指出。

環(huán)境變化加速,競爭更加激烈,要求企業(yè)的反應(yīng)速度越來越快,應(yīng)用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應(yīng)用和業(yè)務(wù)流程的設(shè)計(jì)、開發(fā)、部署、測試、維護(hù)的整個過程要大大加快,也就是所謂的DevOps。只有把敏捷的開發(fā)和運(yùn)維結(jié)合起來,生命周期變得以天為周期,才能響應(yīng)新的商業(yè)環(huán)境。”

“移動、云計(jì)算、大數(shù)據(jù)、社交商務(wù)之間的緊密聯(lián)系讓我們應(yīng)該以整體的眼光來審視它們。”胡世忠堅(jiān)信,它們的組合可以創(chuàng)造可持續(xù)的競爭優(yōu)勢,可以迸發(fā)變革的力量。

至于一個企業(yè)應(yīng)該從哪里下手來實(shí)現(xiàn)這一幅宏偉藍(lán)圖?毛新生給出的答案是:“每一個企業(yè),因?yàn)樗幍男袠I(yè)或者特定的情況而擁有不同的切入點(diǎn),有一些企業(yè)需要從移動開始,有一些企業(yè)需要從云計(jì)算開始,有一些企業(yè)需要從大數(shù)據(jù)開始,但是它們是不可分割的整體,只有綜合地運(yùn)用它們,找到適合自己的切入點(diǎn),一步一步腳踏實(shí)地,才能掌握先機(jī),打造競爭力。在這個過程中,要擁有正確的思維,改變既有思維,理解趨勢,制定策略。”

例如,銀行、保險、零售業(yè)這一類和最終消費(fèi)者打交道的服務(wù)業(yè)在很大概率上需要先從移動、社交商務(wù)入手,從而使其有機(jī)會改善和用戶交互的過程。而以數(shù)據(jù)為生的行業(yè)會琢磨如何將自己的內(nèi)容和資源數(shù)據(jù)增值,而傳統(tǒng)的運(yùn)營基礎(chǔ)設(shè)施的重資產(chǎn)企業(yè),會追求將資產(chǎn)數(shù)字化,得到數(shù)據(jù)并進(jìn)行分析,以優(yōu)化資產(chǎn)的生命周期管理來預(yù)防性地降低維護(hù)成本,這些企業(yè)是以大數(shù)據(jù)作為切入點(diǎn)的。還有一些企業(yè)希望跨行業(yè)整合進(jìn)行業(yè)務(wù)創(chuàng)新,背后牽扯到它們自身現(xiàn)有的業(yè)務(wù)模式和新業(yè)務(wù)模式的整合,這種情況下需要以云的方式構(gòu)建新的應(yīng)用、服務(wù)、商業(yè)流程。

毛新生認(rèn)為切入點(diǎn)不同只是表象,每一種場景到最后都是綜合性的運(yùn)用,要把這幾個技術(shù)綜合運(yùn)用起來。從前端開始,首先是利用移動,并借助社交渠道交流,很快這些渠道會得到新的數(shù)據(jù),這些新的數(shù)據(jù)和原有的交易數(shù)據(jù)和積累的數(shù)據(jù)結(jié)合起來做進(jìn)一步的數(shù)據(jù)分析,這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析以后可以做社交推薦、關(guān)聯(lián)推薦了。隨后,能不能跨界再實(shí)現(xiàn)更廣泛的銷售?跟別的價值鏈上的合作伙伴合作,那么引入云是解決之道。數(shù)據(jù)量增大,用戶數(shù)增多,云的基礎(chǔ)設(shè)施可以讓成本更合理。“所以說,到最后都是綜合性的應(yīng)用,盡管起點(diǎn)不一樣”,毛新生說。

對技術(shù)人員而言,IT就是交付業(yè)務(wù)流程的基礎(chǔ),是信息化的工具。它的目標(biāo)無非是優(yōu)化業(yè)務(wù)流程或者創(chuàng)新業(yè)務(wù)流程。創(chuàng)新到達(dá)一定程度后,業(yè)務(wù)流程的量變會導(dǎo)致質(zhì)變。“這就解釋了為何全球越來越多的CEO將技術(shù)視為驅(qū)動企業(yè)發(fā)展的首要因素。” IBM軟件集團(tuán)大中華區(qū)中間件集團(tuán)總經(jīng)理李紅焰強(qiáng)調(diào),技術(shù)人員有能力,也有責(zé)任將“看不見的技術(shù)轉(zhuǎn)變?yōu)榭吹靡姷南硎堋薄?/p>

移動開發(fā)的轉(zhuǎn)變

在大數(shù)據(jù)的帶領(lǐng)下我們進(jìn)入移動時代,企業(yè)有了新機(jī)遇,技術(shù)人員卻有了新挑戰(zhàn)。為什么移動開發(fā)和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術(shù)人員腦子里最主要的兩個問題。

IBM杰出工程師及IBM移動平臺首席架構(gòu)師Greg Truty解答了這兩個疑問。他認(rèn)為,很多企業(yè)現(xiàn)在所做的事情與在移動的狀態(tài)下做的事情是不一樣的,移動狀態(tài)下的任務(wù)和規(guī)劃更具有戰(zhàn)略性。移動應(yīng)用是在不穩(wěn)定的網(wǎng)絡(luò)上運(yùn)行的,所占用的資源更少。用戶在移動設(shè)備上和非移動設(shè)備上的體驗(yàn)是完全不一樣的,他們會希望在不穩(wěn)定的網(wǎng)絡(luò)上仍然能夠獲得良好的體驗(yàn)。企業(yè)現(xiàn)在需要思考的是,怎么樣把大量數(shù)據(jù)、大量體驗(yàn)變成一些有意義的體驗(yàn)。同時,移動管理的需求也不一樣了,開發(fā)的特性也不一樣了。比如對一個企業(yè)來說,移動開發(fā)周期更短,有更多設(shè)備需要支持,有更多開發(fā)方法可供選擇,也有更多的工具和庫可供選擇,這時候企業(yè)就需要仔細(xì)斟酌,哪些開發(fā)方法和工具是自己需要的。

自然而然,對于設(shè)備的管理也有了變化,因?yàn)閼?yīng)用變化了。“一直以來,客戶端服務(wù)器的應(yīng)用架構(gòu)是企業(yè)在使用的。你需要協(xié)調(diào)在服務(wù)器端的服務(wù)以及在客戶端的服務(wù),挑戰(zhàn)非常大。你不可能強(qiáng)迫客戶運(yùn)行你的應(yīng)用,而必須能協(xié)調(diào)和兼容原有的系統(tǒng)。這是非常關(guān)鍵的一點(diǎn)。” Greg Truty強(qiáng)調(diào)了設(shè)備管理的重要性。

此外,產(chǎn)品種類也非常多,新應(yīng)用層出不窮。Greg Truty 認(rèn)為多而新的局面下更需要冷靜處理:“我們會把應(yīng)用和數(shù)據(jù)結(jié)合起來,移動和社交網(wǎng)絡(luò)結(jié)合起來,這樣做會創(chuàng)造一些新的得到數(shù)據(jù)的機(jī)會,需要進(jìn)行管理。新的機(jī)會、新的技術(shù),給整個IT組織帶來了更多的挑戰(zhàn)。”

篇6

關(guān)鍵詞:大數(shù)據(jù) Hadoop Spark Spark 流

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2015)09-0000-00

大數(shù)據(jù)遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),它以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價值的產(chǎn)品和服務(wù)[1]。然而面對龐大的數(shù)據(jù)來獲得有價值的信息是一個巨大的挑戰(zhàn)。為了克服上述困難,近幾年來推出了Hadoop、PureData和Exadata等多種大數(shù)據(jù)系統(tǒng)分析平臺,以Hadoop平臺最為突出,深受用戶的歡迎。但是隨著應(yīng)用的不斷深入,Hadoop暴露出了它的局限性。主要體現(xiàn)在以下幾方面:第一,操作過于單一,僅支持Map和Reduce兩種操作;第二,迭代計(jì)算效率較低,尤其在機(jī)器學(xué)習(xí)和圖形計(jì)算方面[2]。 2013年底由Apache 軟件基金會提出的Spark框架技術(shù)較好地解決了這些問題。

1 Spark技術(shù)架構(gòu)

1.1 Spark設(shè)計(jì)思想

Spark是一種基于HDFS的并行計(jì)算架構(gòu)。主要思想是通過一種新的作業(yè)和數(shù)據(jù)容錯方式來減少磁盤和網(wǎng)絡(luò)的I/O開銷 其核心技術(shù)是彈性分布式數(shù)據(jù)集(RDD),是指在一組存儲計(jì)算機(jī)中的只讀數(shù)據(jù)集合,這個數(shù)據(jù)集合可以在分區(qū)對象丟失后進(jìn)行重建[5]。也就是說RDD的元素不一定需要存儲在物理介質(zhì)中,相反,一個RDD的處理進(jìn)程包含了如何從可靠的數(shù)據(jù)存儲中去獲取足夠的信息來對這個RDD進(jìn)行處理。如果RDDS的任務(wù)節(jié)點(diǎn)失敗,總可以進(jìn)行重建[3]。

1.2 Spark系統(tǒng)架構(gòu)

與MapReduce不同,Spark并不僅僅局限于編寫map和reduce兩個方法,它為用戶提供了更為強(qiáng)大的內(nèi)存計(jì)算模型,使得用戶可以通過編程將數(shù)據(jù)讀取到集群的內(nèi)存當(dāng)中,這樣可以快速在內(nèi)存中對數(shù)據(jù)集進(jìn)行多次迭代,支持復(fù)雜的數(shù)據(jù)挖掘算法和圖計(jì)算算法使用Scala語言開發(fā),以Mesos作為底層的調(diào)度框架,可以和 Hadoop和Ec2緊密集成,直接讀取HDFS或S3的文件進(jìn)行計(jì)算并把結(jié)果寫回HDFS或S3,是Hadoop和Amazon云計(jì)算生態(tài)圈的一部分,項(xiàng)目的core部分代碼只有63個Scala文件,執(zhí)行效率高效。Spark主要由四個模塊組成:Spark SQL、MLlib、Spark 流和GraphX。Spark SQL為了兼容主流關(guān)系型數(shù)據(jù)庫系統(tǒng)(RDBMS)可以允許用戶編寫SQL和HQL兩種腳本執(zhí)行查詢,其核心組件是JavaSchemaRDD,它是一個類似于RDBMS的一個Table,由Row和Schema對象來描述Table中行對象和列的DataType。

2 Spark運(yùn)行模式

2.1 Spark任務(wù)調(diào)度方式

Spark的運(yùn)行模式有多種,主要由SparkContext的MASTER環(huán)境變量所獲得的值來決定,有些模式還需要程序接口來配合輔助決定。但概括起來,Spark運(yùn)行都以Spark-Context為總調(diào)度驅(qū)動程序,負(fù)責(zé)應(yīng)用程序的資源分配,期間分別創(chuàng)建作業(yè)調(diào)度和任務(wù)調(diào)度兩級模塊。作業(yè)調(diào)度模塊是基于階段的高層調(diào)度模塊,每個Spark 作業(yè)計(jì)算通常有多個階段,每個階段分解為一組任務(wù)集,以任務(wù)組的形式提交給底層任務(wù)調(diào)度模塊來具體執(zhí)行實(shí)際計(jì)算任務(wù),任務(wù)調(diào)度模塊負(fù)責(zé)啟動實(shí)際任務(wù),監(jiān)控和匯報(bào)任務(wù)運(yùn)行情況。如果分配任務(wù)成功,SparkContext會將應(yīng)用程序代碼給指定的執(zhí)行者完成一個或多個任務(wù)[4]。

2.2 Spark運(yùn)行模式類型

Spark的運(yùn)行模式,歸納起來有六種。

(1)Local[M]。該模式使用 LocalBackend 調(diào)用TaskSchedulerImpl 實(shí)現(xiàn)。LocalBackend 響應(yīng)Scheduler的receiveOffers請求,根據(jù)可用CPU Core的設(shè)定值[M]直接生成WorkerOffer資源返回給Scheduler,并通過Executor類在線程池中依次啟動和運(yùn)行Scheduler返回的任務(wù)列表。

(2)Standalone。該模式使用SparkDeploySchedulerBackend調(diào)用TaskSchedulerImpl來實(shí)現(xiàn) ,而SparkDeploySchedulerBackend同時繼承了CoarseGrainedSchedulerBackend。是一個在Akka Actor上實(shí)現(xiàn)的粗粒度的資源調(diào)度類,在整個Spark Job運(yùn)行期間,監(jiān)聽和擁有注冊給它的Executor資源,比如接受Executor注冊,狀態(tài)更新,響應(yīng)Scheduler請求等,并且根據(jù)現(xiàn)有Executor資源發(fā)起任務(wù)流程調(diào)度。

(3)Local-cluster。偽分布模式實(shí)際上是在Standalone模式上實(shí)現(xiàn)的,也就是在SparkContext初始化的過程中在本地啟動一個單機(jī)的偽分布Spark集群,后面的執(zhí)行流程與Standalone模式相同。

(4)Mesos。該模式主要根據(jù)顆粒度大小來區(qū)分,粗粒度的CoarseMesosSchedulerBackend繼承了CoarseGrained SchedulerBackend,相對于父類額外做的工作還要實(shí)現(xiàn)MScheduler接口,注冊到Mesos資源調(diào)度的框架中,用于接收Mesos的資源分配,在得到資源后通過Mesos框架遠(yuǎn)程啟動CoarseGrainedExecutorBackend,以后的任務(wù)交互過程和Spark standalone模式一樣,由DriverActor和Executor Actor直接完成。 細(xì)粒度的MesosSchedulerBackend直接繼承SchedulerBackend,但同樣實(shí)現(xiàn)了MScheduler接口,完成Mesos資源調(diào)度框架中的注冊,接收Mesos的資源分配。不同之處是在接收資源分配以后,MesosSchedulerBackend啟動的是遠(yuǎn)程Executor,通過在遠(yuǎn)程執(zhí)行命令來啟動MesosExecutorBackend,直接執(zhí)行對應(yīng)的任務(wù)。

(5)Yarn-standalone。Yarn-Standalone模式相對其它模式有些特殊,需要外部程序輔助啟動應(yīng)用程序。Client通過Yarn Client API在Hadoop集群上啟動一個Spark App Master,Spark App Master首先為自己注冊一個Yarn App Master,再啟動用戶程序,然后根據(jù)Client傳遞過來的參數(shù),Spark App Master通過Yarn RM/NM接口在集群中啟動多個Container運(yùn)行CoarseGrainedExecutorBackend往CoarseGrainedSchedulerBackend注冊。后面的任務(wù)調(diào)度流程跟其它Cluster模式類似,不再述說。

(6)Yarn-client。該模式的SparkContext運(yùn)行在本地,適用于應(yīng)用程序本身需要在本地交互的情景。這種模式下SparkContext在初始化時首先啟動YarnClientSchedulerBackend,然后再調(diào)用客戶端包遠(yuǎn)程啟動一個作業(yè)作為Spark的App Master,相對于Yarn-standalone模式,此模式不再負(fù)責(zé)啟動用戶程序,而只是啟動Backend便于跟客戶端本地Driver進(jìn)行數(shù)據(jù)傳遞,后面的任務(wù)調(diào)度流程跟其它模式類似。

3 Spark應(yīng)用現(xiàn)狀及發(fā)展

目前SPARK已經(jīng)構(gòu)建了自己的整個大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術(shù)、機(jī)器學(xué)習(xí)、NoSQL查詢等方面的技術(shù),并且是Apache頂級項(xiàng)目。雖然Spark對內(nèi)存要求較高,推出時間較短未經(jīng)過實(shí)踐考驗(yàn),但伴隨著大數(shù)據(jù)相關(guān)技術(shù)和產(chǎn)業(yè)的逐步成熟,繼Hadoop之后,Spark技術(shù)以集大成的無可比擬的優(yōu)勢,發(fā)展迅速,將成為替代Hadoop的下一代云計(jì)算、大數(shù)據(jù)核心技術(shù)。可以預(yù)計(jì)2015年下半年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。

參考文獻(xiàn)

[1] K. Shvachko, K. Hairong, S. Radia e R. Chansler. The Hadoop Distributed File System[C]. IEEE 26th Symposium on Mass Storage Systems and Technologies, 2010.

[2] Spark: Lighting-fast cluster computing[EB/OL]. http:///.

[3] M. Hirzel, H. Andrade, B. Gedik, et al. IBM Streams Processing Language: Analyzing Big Data in motion[J]. IBM Journal of Research and Development.2013,57(7):1-7.

[4] T. Chardonnens, P. Cudre-Mauroux, M. Grund ,et al.Big data analytics on high Velocity streams: A case study[C]. IEEE International Conference on Big Data, 2013.

篇7

關(guān)鍵詞:大數(shù)據(jù);智能交通;數(shù)據(jù)技術(shù)

隨著國民經(jīng)濟(jì)的不斷發(fā)展,人們生活水平的不斷提高,居民購買汽車能力加強(qiáng)。我國的汽車保有量隨之增加,在一些大城市機(jī)動車擁有量以超過10%的速度加速,機(jī)動車成為每個家庭代步的交通工具,在有限的交通資源配置下,機(jī)動車的增加縮短了道路使用周期,城市主干道路超負(fù)荷使用,違法停車致使道路不能合理使用、行車不文明、乘車環(huán)境不良等現(xiàn)象有增無減。大數(shù)據(jù)時代,如何改善當(dāng)前的交通狀況是本文闡述的核心內(nèi)容。文章從以下幾個方面來闡述:大數(shù)據(jù)的現(xiàn)狀、大數(shù)據(jù)的概述、大數(shù)據(jù)的應(yīng)用、智能交通的需求、智能交通體系的建立、數(shù)據(jù)技術(shù)。

1 大數(shù)據(jù)的現(xiàn)狀

據(jù)權(quán)威數(shù)據(jù)顯示,大數(shù)據(jù)應(yīng)用在我國還處在起步階段。但在未來三年,通信、金融領(lǐng)域?qū)⒃诖髷?shù)據(jù)市場突破100億元。市場規(guī)模在2012年有望達(dá)到4.7億元,到2013年增至11.2億元,增長率高達(dá)138%,2014年,保持了與2013年基本持平的增速,增長率為114.38%,市場規(guī)模達(dá)到24.1億元,未來三年內(nèi)有望突破150億元,2016年有望達(dá)到180億規(guī)模。自從2014年以來,各界對大數(shù)據(jù)的誕生都備加關(guān)注,已滲透到各個領(lǐng)域:交通行業(yè)、醫(yī)療行業(yè)、生物技術(shù)、零售行業(yè)、電商、農(nóng)牧業(yè)、個人位置服務(wù)等行業(yè),由此也正在不斷涌現(xiàn)大數(shù)據(jù)的新產(chǎn)品、新技術(shù)、新服務(wù)。

大數(shù)據(jù)行業(yè)“十三五”規(guī)劃主要目標(biāo):在2020年,將大數(shù)據(jù)打造成為國民經(jīng)濟(jì)新興支柱產(chǎn)業(yè)并在社會各領(lǐng)域廣泛應(yīng)用,推動我國大數(shù)據(jù)產(chǎn)業(yè)穩(wěn)步快速發(fā)展,基本健全大數(shù)據(jù)產(chǎn)業(yè)體系,推動制定一批相關(guān)大數(shù)據(jù)的國標(biāo)、行標(biāo)和地方標(biāo)準(zhǔn),引進(jìn)具備大數(shù)據(jù)條件的企業(yè),建設(shè)大數(shù)據(jù)產(chǎn)業(yè)孵化基地,提高全國信息化總體水平,以躋身世界先進(jìn)水平。

2 大數(shù)據(jù)的概述

2.1 大數(shù)據(jù)定義

大數(shù)據(jù)即巨量數(shù)據(jù)集合,目前還沒有一個統(tǒng)一的定義。大數(shù)據(jù)的概念最早是由全球著名的管理咨詢公司麥肯錫提出,2011年Mckinsey研究稱,大數(shù)據(jù)通常是指信息爆炸時代產(chǎn)生的海量數(shù)據(jù),在各個行業(yè)和業(yè)務(wù)領(lǐng)域,數(shù)據(jù)已經(jīng)滲透到行業(yè)中并逐漸成為重要的要素,人們能夠從海量數(shù)據(jù)中挖掘出有用的數(shù)據(jù)并加以應(yīng)用。對大數(shù)據(jù)定義的另一說法是利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。

隨著信息時代的高速發(fā)展,大數(shù)據(jù)已經(jīng)成為社會生產(chǎn)力發(fā)展的又一推動力。大數(shù)據(jù)被稱為是繼云計(jì)算、物聯(lián)網(wǎng)之后信息時代的又一大顛覆性的技術(shù)革命。大數(shù)據(jù)的數(shù)據(jù)量巨大,一般10TB規(guī)模左右,但在實(shí)際應(yīng)用中,多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量,甚至EB、ZB、TB的數(shù)據(jù)量。

2.2 大數(shù)據(jù)的特點(diǎn)

2.2.1 數(shù)據(jù)量巨大

數(shù)據(jù)量級別從TB級別躍升到PB級別。隨著可穿戴設(shè)備、物聯(lián)網(wǎng)和云計(jì)算、云存儲等技術(shù)的發(fā)展,用戶的每一個動作都可以被記錄,由此每天產(chǎn)生大量的數(shù)據(jù)信息。據(jù)有關(guān)人士估算:1986~2007年,全球數(shù)據(jù)的存儲能力每年提高23%,雙向通信能力每年提高28%,通用計(jì)算能力每年提高58%;2007年,人類大約存儲了超過300EB

的數(shù)據(jù);到2013年,世界上存儲的數(shù)據(jù)能達(dá)到約1.2ZB。

2.2.2 數(shù)據(jù)類型多樣化

即數(shù)據(jù)類型繁多,產(chǎn)生了海量的新數(shù)據(jù)集,新數(shù)據(jù)集可以是關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫數(shù)據(jù)這樣的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)數(shù)據(jù),從靜態(tài)的數(shù)據(jù)庫到動態(tài)的數(shù)據(jù)流,從簡單的數(shù)據(jù)對象到時間數(shù)據(jù)、生物序列數(shù)據(jù)、傳感器數(shù)據(jù)、空間數(shù)據(jù)、超文本數(shù)據(jù)、多媒體數(shù)據(jù)、軟件程序代碼、Web數(shù)據(jù)和社會網(wǎng)絡(luò)數(shù)據(jù)[1]。各種數(shù)據(jù)集不僅產(chǎn)生于組織內(nèi)部運(yùn)作的各個環(huán)節(jié),也來自于組織外部。

2.2.3 數(shù)據(jù)的時效性高

所謂的數(shù)據(jù)時效性高指以實(shí)時數(shù)據(jù)處理、實(shí)時結(jié)果導(dǎo)向?yàn)樘卣鞯慕鉀Q方案,數(shù)據(jù)的傳輸速度、響應(yīng)、反應(yīng)的速度不斷加快。數(shù)據(jù)時效性為了去偽存真,采用非結(jié)構(gòu)化數(shù)據(jù)剔除數(shù)據(jù)中無用的信息,而當(dāng)前未有真正的解決方法,只能是人工承擔(dān)其中的智能部分。有些專員負(fù)責(zé)數(shù)據(jù)分析問題并提出分析后的解決方案。

2.2.4 數(shù)據(jù)真實(shí)性低

即數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的高質(zhì)量是大數(shù)據(jù)時代重要的關(guān)注點(diǎn)。但在生活中,“臟數(shù)據(jù)”無處不在,例如,一些低劣的偽冒產(chǎn)品被推上市場,由于營銷手段的成功,加之其他因素的影響導(dǎo)致評分很高。但是這并不是真實(shí)的數(shù)據(jù),如果對數(shù)據(jù)不加分析和鑒別而直接使用,即使計(jì)算的結(jié)果精度高,結(jié)果都是無意義的,因?yàn)閿?shù)據(jù)本身就存在問題出現(xiàn)。

2.2.5 價值密度低

指隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息巨大,信息感知存在于客觀事物中,有很多不相關(guān)的信息。由于數(shù)據(jù)采集的不及時,數(shù)據(jù)樣本不全面,數(shù)據(jù)可能不連續(xù)等等,數(shù)據(jù)可能會失真,但當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模,可以通過更多的數(shù)據(jù)達(dá)到更真實(shí)全面的反饋。

2.3 大數(shù)據(jù)的應(yīng)用

2.3.1 醫(yī)療大數(shù)據(jù)

利用大數(shù)據(jù)平臺收集患者原先就醫(yī)的病例和治療方案,根據(jù)患者的體征,建立疾病數(shù)據(jù)庫并對患者的病例分類數(shù)據(jù)庫。一旦患者在哪個醫(yī)院就醫(yī),憑著醫(yī)保卡或就診卡,醫(yī)生就可以從疾病數(shù)據(jù)庫中參考病人的疾病特征、所做的檢查報(bào)告結(jié)果快速幫助患者確診。同時擁有的數(shù)據(jù)也有利于醫(yī)藥行業(yè)開發(fā)出更符合治療疾病的醫(yī)療器械和藥物的研發(fā)。

2.3.2 傳統(tǒng)農(nóng)牧業(yè)大數(shù)據(jù)

因?yàn)閭鹘y(tǒng)農(nóng)牧業(yè)主要依賴于天氣、土壤、空氣質(zhì)量等客觀因素,因此利用大數(shù)據(jù)可以收集客觀因素的數(shù)據(jù)以及作物成熟度,甚至是設(shè)備和勞動力的成本及可用性方面的實(shí)時數(shù)據(jù),能夠幫助農(nóng)民選擇正確的播種時間、施肥和收割作物的決策。當(dāng)農(nóng)民遇到技術(shù)市場問題可以請教專業(yè)人員,專業(yè)人員根據(jù)實(shí)時數(shù)據(jù)做出科學(xué)的指導(dǎo),制定合理的優(yōu)化決策,降低農(nóng)民的損失成本,提高產(chǎn)品的產(chǎn)量,從而為轉(zhuǎn)向規(guī)模化經(jīng)營打下良好基礎(chǔ)。

2.3.3 輿情大數(shù)據(jù)

利用大數(shù)據(jù)技術(shù)收集民眾訴求的數(shù)據(jù),降低社會,有利管理犯罪行為。通過大數(shù)據(jù)收集在微博的尋找走失的親人或提供可能被拐賣人口的信息,來幫助別人。

3 智能交通的需求

隨著城市一體化的快速發(fā)展,新時代農(nóng)民工涌入大城市,促使城市人口的增大不斷給城市交通帶來問題。究其原因主要有:一是機(jī)動車的迅猛發(fā)展導(dǎo)致城市主次干道的流量趨于飽和,大量機(jī)動車的通行和停放占據(jù)主干道路。二是城市交通的道路基礎(chǔ)設(shè)施供給不平衡導(dǎo)致路網(wǎng)承擔(dān)能力差。三是停車泊位數(shù)量不足導(dǎo)致機(jī)動車使用者不得不過多依賴道路停車。四是公共設(shè)施的公交車分擔(dān)率不高導(dǎo)致交通運(yùn)輸效率降低。五是城市的土地開發(fā)利用與道路交通發(fā)展不均衡。六是行人和機(jī)動車主素質(zhì)不文明導(dǎo)致道路通行效率降低。為此,智能交通的出現(xiàn)是改善當(dāng)前城市交通的必要需求,能夠在一定程度上有效的解決城市交通問題。

大數(shù)據(jù)是如何在智能交通的應(yīng)用呢?可以從兩個方面說明:一是對交通運(yùn)行數(shù)據(jù)的收集。由于每天道路的通行機(jī)動車較多,能夠產(chǎn)生較大的數(shù)據(jù),數(shù)據(jù)的采集并發(fā)數(shù)高,利用大數(shù)據(jù)使機(jī)動車主更好的了解公路上的通行密度,有效合理對道路進(jìn)行規(guī)劃,可規(guī)定個別道路為單行線。其二是可以利用大數(shù)據(jù)來實(shí)現(xiàn)主干道根據(jù)道路的運(yùn)行狀況即時調(diào)度信號燈,提高已有線路運(yùn)行能力,可以保障交通參與者的生命和提高有關(guān)部門的工作效率,降低成本。對于機(jī)動車主可以根據(jù)大數(shù)據(jù)隨時的了解當(dāng)前的交通狀況和停車位數(shù)量。如果交通擁堵,車主則可選擇另一路線,節(jié)約了車主的大量時間。

4 智能交通體系的建立

4.1 智能交通建立的框架

主要包括感知數(shù)據(jù)層、軟件應(yīng)用平臺及分析預(yù)測和優(yōu)化管理的應(yīng)用。物理感知層主要是采集交通的運(yùn)行狀況和對交通數(shù)據(jù)的及時感知;軟件應(yīng)用平臺主要整合每個感知終端的信息、將信息進(jìn)行轉(zhuǎn)換和處理,達(dá)到支撐分析并做出及時的預(yù)警措施。比如:對主要交通干進(jìn)行規(guī)劃,對頻發(fā)交通事故進(jìn)行監(jiān)控。同時還應(yīng)進(jìn)行應(yīng)用系統(tǒng)建設(shè)的優(yōu)化管理。比如:對機(jī)動車進(jìn)行智能誘導(dǎo)、智能停車。

智能交通系統(tǒng)需要在各道路主干道上安裝高清攝像頭,采用先進(jìn)的視頻監(jiān)控、智能識別和信息技術(shù)手段,來增加可管理的維度,從空間的廣度、時間的深度、范圍的精細(xì)度來管理。整個系統(tǒng)的組成包括信息綜合應(yīng)用平臺、信號控制系統(tǒng)、視頻監(jiān)控系統(tǒng)、智能卡口系統(tǒng)、電子警察系統(tǒng)、信息采集系統(tǒng)、信息系統(tǒng)。每個城市建立智能交通并進(jìn)行聯(lián)網(wǎng),則會產(chǎn)生越來越多的視頻監(jiān)控?cái)?shù)據(jù)、卡口電警數(shù)據(jù)、路況信息、管控信息、營運(yùn)信息、GPS定位信息、射頻識別信息等數(shù)據(jù),每天產(chǎn)生的數(shù)據(jù)量將可以達(dá)到PB級別,并且呈現(xiàn)指數(shù)級的增長。

4.2 智能交通數(shù)據(jù)處理體系的構(gòu)成

主要包括交通的數(shù)據(jù)輸入、車輛信息、道路承載能力等的數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)檢索。其中交通數(shù)據(jù)輸入可以是靜態(tài)數(shù)據(jù)或者是動態(tài)數(shù)據(jù)。數(shù)據(jù)處理是針對實(shí)時數(shù)據(jù)的處理。數(shù)據(jù)主要存儲的是每天采集的巨大數(shù)據(jù)量。為了從中獲取有用的數(shù)據(jù),則需要進(jìn)行數(shù)據(jù)查詢和檢索,還要對數(shù)據(jù)進(jìn)行規(guī)劃。

5 大數(shù)據(jù)技術(shù)

5.1 數(shù)據(jù)采集與預(yù)處理

數(shù)據(jù)采集與預(yù)處理主要對交通領(lǐng)域全業(yè)態(tài)數(shù)據(jù)的立體采集與處理來支撐交通建設(shè)、管理、運(yùn)行決策。采集的數(shù)據(jù)主要是車輛的實(shí)時通行數(shù)據(jù),以實(shí)現(xiàn)實(shí)時監(jiān)控、事先預(yù)測、及時預(yù)警,完成道路網(wǎng)流量的調(diào)配、控。這些數(shù)據(jù)獲取可以采用安裝的傳感器、識別技術(shù)并完成對已接收數(shù)據(jù)的辨析、轉(zhuǎn)換、抽取、清洗等操作。

5.2 數(shù)據(jù)存儲與管理

大數(shù)據(jù)的存儲與管理是把采集到的數(shù)據(jù)存放在存儲器,并建立相應(yīng)的數(shù)據(jù)庫,如關(guān)系數(shù)據(jù)庫、Not Only SQL即對關(guān)系型SQL數(shù)據(jù)系統(tǒng)的補(bǔ)充。利用數(shù)據(jù)庫采用更簡單的數(shù)據(jù)模型,并將元數(shù)據(jù)與應(yīng)用數(shù)據(jù)分離,從而實(shí)現(xiàn)管理和調(diào)用。

5.3 數(shù)據(jù)分析與挖掘

數(shù)據(jù)分析及挖掘技術(shù)是大數(shù)據(jù)的核心技術(shù)。從海量數(shù)據(jù)中,提取隱含在其中,人們事先未知的,但又可能有用的信息和知識的過程。從復(fù)雜數(shù)據(jù)類型中挖掘,如文本、圖片、視頻、音頻。該技術(shù)主要從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu),可以預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真。從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求。

5.4 數(shù)據(jù)展現(xiàn)與應(yīng)用

數(shù)據(jù)技術(shù)能夠?qū)⒚刻焖a(chǎn)生的大量數(shù)據(jù)從中挖掘出有用的數(shù)據(jù),應(yīng)用到各個領(lǐng)域有需要的地方以提高運(yùn)行效率。

6 結(jié)束語

大數(shù)據(jù)時代,能對智能交通信息資源進(jìn)行優(yōu)化配置,能夠改善傳統(tǒng)的交通問題。對非機(jī)動車主而言,利用大數(shù)據(jù)可以更好的規(guī)劃線路,更好的了解交通狀況,在一定程度上可以對問題預(yù)先提出解決方案,起到節(jié)省大量時間、額外的開支。同時對交管部門而言,能夠在限的警力情況下合理配置人員資源和交通設(shè)備,主干道路在高峰期出現(xiàn)的問題能夠合理利用大數(shù)據(jù)信息配置資源,在刑事案件偵查中也能發(fā)揮更重要的作用。

全國要實(shí)現(xiàn)智能交通的聯(lián)網(wǎng),依然有問題需要突破,這都是大數(shù)據(jù)的數(shù)據(jù)技術(shù)應(yīng)用所在。

篇8

關(guān)鍵詞:煙草;數(shù)據(jù)中心;大數(shù)據(jù);Hadoop;Impala

1.大數(shù)據(jù)技術(shù)現(xiàn)狀

當(dāng)前許多企業(yè)都已基本實(shí)現(xiàn)了信息化建設(shè),企業(yè)積累了海量數(shù)據(jù)。同時企業(yè)間的競爭日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準(zhǔn)確、快速和個性化地為客戶提品及服務(wù)。而大數(shù)據(jù)技術(shù)能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無法獲知的價值和模式,幫助企業(yè)更加迅速、科學(xué)、準(zhǔn)確地進(jìn)行決策和預(yù)測。

1.1大數(shù)據(jù)技術(shù)現(xiàn)狀

廣大企業(yè)的迫切需求反之也促進(jìn)了大數(shù)據(jù)技術(shù)的飛速發(fā)展,涌現(xiàn)出了諸如Hadoop、Spark等實(shí)用的架構(gòu)平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,允許使用簡單的編程模型進(jìn)行跨計(jì)算機(jī)集群的分布式大數(shù)據(jù)處理。通過使用專門為分布式計(jì)算設(shè)計(jì)的文件系統(tǒng)HDFS,計(jì)算的時候只需要將計(jì)算代碼推送到存儲節(jié)點(diǎn)上,即可在存儲節(jié)點(diǎn)上完成數(shù)據(jù)本地化計(jì)算。因此,Hadoop實(shí)現(xiàn)了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應(yīng)對PB級別的數(shù)據(jù)處理。

1.2大數(shù)據(jù)技術(shù)對煙草數(shù)據(jù)中心建設(shè)的影響

當(dāng)前,煙草企業(yè)基于多年的信息化建設(shè)已經(jīng)積累了海量數(shù)據(jù),同時每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下,需要在數(shù)據(jù)采集、存儲和運(yùn)算方面采用與以往完全不同的計(jì)算存儲模式,這就不可避免地需要采用大數(shù)據(jù)技術(shù)。同時,除了購進(jìn)單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外,還產(chǎn)生越來越多的非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術(shù),對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理,可為人工判斷和機(jī)器學(xué)縮減范圍。對海量數(shù)據(jù)以及非結(jié)構(gòu)化的信息進(jìn)行分析統(tǒng)計(jì),僅僅依靠傳統(tǒng)的技術(shù)手段很難實(shí)現(xiàn),只有引入大數(shù)據(jù)技術(shù)才能充分的將所有的數(shù)據(jù)資源利用起來,成為企業(yè)決策的助力。

2.江蘇煙草數(shù)據(jù)中心應(yīng)用現(xiàn)狀

2.1江蘇煙草數(shù)據(jù)中心體系架構(gòu)

目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個部分為核心,構(gòu)建了一套完整的數(shù)據(jù)中心架構(gòu)。一體化數(shù)據(jù)中心是整個數(shù)據(jù)中心最核心的部分。通過數(shù)據(jù)倉庫模型、數(shù)據(jù)存儲、ETL工具等組成部分,構(gòu)建了業(yè)務(wù)數(shù)據(jù)的收集、加工、存儲、分發(fā)的總體架構(gòu)。建立了按ODS(SODS、UODS)、DW、DM三層結(jié)構(gòu)設(shè)計(jì)建設(shè)的數(shù)據(jù)倉庫。一體化數(shù)據(jù)管理通過主數(shù)據(jù)管理、信息代碼管理、ESB平臺構(gòu)建了企業(yè)主數(shù)據(jù)收集、標(biāo)準(zhǔn)化、同步分發(fā)過程。結(jié)合指標(biāo)管理,全面管控企業(yè)的公用基礎(chǔ)信息。通過數(shù)據(jù)質(zhì)量管理,全面有效管控?cái)?shù)據(jù)質(zhì)量。通過數(shù)據(jù)服務(wù)管理,有效提升數(shù)據(jù)中心的對外服務(wù)能力與水平。通過元數(shù)據(jù)管理來管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過構(gòu)建移動信息、業(yè)務(wù)分析、數(shù)據(jù)挖掘三大模塊,針對性解決當(dāng)前不同人員的決策、管理以及操作需求,發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術(shù)、平臺優(yōu)勢。通過移動信息模塊為各級領(lǐng)導(dǎo)提供決策支持;通過業(yè)務(wù)分析模塊為業(yè)務(wù)人員的日常工作提供支撐;通過數(shù)據(jù)挖掘模塊,發(fā)掘數(shù)據(jù)所蘊(yùn)含的隱性價值。基于上述一整套架構(gòu)的支撐,目前數(shù)據(jù)中心構(gòu)建了全省范圍的數(shù)據(jù)集成、交換體系,一方面提升了全省基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質(zhì)量,另一方面為在建業(yè)務(wù)系統(tǒng)的實(shí)施、已有系統(tǒng)的改造提供了標(biāo)準(zhǔn)化的高質(zhì)量數(shù)據(jù)保障。

2.2大數(shù)據(jù)技術(shù)的應(yīng)用場景分析

隨著江蘇數(shù)據(jù)中心的不斷運(yùn)行,一些基于傳統(tǒng)技術(shù)架構(gòu)的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數(shù)據(jù)量數(shù)據(jù)的查詢需求。基于傳統(tǒng)技術(shù)架構(gòu)的查詢功能響應(yīng)較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計(jì)分析應(yīng)用的數(shù)據(jù)結(jié)構(gòu)大多是預(yù)先定義好的,面對靈活的非傳統(tǒng)的統(tǒng)計(jì)查詢需求難以支撐,需要進(jìn)行額外的加工處理。江蘇煙草數(shù)據(jù)中心結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)特性,引入Hadoop平臺以及Impala等工具,搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺,以補(bǔ)充基于傳統(tǒng)技術(shù)架構(gòu)的功能不足,并為未來進(jìn)一步發(fā)展建設(shè)基于大數(shù)據(jù)技術(shù)和云環(huán)境的數(shù)據(jù)中心做好準(zhǔn)備。

3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺實(shí)現(xiàn)

3.1設(shè)計(jì)思路及架構(gòu)

基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺是在現(xiàn)有數(shù)據(jù)中心的建設(shè)成果之上,以數(shù)據(jù)中心的數(shù)據(jù)存儲為基礎(chǔ),以Hadoop、Hive、Impala等大數(shù)據(jù)技術(shù)工具為手段,以簡單靈活、快速高效的查詢展現(xiàn)為目標(biāo),建立的數(shù)據(jù)查詢分析支持平臺。

3.2技術(shù)方案

自定義數(shù)據(jù)查詢平臺的建設(shè)主要涉及數(shù)據(jù)存儲架構(gòu)、后臺數(shù)據(jù)加工準(zhǔn)備、前端展現(xiàn)三塊內(nèi)容。自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關(guān)的元數(shù)據(jù)存儲,另一部分則是查詢所需的各種統(tǒng)計(jì)數(shù)據(jù)的存儲。元數(shù)據(jù)的存儲根據(jù)元數(shù)據(jù)庫的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫的元數(shù)據(jù)存儲。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù),以及前端自定義查詢需要定義的權(quán)限、數(shù)據(jù)源、表、列和表列關(guān)系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計(jì)數(shù)據(jù)的存儲則是使用Hadoop的HDFS實(shí)現(xiàn)的。根據(jù)Hadoop平臺架構(gòu),自定義數(shù)據(jù)查詢平臺的HDFS建立在6臺虛擬主機(jī)構(gòu)建的集群上的。其中:2臺虛擬主機(jī)作為NameNode,一臺為主節(jié)點(diǎn),另一臺為備份節(jié)點(diǎn);其余4臺虛擬主機(jī)都作為DataNode用于存儲數(shù)據(jù)。所有數(shù)據(jù)將會統(tǒng)一分塊自動分配存儲到4個DataNode上。自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)加工,是通過開源ETL工具KETTLE實(shí)現(xiàn)的。通過KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉庫及數(shù)據(jù)集市中讀取需要的數(shù)據(jù),根據(jù)自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)模型定義對數(shù)據(jù)進(jìn)行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺的前端展現(xiàn)功能,主要是基于JSP技術(shù)實(shí)現(xiàn)頁面開發(fā),通過JDBC或者ODBC對后臺Mysql數(shù)據(jù)庫進(jìn)行訪問。使用者在查詢頁面中組織定義查詢的內(nèi)容,查詢服務(wù)自動根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內(nèi)容拼接轉(zhuǎn)換成為查詢SQL,之后通過Impala執(zhí)行查詢SQL對HDFS文件系統(tǒng)中的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行查詢。

3.3系統(tǒng)實(shí)現(xiàn)效果

利用大數(shù)據(jù)技術(shù),自定義數(shù)據(jù)查詢平臺較好地解決了目前數(shù)據(jù)中心所面對的問題,滿足了使用人員對于大數(shù)據(jù)量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數(shù)據(jù)查詢平臺通過預(yù)先梳理、分類定義各種維度以及統(tǒng)計(jì)指標(biāo)。使用者可以自由的根據(jù)實(shí)際需求選擇分析所需的維度及統(tǒng)計(jì)指標(biāo),同時還可以基于這些基礎(chǔ)的內(nèi)容更進(jìn)一步自定義過濾條件以及計(jì)算公式,并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面,自定義查詢平臺相比傳統(tǒng)架構(gòu)的查詢功能有了較大提升。

4.結(jié)束語

大數(shù)據(jù)技術(shù)的發(fā)展方興未艾,應(yīng)用前景無比廣闊,對各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設(shè)既要看到大數(shù)據(jù)技術(shù)未來的前景,更需要明確地認(rèn)識到大數(shù)據(jù)平臺的建設(shè)并非一朝一夕,需要有明確而長遠(yuǎn)的規(guī)劃,不斷完善數(shù)據(jù)環(huán)境建設(shè)、云計(jì)算環(huán)境的構(gòu)建以及數(shù)據(jù)服務(wù)的擴(kuò)展。

參考文獻(xiàn)

[1]陳鵬.大數(shù)據(jù)時代下的信息安全問題研究[J].電子制,2015,18:48

[2]劉憶魯,劉長銀,侯艷權(quán).大數(shù)據(jù)時代下的信息安全問題論述[J].信息通信.2016,181-182

推薦期刊
欧美午夜精品一区二区三区,欧美激情精品久久久久久,亚洲av片不卡无码久东京搔,亚洲鲁丝片AV无码APP
日韩AV一区二区三区五月天 | 午夜亚洲国产理论飘花中文 | 日本午夜视频一级a | 日本免费在线看AⅤ视频 | 色花堂精品国产首页 | 视色日韩AV一区二区三区 |