1 引言
大數(shù)據(jù)處理系統(tǒng)始終是分析大數(shù)據(jù)的基礎(chǔ),因?yàn)榇髷?shù)據(jù)本身具有信息量繁多冗雜、擴(kuò)展速度極快、信息多樣性且價(jià)值密度高等特點(diǎn),所以要求大數(shù)據(jù)處理系統(tǒng)具有極強(qiáng)的專業(yè)性和高效性,能夠合理并有效的處理大規(guī)模的數(shù)據(jù)并形成可用的數(shù)據(jù)體系[1-3]。目前較為典型的大數(shù)據(jù)處理系統(tǒng)有三種。分別為大數(shù)據(jù)實(shí)時(shí)流式處理系統(tǒng)、離線批量處理系統(tǒng)、交互式處理系統(tǒng)以及大數(shù)據(jù)可視化處理系統(tǒng),本文將依次介紹這三種大數(shù)據(jù)處理系統(tǒng)的概念及其特點(diǎn)并分析其應(yīng)用場(chǎng)景。
2 實(shí)時(shí)流式處理系統(tǒng)及應(yīng)用場(chǎng)景
(1)流式大數(shù)據(jù)概念及其特點(diǎn)。流式大數(shù)據(jù)又被稱為實(shí)時(shí)大數(shù)據(jù),流式處理系統(tǒng)是以分析實(shí)時(shí)數(shù)據(jù)為基礎(chǔ),是基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理,一般處理時(shí)間是在數(shù)百毫秒到數(shù)秒之間。
(2)大數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)的技術(shù)架構(gòu)。根據(jù)大數(shù)據(jù)實(shí)時(shí)流式處理的特點(diǎn)可以總結(jié)出,這種數(shù)據(jù)處理系統(tǒng)其實(shí)就是數(shù)據(jù)的收集、傳輸、處理和展現(xiàn)的過(guò)程。其中數(shù)據(jù)的處理中涉及數(shù)據(jù)的聚合,而且整個(gè)過(guò)程需要能夠在秒級(jí)或毫秒級(jí)得到相應(yīng)的響應(yīng)。目前針對(duì)這一系列特點(diǎn)形成了 Flume + kafka + Storm / Spark + Hbase / Redis 的技術(shù)框架。
(3)大數(shù)據(jù)實(shí)時(shí)流式處理系統(tǒng)的應(yīng)用場(chǎng)景。流式大數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)主要廣泛應(yīng)用于金融、公安、電信、交通等領(lǐng)域,在金融行業(yè),流式大數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)在金融風(fēng)控反欺詐方面發(fā)揮著重要作用,能夠搜集融合眾多專家知識(shí)以及機(jī)器研究結(jié)果的數(shù)百條規(guī)則,作為對(duì)每筆交易的風(fēng)險(xiǎn)評(píng)估依據(jù),判斷該筆交易是否能夠安全進(jìn)行。
3 離線處理系統(tǒng)及應(yīng)用場(chǎng)景
(1)大數(shù)據(jù)離線處理系統(tǒng)概念及其特點(diǎn)。根據(jù)數(shù)據(jù)分析的時(shí)效性,我們可以把大數(shù)據(jù)分析處理系統(tǒng)分為實(shí)時(shí)處理和離線處理兩種類型。
(2)大數(shù)據(jù)離線處理處理系統(tǒng)的常用工具。相對(duì)于在線處理系統(tǒng)所呈現(xiàn)的技術(shù)架構(gòu),大數(shù)據(jù)離線處理系統(tǒng)已經(jīng)相對(duì)成熟,大數(shù)據(jù)離線處理的流程通常是利用 Hdfs 存儲(chǔ)數(shù)據(jù),確保數(shù)據(jù)有效存儲(chǔ)之后,再利用 MapReduce 進(jìn)行離線數(shù)據(jù)的批量運(yùn)算,批量計(jì)算所得出的數(shù)據(jù)如果需要進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行存儲(chǔ),可以直接接入 Hive,用過(guò) Hive 進(jìn)行展示。① Hdfs 是一種分布式的文件系統(tǒng),可以對(duì)數(shù)據(jù)進(jìn)行多次備份。② MapReduce 是一種批量計(jì)算技術(shù)框架,同樣是分布式布局,分為兩個(gè)階段:Map 階段和 Reduce 階段。③ Hive 中的數(shù)據(jù)存儲(chǔ)于文件系統(tǒng)中,并且大部分?jǐn)?shù)據(jù)是使用 Hdfs 來(lái)存儲(chǔ)的。Hive 為方便訪問數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)提供了一種方法,HQL 方法,該方法能夠滿足大數(shù)據(jù)離線處理中需要對(duì)批量處理的數(shù)據(jù)結(jié)果進(jìn)行查詢的要求。
(3)大數(shù)據(jù)離線處理系統(tǒng)目前較常見的應(yīng)用場(chǎng)景是,大數(shù)據(jù)團(tuán)隊(duì)通過(guò)統(tǒng)一計(jì)算引擎入口,降低用戶接入門檻。充分利用集群本身數(shù)據(jù),有效促進(jìn)集群本身的建設(shè),加強(qiáng)對(duì)隊(duì)列、任務(wù)及主機(jī)失敗率的監(jiān)控,使用戶能夠自主分析任務(wù)性能并進(jìn)行自主調(diào)整。
4 交互可視化處理系統(tǒng)及應(yīng)用場(chǎng)景
(1)大數(shù)據(jù)交互可視化處理的概念及其特點(diǎn)。大數(shù)據(jù)交互可視化處理是將大數(shù)據(jù)形象化,可視化也就是將數(shù)據(jù)呈現(xiàn)出可視效果。大數(shù)據(jù)交互可視化處理具有兩個(gè)特點(diǎn):首先表現(xiàn)方式多樣化,包括圖形、地圖、故事情節(jié)圖、結(jié)構(gòu)化插圖等。其次是適用范圍廣泛,具有領(lǐng)域創(chuàng)新性,隨著大數(shù)據(jù)的發(fā)展,傳統(tǒng)的數(shù)據(jù)表現(xiàn)形式已經(jīng)不能滿足需要,就要求對(duì)數(shù)據(jù)進(jìn)行可視化處理。
(2)大數(shù)據(jù)交互可視化處理的主要手段。① D3 經(jīng)常出現(xiàn)在表格插件中,是目前最受歡迎的可視化庫(kù)之一。D3 可以將數(shù)據(jù)綁定到 DOM 并將其驅(qū)動(dòng)轉(zhuǎn)移應(yīng)用到 Document 之中。同時(shí) D3 是繪制交互桑葚圖的一種非常簡(jiǎn)單的工具,桑葚圖也就是桑葚能量分流圖,它作為一種類型獨(dú)特的流程圖,一般多用于能源、金融等大數(shù)據(jù)的可視化分析。另外,D3 也可以作為對(duì) Sunburst Partition 的可視化工具,主要用來(lái)描述用戶群體的路徑點(diǎn)擊狀況。② ECharts 即商業(yè)級(jí)數(shù)據(jù)圖表,可以在 PC 端和移動(dòng)設(shè)備上流暢運(yùn)行的純 Javascript 圖表庫(kù),為我們提供生動(dòng)形象,可交互,可個(gè)性定制的大數(shù)據(jù)可視化圖表,能夠高效增強(qiáng)用戶體驗(yàn)效果。③ R 語(yǔ)言是目前功能比較強(qiáng)大的大數(shù)據(jù)可視化解決路徑,R 語(yǔ)言基本可以獨(dú)立自主地完成數(shù)據(jù)處理、可視化分析、建模以及模型分析等工作,同時(shí)可以作為配合完成與其他工具的數(shù)據(jù)交互。
除此之外,R 語(yǔ)言能夠完成頂尖的制圖工作,不僅可以完成lattcie 包、ggplot2 包的復(fù)雜數(shù)據(jù)可視化,還可以完成rCharts 包、recharts 包、plotly 包的數(shù)據(jù)交互可視化。
(3)大數(shù)據(jù)交互可視化處理的應(yīng)用場(chǎng)景。大數(shù)據(jù)作為一個(gè)新的研究領(lǐng)域在近幾年受到越來(lái)越多的關(guān)注,大數(shù)據(jù)可視化也正成為一大熱點(diǎn)。以下將介紹三種大數(shù)據(jù)交互可視化較典型的應(yīng)用場(chǎng)景。
第一是應(yīng)用于社會(huì)關(guān)系的可視化,隨著移動(dòng)互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)社會(huì)網(wǎng)絡(luò)數(shù)據(jù)已成為十分重要的數(shù)據(jù)資源,社會(huì)網(wǎng)絡(luò)分析就是利用這些數(shù)據(jù)資源分析各種網(wǎng)絡(luò)現(xiàn)象。另外,用戶社交性設(shè)計(jì)在最近幾年的移動(dòng)端網(wǎng)游中也受到越來(lái)越多的關(guān)注和重視,用戶社交型設(shè)計(jì)就需要以數(shù)據(jù)交互可視化為基礎(chǔ),從而建立并美化游戲模式,增強(qiáng)用戶游戲體驗(yàn)。
第二個(gè)應(yīng)用場(chǎng)景是地理信息的可視化。例如百度遷移圖,就是基于大數(shù)據(jù)可視化的地理信息可視化的典型例子,可以通過(guò)分析處理動(dòng)態(tài)數(shù)據(jù),將數(shù)據(jù)進(jìn)行動(dòng)態(tài)連線處理,從而形成流向圖,一目了然。除此之外也可以利用 Remap 實(shí)現(xiàn)天氣預(yù)報(bào)的功能,也可以實(shí)現(xiàn)會(huì)議在地圖上的可視化,如中國(guó) 2015 年 R 語(yǔ)言會(huì)議在各個(gè)城市舉行情況的可視化展示。近幾年較為流行的另外一種地理信息可視化方式是城市熱力圖,圖示以不同深淺的顏色來(lái)表示各個(gè)地區(qū)的實(shí)際數(shù)據(jù)。
第三是美國(guó)大選的大數(shù)據(jù)可視化,在美國(guó)大選期間,美國(guó)媒體產(chǎn)出大量選舉相關(guān)的數(shù)據(jù)報(bào)道,通過(guò)對(duì)這些大數(shù)據(jù)的可視化,選民可以清晰了解選舉動(dòng)態(tài)。通過(guò)以上幾種大數(shù)據(jù)可視化的典型例子,我們可以看出,大數(shù)據(jù)可視化是一個(gè)具有多種可能,且并不難以實(shí)現(xiàn)的大數(shù)據(jù)處理系統(tǒng),而且具有極大的發(fā)展空間。
5 結(jié)語(yǔ)
大數(shù)據(jù)處理系統(tǒng)會(huì)隨著大數(shù)據(jù)研究的深入以及數(shù)據(jù)處理技術(shù)的發(fā)展而更加多元更加完善,也將會(huì)在更多行業(yè)或領(lǐng)域中被實(shí)際應(yīng)用。大數(shù)據(jù)已經(jīng)深入到我們生活的方方面面,如何能夠更有效更充分挖掘大數(shù)據(jù)中的價(jià)值仍需要不斷地研究和探索。
-
處理系統(tǒng)
+關(guān)注
關(guān)注
0文章
93瀏覽量
16673 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8882瀏覽量
137396
原文標(biāo)題:大數(shù)據(jù)處理系統(tǒng)模式及其應(yīng)用分析
文章出處:【微信號(hào):appic-cn,微信公眾號(hào):集成電路應(yīng)用雜志】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論