RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是大數(shù)據(jù) 大數(shù)據(jù)處理基本步驟講解

西西 ? 來源:feiyan ? 2018-12-09 11:41 ? 次閱讀

什么是大數(shù)據(jù):大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

大數(shù)據(jù)的5V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性),百度隨便找找都有。

大數(shù)據(jù)處理流程:

1.是數(shù)據(jù)采集,搭建數(shù)據(jù)倉庫,數(shù)據(jù)采集就是把數(shù)據(jù)通過前端埋點(diǎn),接口日志調(diào)用流數(shù)據(jù),數(shù)據(jù)庫抓取,客戶自己上傳數(shù)據(jù),把這些信息基礎(chǔ)數(shù)據(jù)把各種維度保存起來,感覺有些數(shù)據(jù)沒用(剛開始做只想著功能,有些數(shù)據(jù)沒采集, 后來被老大訓(xùn)了一頓)。

2.數(shù)據(jù)清洗/預(yù)處理:就是把收到數(shù)據(jù)簡單處理,比如把ip轉(zhuǎn)換成地址,過濾掉臟數(shù)據(jù)等。

3.有了數(shù)據(jù)之后就可以對數(shù)據(jù)進(jìn)行加工處理,數(shù)據(jù)處理的方式很多,總體分為離線處理,實時處理,離線處理就是每天定時處理,常用的有阿里的maxComputer,hive,MapReduce,離線處理主要用storm,spark,hadoop,通過一些數(shù)據(jù)處理框架,可以吧數(shù)據(jù)計算成各種KPI,在這里需要注意一下,不要只想著功能,主要是把各種數(shù)據(jù)維度建起來,基本數(shù)據(jù)做全,還要可復(fù)用,后期就可以把各種kpi隨意組合展示出來。

4.數(shù)據(jù)展現(xiàn),數(shù)據(jù)做出來沒用,要可視化,做到MVP,就是快速做出來一個效果,不合適及時調(diào)整,這點(diǎn)有點(diǎn)類似于Scrum敏捷開發(fā),數(shù)據(jù)展示的可以用datav,神策等,前端好的可以忽略,自己來畫頁面。

數(shù)據(jù)采集:

1.批數(shù)據(jù)采集,就是每天定時去數(shù)據(jù)庫抓取數(shù)據(jù)快照,我們用的maxComputer,可以根據(jù)需求,設(shè)置每天去數(shù)據(jù)庫備份一次快照,如何備份,如何設(shè)置數(shù)據(jù)源,如何設(shè)置出錯,在maxComputer都有文檔介紹,使用maxComputer需要注冊阿里云服務(wù),https://help.aliyun.com/product/27797.html,鏈接是maxComputer文檔。

2.實時接口調(diào)用數(shù)據(jù)采集,可以用logHub,dataHub,流數(shù)據(jù)處理技術(shù),DataHub具有高可用,低延遲,高可擴(kuò)展,高吞吐的特點(diǎn)。

高吞吐:最高支持單主題(Topic)每日T級別的數(shù)據(jù)量寫入,每個分片(Shard)支持最高每日8000萬Record級別的寫入量。

實時性:通過DataHub ,您可以實時的收集各種方式生成的數(shù)據(jù)并進(jìn)行實時的處理,

設(shè)計思路:首先寫一個sdk把公司所有后臺服務(wù)調(diào)用接口調(diào)用情況記錄下來,開辟線程池,把記錄下來的數(shù)據(jù)不停的往dataHub,logHub存儲,前提是設(shè)置好接收數(shù)據(jù)的dataHub表結(jié)構(gòu),https://help.aliyun.com/document_detail/47448.html?spm=a2c4g.11186623.3.2.nuizA4,這是dataHub文檔,下圖是數(shù)據(jù)監(jiān)控,會看到數(shù)據(jù)會不停流入

3.前臺數(shù)據(jù)埋點(diǎn),這些就要根據(jù)業(yè)務(wù)需求來設(shè)置了,也是通過流數(shù)據(jù)傳輸?shù)綌?shù)據(jù)倉庫,如上述第二步。

數(shù)據(jù)處理:

數(shù)據(jù)采集完成就可以對數(shù)據(jù)進(jìn)行加工處理,可分為離線批處理,實時處理。

1.離線批處理maxComputer,這是阿里提供的一項大數(shù)據(jù)處理服務(wù),是一種快速,完全托管的TB/PB級數(shù)據(jù)倉庫解決方案,編寫數(shù)據(jù)處理腳本,設(shè)置任務(wù)執(zhí)行時間,任務(wù)執(zhí)行條件,就可以按照你的要求,每天產(chǎn)生你需要的數(shù)據(jù),https://help.aliyun.com/document_detail/30267.html?spm=a2c4g.11174283.3.2.0aBtdh,鏈接dataworks為文檔。下圖是檢測任務(wù)實例運(yùn)行狀態(tài)

2.實時處理:采用storm/spark,目前接觸的只有storm,strom基本概念網(wǎng)上一大把,在這里講一下大概處理過程,首先設(shè)置要讀取得數(shù)據(jù)源,只要啟動storm就會不停息的讀取數(shù)據(jù)源。Spout,用來讀取數(shù)據(jù)。Tuple:一次消息傳遞的基本單元,理解為一組消息就是一個Tuple。stream,用來傳輸流,Tuple的集合。Bolt:接受數(shù)據(jù)然后執(zhí)行處理的組件,用戶可以在其中執(zhí)行自己想要的操作??梢栽诶镞厡憳I(yè)務(wù)邏輯,storm不會保存結(jié)果,需要自己寫代碼保存,把這些合并起來就是一個拓?fù)?,總體來說就是把拓?fù)涮峤坏椒?wù)器啟動后,他會不停讀取數(shù)據(jù)源,然后通過stream把數(shù)據(jù)流動,通過自己寫的Bolt代碼進(jìn)行數(shù)據(jù)處理,然后保存到任意地方,關(guān)于如何安裝部署storm,如何設(shè)置數(shù)據(jù)源,網(wǎng)上都有教程,這里不多說。

數(shù)據(jù)展現(xiàn):做了上述那么多,終于可以直觀的展示了,由于前端技術(shù)不行,借用了第三方展示平臺datav,datav支持兩種數(shù)據(jù)讀取模式,第一種,直接讀取數(shù)據(jù)庫,把你計算好的數(shù)據(jù),通過sql查出來,需要配置數(shù)據(jù)源,讀取數(shù)據(jù)之后按照給定的格式,進(jìn)行格式化就可以展現(xiàn)出來,https://help.aliyun.com/document_detail/30360.html,鏈接為datav文檔。可以設(shè)置圖標(biāo)的樣式,也可以設(shè)置參數(shù),

第二種采用接口的形式,可以直接采用api,在數(shù)據(jù)區(qū)域配置為api,填寫接口地址,需要的參數(shù)即可,這里就不多說了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8882

    瀏覽量

    137394
收藏 人收藏

    評論

    相關(guān)推薦

    云計算、大數(shù)據(jù)處理技術(shù)交流

    云計算、大數(shù)據(jù)處理技術(shù)交流圖形圖像是數(shù)據(jù)處理量最大的版塊之一,也是當(dāng)今云計算的重要課題之一,圖形圖像處理大會給大家?guī)碇T多名家方案,探究大數(shù)據(jù)圖像圖形
    發(fā)表于 09-16 14:18

    常用大數(shù)據(jù)處理技術(shù)歸類

    “21世紀(jì)最缺的是什么?人才!”。在大數(shù)據(jù)發(fā)展如此之快的今天,大數(shù)據(jù)工程師已經(jīng)成為一個新興職業(yè)。大數(shù)據(jù)是信息技術(shù),是人和人、人和機(jī)器、機(jī)器和機(jī)器交互的內(nèi)容特征,是最底層的信息技術(shù),是基本標(biāo)配。今天
    發(fā)表于 02-28 17:02

    常見大數(shù)據(jù)應(yīng)用有哪些?

    數(shù)據(jù)采集階段大數(shù)據(jù)數(shù)據(jù)采集階段需掌握的技術(shù)有:Python、Scala。六、大數(shù)據(jù)商業(yè)實戰(zhàn)階段大數(shù)據(jù)商業(yè)實戰(zhàn)階段需掌握的技術(shù)有:實操企業(yè)
    發(fā)表于 03-13 16:50

    大數(shù)據(jù)運(yùn)用的技術(shù)

    大數(shù)據(jù)是對海量數(shù)據(jù)進(jìn)行存儲、計算、統(tǒng)計、分析處理的一系列處理手段,處理數(shù)據(jù)量通常是TB級,甚至
    發(fā)表于 04-08 16:50

    【教學(xué)基地】labview大數(shù)據(jù)處理(初步分析部分)

    ` 本帖最后由 a156789156782 于 2018-6-14 10:11 編輯 【教學(xué)基地實驗小屋】03008虛擬儀器大數(shù)據(jù)處理初步分析部分通過本節(jié)學(xué)習(xí)對文檔的操作來入門大數(shù)據(jù)分析,直接
    發(fā)表于 06-13 21:45

    【教學(xué)基地】大數(shù)據(jù)處理(初步分析部分)

    `大數(shù)據(jù)處理(初步分析部分)`
    發(fā)表于 06-14 01:36

    大數(shù)據(jù)開發(fā)核心技術(shù)詳解

    ,云計算相當(dāng)于我們的計算機(jī)和操作系統(tǒng),將大量的硬件資源虛擬化之后再進(jìn)行分配使用;大數(shù)據(jù)則相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫”。整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數(shù)據(jù)處理
    發(fā)表于 07-26 16:26

    圖解大數(shù)據(jù)處理架構(gòu)

    大數(shù)據(jù)處理架構(gòu)
    發(fā)表于 05-09 17:11

    大數(shù)據(jù)處理和分析能力的提高

    如何提高大數(shù)據(jù)處理和分析的能力
    發(fā)表于 08-23 13:07

    大數(shù)據(jù)Kafka數(shù)據(jù)處理過程

    大數(shù)據(jù)-Kafka數(shù)據(jù)處理
    發(fā)表于 03-27 11:42

    什么是大數(shù)據(jù)?大數(shù)據(jù)的特點(diǎn)有哪些

    大數(shù)據(jù)(big data)目錄1什么是大數(shù)據(jù)2大數(shù)據(jù)的定義3大數(shù)據(jù)的特點(diǎn)[1]4大數(shù)據(jù)的作用[2]5大數(shù)
    發(fā)表于 07-12 06:52

    深入解析大數(shù)據(jù)處理基本步驟

    什么是大數(shù)據(jù)大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的
    的頭像 發(fā)表于 12-12 16:42 ?4182次閱讀

    大數(shù)據(jù)處理系統(tǒng)模式及其應(yīng)用分析

    大數(shù)據(jù)處理系統(tǒng)始終是分析大數(shù)據(jù)的基礎(chǔ),因為大數(shù)據(jù)本身具有信息量繁多冗雜、擴(kuò)展速度極快、信息多樣性且價值密度高等特點(diǎn),所以要求大數(shù)據(jù)處理系統(tǒng)具有極強(qiáng)的專業(yè)性和高效性,能夠合理并有效的
    的頭像 發(fā)表于 02-14 14:45 ?7652次閱讀
    <b class='flag-5'>大數(shù)據(jù)處理</b>系統(tǒng)模式及其應(yīng)用分析

    大數(shù)據(jù)海量數(shù)據(jù)處理方法總結(jié)

    大數(shù)據(jù)海量數(shù)據(jù)處理方法總結(jié)。
    發(fā)表于 04-26 09:16 ?13次下載

    緩存對大數(shù)據(jù)處理的影響分析

    緩存對大數(shù)據(jù)處理的影響顯著且重要,主要體現(xiàn)在以下幾個方面: 一、提高數(shù)據(jù)訪問速度 在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)存儲通常采用分布式存儲系統(tǒng),數(shù)據(jù)量龐大
    的頭像 發(fā)表于 12-18 09:45 ?97次閱讀
    RM新时代网站-首页