新时代平台,rm新时代赚钱吗是真的吗

如何更好地構(gòu)建我們的數(shù)據(jù)處理架構(gòu)，如何對IT系統(tǒng)中的遺留問題進行現(xiàn)代化改造并將其轉(zhuǎn)變?yōu)楝F(xiàn)代數(shù)據(jù)架構(gòu)？該怎么為你的需求匹配最適合的架構(gòu)設(shè)計呢，本文將分析兩種最流行的基于速度的數(shù)據(jù)架構(gòu)，為你提供一些思路。

文章速覽：

什么是數(shù)據(jù)架構(gòu)？

基于速度的數(shù)據(jù)架構(gòu)

Lambda數(shù)據(jù)架構(gòu)

Kappa數(shù)據(jù)架構(gòu)

探索數(shù)據(jù)流模型

結(jié)語

一、什么是數(shù)據(jù)架構(gòu)？

數(shù)據(jù)架構(gòu)是企業(yè)架構(gòu)中的一個元素，繼承了企業(yè)架構(gòu)的主要屬性：流程、策略、變更管理和評估權(quán)衡。根據(jù)Open Group架構(gòu)框架，數(shù)據(jù)架構(gòu)是對“企業(yè)主要數(shù)據(jù)類型、來源、邏輯數(shù)據(jù)資產(chǎn)、物理數(shù)據(jù)資產(chǎn)和數(shù)據(jù)管理資源的結(jié)構(gòu)和交互” 的描述。

根據(jù)數(shù)據(jù)管理知識體系，數(shù)據(jù)架構(gòu)是“識別企業(yè)的數(shù)據(jù)需求（無論結(jié)構(gòu)如何）并設(shè)計和維護核心藍圖以滿足這些需求”的過程。它使用核心藍圖來指導數(shù)據(jù)集成、控制數(shù)據(jù)資產(chǎn)并使數(shù)據(jù)投資與業(yè)務戰(zhàn)略保持一致。

然而，糟糕的數(shù)據(jù)架構(gòu)是僵化且過度集中的。它使用了錯誤的工具來完成工作，這阻礙了開發(fā)和變更管理。

二、基于速度的數(shù)據(jù)架構(gòu)

數(shù)據(jù)速度是指數(shù)據(jù)生成的速度、數(shù)據(jù)移動的速度以及將其處理為可用指導的速度。

根據(jù)處理數(shù)據(jù)的速度，數(shù)據(jù)架構(gòu)通常分為兩類：Lambda和Kappa。

Lambda數(shù)據(jù)架構(gòu)?

1.什么是Lambda

Lambda數(shù)據(jù)架構(gòu)由Apache Storm的創(chuàng)建者Nathan Marz于 2011 年開發(fā)，旨在解決大規(guī)模實時數(shù)據(jù)處理的挑戰(zhàn)。術(shù)語 Lambda 源自lambda演算 (λ)，描述了在多個節(jié)點上并行運行分布式計算的函數(shù)。Lambda數(shù)據(jù)架構(gòu)提供了一個可擴展、容錯且靈活的系統(tǒng)來處理大量數(shù)據(jù)。它允許以混合方式訪問批處理和流處理方法。

2.Lambda架構(gòu)的使用場景

1）當您有各種工作負載和速度要求時，Lambda架構(gòu)是理想的選擇。由于它可以處理大量數(shù)據(jù)并提供低延遲查詢結(jié)果，因此適合儀表板和報告等實時分析應用程序。Lambda架構(gòu)對于批處理（清理、轉(zhuǎn)換、數(shù)據(jù)聚合）、流處理任務（事件處理、開發(fā)機器學習模型、異常檢測、欺詐預防）以及構(gòu)建集中存儲庫（稱為“數(shù)據(jù)湖”）非常有用。

2）Lambda架構(gòu)的關(guān)鍵區(qū)別在于，它使用兩個獨立的處理系統(tǒng)來處理不同類型的數(shù)據(jù)處理工作負載。第一個是批處理系統(tǒng)，它將結(jié)果存儲在集中式數(shù)據(jù)存儲（例如數(shù)據(jù)倉庫或數(shù)據(jù)湖）中。第二個系統(tǒng)是流處理系統(tǒng)，它在數(shù)據(jù)到達時實時處理數(shù)據(jù)并將結(jié)果存儲在分布式數(shù)據(jù)存儲中。

3.Lambda架構(gòu)的組成

Lambda架構(gòu)由攝取層、批處理層、速度層（或流層）和服務層組成。

·批處理層：批處理層處理大量歷史數(shù)據(jù)并將結(jié)果存儲在集中式數(shù)據(jù)存儲中，例如數(shù)據(jù)倉庫或分布式文件系統(tǒng)。該層使用Hadoop或Spark等框架進行高效的數(shù)據(jù)處理，使其能夠提供所有可用數(shù)據(jù)的總體視圖。

·速度層：速度層處理高速數(shù)據(jù)流，并使用Apache Flink或Apache Storm等事件處理引擎提供最新的信息視圖。該層處理傳入的實時數(shù)據(jù)并將結(jié)果存儲在分布式數(shù)據(jù)存儲中，例如消息隊列或NoSQL數(shù)據(jù)庫。

·服務層：無論底層處理系統(tǒng)如何，Lambda架構(gòu)服務層對于為用戶提供一致的數(shù)據(jù)訪問體驗至關(guān)重要。它在支持需要快速訪問當前信息（例如儀表板和分析）的實時應用程序方面發(fā)揮著重要作用。

4.Lambda架構(gòu)的使用場景

Lambda架構(gòu)解決了計算任意函數(shù)的問題，系統(tǒng)必須評估任何給定輸入的數(shù)據(jù)處理函數(shù)（無論是慢動作還是實時）。此外，它還提供容錯功能，確保在一個系統(tǒng)出現(xiàn)故障或不可用時，任一系統(tǒng)的結(jié)果都可以用作另一個系統(tǒng)的輸入。在高吞吐量、低延遲和近實時應用程序中，這種架構(gòu)的效率是很明顯的。

Lambda架構(gòu)示意圖

5、Lambda架構(gòu)的缺點

Lambda架構(gòu)提供了許多優(yōu)勢，例如可擴展性、容錯性以及處理各種數(shù)據(jù)處理工作負載（批處理和流）的靈活性。但它也有缺點：

·Lambda架構(gòu)很復雜，它使用多種技術(shù)堆棧來處理和存儲數(shù)據(jù)。

·設(shè)置和維護可能具有挑戰(zhàn)性，尤其是在資源有限的組織中。

·每個階段的批處理和速度層中都會重復底層邏輯。這種重復有一個代價：數(shù)據(jù)差異。因為盡管具有相同的邏輯，但一層與另一層的實現(xiàn)不同。因此，錯誤/錯誤的概率較高，并且您可能會遇到批處理層和速度層的不同結(jié)果。

Kappa數(shù)據(jù)架構(gòu)?

2014年，Jay Kreps指出了Lambda架構(gòu)的一些缺點。這次討論使大數(shù)據(jù)社區(qū)找到了一種使用更少代碼資源的替代方案——Kappa數(shù)據(jù)架構(gòu)。

1、什么是Kappa數(shù)據(jù)架構(gòu)

Kappa（以希臘字母 ? 命名，在數(shù)學中用于表示循環(huán)）背后的主要思想是單個技術(shù)堆?？捎糜趯崟r和批量數(shù)據(jù)處理。該名稱反映了該體系結(jié)構(gòu)對連續(xù)數(shù)據(jù)處理或再處理的重視，而不是基于批處理的方法。

Kappa 的核心依賴于流式架構(gòu)。傳入數(shù)據(jù)首先存儲在事件流日志中。然后，它由流處理引擎（例如 Kafka）連續(xù)實時處理或攝取到另一個分析數(shù)據(jù)庫或業(yè)務應用程序中。這樣做需要使用各種通信范例，例如實時、近實時、批處理、微批處理和請求響應等。

2、Kappa數(shù)據(jù)架構(gòu)的組成

數(shù)據(jù)重新處理是 Kappa的一項關(guān)鍵要求，使源端的任何更改對結(jié)果的影響可見。因此，Kappa 架構(gòu)僅由兩層組成：流處理層和服務層。

在Kappa架構(gòu)中，只有一層處理層：流處理層。該層負責采集、處理和存儲直播數(shù)據(jù)。這種方法消除了對批處理系統(tǒng)的需要。相反，它使用先進的流處理引擎（例如 Apache Flink、Apache Storm、Apache Kafka 或 Apache Kinesis）來處理大量數(shù)據(jù)流并提供對查詢結(jié)果的快速、可靠的訪問。

流處理層有兩個組件：

·攝取組件：該層從各種來源收集傳入數(shù)據(jù)，例如日志、數(shù)據(jù)庫事務、傳感器和 API。數(shù)據(jù)被實時攝取并存儲在分布式數(shù)據(jù)存儲中，例如消息隊列或NoSQL數(shù)據(jù)庫。

·處理組件：該組件處理大量數(shù)據(jù)流并提供對查詢結(jié)果的快速可靠的訪問。它使用事件處理引擎（例如 Apache Flink 或 Apache Storm）來實時處理傳入數(shù)據(jù)和歷史數(shù)據(jù)（來自存儲區(qū)域），然后將信息存儲到分布式數(shù)據(jù)存儲中。

對于幾乎所有用例，實時數(shù)據(jù)都勝過非實時數(shù)據(jù)。盡管如此，Kappa架構(gòu)不應該被視為 Lambda 架構(gòu)的替代品。反之，在不需要批處理層的高性能來滿足標準服務質(zhì)量的情況下，您應該考慮 Kappa架構(gòu)。

3、Kappa架構(gòu)的優(yōu)勢

Kappa架構(gòu)旨在提供可擴展、容錯且靈活的系統(tǒng)，用于實時處理大量數(shù)據(jù)。它使用單一技術(shù)堆棧來處理實時和歷史工作負載，并將所有內(nèi)容視為流。Kappa 架構(gòu)的主要動機是避免為批處理層和速度層維護兩個獨立的代碼庫（管道）。這使得它能夠提供更加精簡的數(shù)據(jù)處理管道，同時仍然提供對查詢結(jié)果的快速可靠訪問。

Kappa架構(gòu)示意圖

4、Kappa架構(gòu)的缺點

Kappa架構(gòu)承諾可擴展性、容錯性和簡化的管理。然而，它也有缺點。

· Kappa架構(gòu)理論上比 Lambda更簡單，但對于不熟悉流處理框架的企業(yè)來說，技術(shù)上仍然可能很復雜。

· 擴展事件流平臺時的基礎(chǔ)設(shè)施成本。在事件流平臺中存儲大量數(shù)據(jù)可能成本高昂，并會引發(fā)其他可擴展性問題，尤其是當數(shù)據(jù)量達到TB或PB級時。

· 事件時間和處理時間之間的滯后不可避免地會產(chǎn)生數(shù)據(jù)延遲。因此，Kappa 架構(gòu)需要一套機制來解決這個問題，例如水印、狀態(tài)管理、重新處理或回填。

探索數(shù)據(jù)流模型?

1、為什么會出現(xiàn)數(shù)據(jù)流模型

Lambda和Kappa試圖通過集成本質(zhì)上不兼容的復雜工具來克服2010年代Hadoop生態(tài)系統(tǒng)的缺點。這兩種方法都難以解決協(xié)調(diào)批處理和流數(shù)據(jù)的根本挑戰(zhàn)。然而，Lambda和Kappa 為進一步的改進提供了靈感和基礎(chǔ)。

統(tǒng)一多個代碼路徑是管理批處理和流處理的一項重大挑戰(zhàn)。即使有了Kappa架構(gòu)的統(tǒng)一隊列和存儲層，開發(fā)人員也需要使用不同的工具來收集實時統(tǒng)計數(shù)據(jù)并運行批量聚合作業(yè)。今天，他們正在努力應對這一挑戰(zhàn)。

2、什么是數(shù)據(jù)流模型

數(shù)據(jù)流模型的基本前提是將所有數(shù)據(jù)視為事件并在不同類型的窗口上執(zhí)行聚合。實時事件流是無界數(shù)據(jù)，而批量數(shù)據(jù)是具有自然窗口的有界事件流。

窗口模式示意圖

數(shù)據(jù)工程師可以選擇不同的窗口，例如滑動窗口或會話窗口，以進行實時聚合。數(shù)據(jù)流模型允許使用幾乎相同的代碼在同一系統(tǒng)內(nèi)進行實時和批處理。

“批處理作為流處理的一個特例”的想法已經(jīng)變得越來越普遍，F(xiàn)link和Spark等框架也采用了類似的方法。

結(jié)語

當然，關(guān)于速度模型的數(shù)據(jù)架構(gòu)討論還有另一個用處：適合物聯(lián)網(wǎng) (IoT) 的設(shè)計選擇，在本篇文章中，我們就不再贅述。如何最好地構(gòu)建我們處理數(shù)據(jù)的架構(gòu)，如何對僵化且緩慢的IT遺留系統(tǒng)，進行現(xiàn)代化改造并將其轉(zhuǎn)變?yōu)楝F(xiàn)代數(shù)據(jù)架構(gòu)，顯然，關(guān)于這個問題還尚未有定論。歡迎與我們共同探討。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7002

瀏覽量
88941
架構(gòu)

架構(gòu)

+關(guān)注

關(guān)注
1

文章
513

瀏覽量
25468
虹科電子

虹科電子

+關(guān)注

關(guān)注
0

文章
601

瀏覽量
14340

寶藏級微服務架構(gòu)工具合集

大量數(shù)據(jù)流。這些工具各有特色，可根據(jù)具體需求和場景選擇合適的來構(gòu)建和管理微服務架構(gòu)。以下是UU云小編整理的幾個熱門的微服務架構(gòu)工具及其概括性介紹：

發(fā)表于 12-21 16:33 ?58次閱讀

NVIDIA推出企業(yè)參考架構(gòu)，助力打造AI工廠

全球各地的企業(yè)現(xiàn)在可以利用這一全新參考架構(gòu)來構(gòu)建高性能、可擴展、安全的數(shù)據(jù)中心。

發(fā)表于 11-01 15:35 ?258次閱讀

簡述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變

隨著全球?qū)θ斯ぶ悄埽ˋI）的需求不斷增長，數(shù)據(jù)中心作為AI計算的重要基礎(chǔ)設(shè)施，其網(wǎng)絡(luò)架構(gòu)與連接技術(shù)的發(fā)展變得尤為關(guān)鍵。

發(fā)表于 10-22 16:23 ?286次閱讀

架構(gòu)與設(shè)計常見微服務分層架構(gòu)的區(qū)別和落地實踐

前言從強調(diào)內(nèi)外隔離的六邊形架構(gòu)，逐漸發(fā)展衍生出的層層遞進、注重領(lǐng)域模型的洋蔥架構(gòu)，再到和DDD完美契合的整潔架構(gòu)。架構(gòu)風格的不斷演進，其實就是為了適應軟件需求越來越復雜的特點。可以

發(fā)表于 10-22 15:34 ?213次閱讀

<b class='flag-5'>架構(gòu)</b>與設(shè)計常見微服務分層<b class='flag-5'>架構(gòu)</b>的區(qū)別和落地實踐

【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 未知領(lǐng)域的感受

再到大模型云平臺的構(gòu)建，此書都有提及和講解，循序漸進，讓讀者可以由點及面，由面到體的來認識大數(shù)據(jù)模型的體系架構(gòu)。前言中，作者通過提出幾個問題來引導讀者閱讀思考——分布式AI計算依賴哪些硬件特性

發(fā)表于 10-08 10:40

RISC--V架構(gòu)的特點

RISC--V架構(gòu)的特點 RISC-V架構(gòu)RISC-V 架構(gòu)是基于精簡指令集計算（RISC）原理建立的開放指令集架構(gòu)（ISA），RISC-V是在指令集不斷發(fā)展和成熟的基礎(chǔ)上建立的全

發(fā)表于 05-24 08:01

CXL技術(shù)：全面升級數(shù)據(jù)中心架構(gòu)

達到 21.2%，并在2022年至2026年期間增加一倍多。而中國的數(shù)據(jù)規(guī)模將從2022年的23.88ZB增長至2027年的76.6ZB，復合年增長率達到26.3%，成為全球生產(chǎn)數(shù)據(jù)最多的國家。這給當今的現(xiàn)代數(shù)據(jù)中心帶來了更多的

發(fā)表于 04-17 16:32 ?281次閱讀

超融合架構(gòu)解決方案

隨著信息技術(shù)的發(fā)展，企業(yè)對數(shù)據(jù)中心的依賴日益增強，對存儲、計算和網(wǎng)絡(luò)資源的需求也在不斷增長。超融合架構(gòu)作為一種新興的IT基礎(chǔ)設(shè)施解決方案，正逐漸成為企業(yè)數(shù)據(jù)中心建設(shè)的首選。本文將詳細介紹超融合

發(fā)表于 04-10 14:57 ?633次閱讀

交換芯片架構(gòu)是什么意思交換芯片架構(gòu)怎么工作

交換芯片架構(gòu)是指交換芯片內(nèi)部的設(shè)計和組織方式，包括其硬件組件、處理單元、內(nèi)存結(jié)構(gòu)、接口以及其他關(guān)鍵部分的布局和相互作用。交換芯片的架構(gòu)決定了其處理網(wǎng)絡(luò)數(shù)據(jù)包的能力和效率。

發(fā)表于 03-22 16:45 ?747次閱讀

交換芯片架構(gòu)設(shè)計

交換芯片的架構(gòu)設(shè)計是網(wǎng)絡(luò)設(shè)備性能和功能的關(guān)鍵。一個高效的交換芯片架構(gòu)能夠處理大量的數(shù)據(jù)流量，支持高速數(shù)據(jù)傳輸，并提供先進的網(wǎng)絡(luò)功能。

發(fā)表于 03-21 16:28 ?539次閱讀

AI數(shù)據(jù)中心架構(gòu)升級引發(fā)800G光模塊需求激增

800G光模塊需求的激增直接反映了對人工智能驅(qū)動應用不斷升級的需求。隨著數(shù)字環(huán)境的不斷發(fā)展，對更快、更高效的數(shù)據(jù)傳輸?shù)男枨笞兊脛菰诒匦小?00G光模塊的部署，加上向2層葉脊架構(gòu)的過渡，反映了滿足現(xiàn)代

發(fā)表于 03-05 17:32 ?606次閱讀

車載以太網(wǎng)靜態(tài)架構(gòu)介紹

AutoSAR是一種開放的、標準化的汽車電子軟件架構(gòu)，旨在提高汽車電子系統(tǒng)的研發(fā)效率和質(zhì)量。車載以太網(wǎng)作為一種高速、可靠的通信技術(shù)，已經(jīng)成為現(xiàn)代汽車電子系統(tǒng)的關(guān)鍵技術(shù)之一。在AutoSAR中，車載

發(fā)表于 01-19 18:00 ?1052次閱讀

【vsan數(shù)據(jù)恢復】VSAN超融合基礎(chǔ)架構(gòu)數(shù)據(jù)恢復案例

VSAN數(shù)據(jù)恢復環(huán)境：一套有三臺服務器節(jié)點的VSAN超融合基礎(chǔ)架構(gòu)，每臺服務器節(jié)點上配置2塊SSD硬盤和4塊機械硬盤。每個服務器節(jié)點上配置有兩個磁盤組，每個磁盤組使用1個SSD硬盤作為緩存

發(fā)表于 01-15 11:33 ?682次閱讀

什么是分布式架構(gòu)?

1.獨立性：分布式架構(gòu)中的各個節(jié)點是獨立運行的，它們沒有依賴關(guān)系，可以單獨進行升級、維護和擴展。 2.通信性：分布式架構(gòu)中的各個節(jié)點通過網(wǎng)絡(luò)連接進行通信和協(xié)作，以實現(xiàn)數(shù)據(jù)的傳輸和共享。 3.負載均衡：分布式

發(fā)表于 01-12 15:04 ?1229次閱讀

性能領(lǐng)先|憶聯(lián)×新華三，打造超融合架構(gòu)下的高性能存儲方案

為助力企業(yè)用戶構(gòu)建超融合架構(gòu)的現(xiàn)代化數(shù)據(jù)中心，滿足業(yè)務發(fā)展需求，憶聯(lián)聯(lián)合新華三集團在超融合架構(gòu)下打造高性能存儲方案，以此提高

發(fā)表于 12-27 18:21 ?612次閱讀