3月8日,【虹科云課堂】數(shù)據(jù)管理與可視化解決方案前3期免費直播課程已結(jié)束,感謝大家的觀看與支持。虹小科為大家整理了課后筆記,請查收
導(dǎo)語
虹科云課堂
虹科的數(shù)據(jù)可觀察性解決方案,它是一個由三部分產(chǎn)品組成的集成套件,作為一個中立的多平臺數(shù)據(jù)可觀察性解決方案,我們的方案可以使數(shù)據(jù)運營團隊能夠從單個控制臺有效地管理其整個數(shù)據(jù)基礎(chǔ)架構(gòu),最大限度地提高數(shù)據(jù)工程團隊的生產(chǎn)力,以及數(shù)據(jù)模型和分析應(yīng)用程序的性能和正常運行時間。其機器學(xué)習(xí)功能可幫助企業(yè)預(yù)測和預(yù)防其數(shù)據(jù)管道的潛在問題,最大限度地減少停機時間并使其能夠滿足其 SLA/SLO。Torch是一款用在數(shù)據(jù)層的可觀察性解決方案,通過數(shù)據(jù)管道觀察數(shù)據(jù)流,優(yōu)化數(shù)據(jù)的可靠性、質(zhì)量和使用。它使用先進的機器學(xué)習(xí)和人工智能來確保企業(yè)數(shù)據(jù)系統(tǒng)的數(shù)據(jù)質(zhì)量和可靠性,同時可以進行數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)優(yōu)化。
那么它是如何幫助企業(yè)保證數(shù)據(jù)可靠性呢?我們先不說答案,把文章看完,你就明白了,最后我們會總結(jié)這個問題的答案。
本文圍繞3部分展開
虹科云課堂
1、Torch產(chǎn)品介紹
2、Torch介紹功能詳解
(數(shù)據(jù)可觀察性相關(guān)概念可見3月1、8日直播)
01
Torch產(chǎn)品介紹
虹科云課堂
這里有寫幾個典型的企業(yè)會遇到的問題,第一個就是數(shù)據(jù)質(zhì)量問題阻礙了云遷移,當(dāng)數(shù)據(jù)從一種技術(shù)或環(huán)境遷移到另一種技術(shù)或環(huán)境時,數(shù)據(jù)的許多方面可能會“在轉(zhuǎn)換中丟失”。例如,將數(shù)據(jù)從數(shù)據(jù)倉庫移動到數(shù)據(jù)湖一方面可以提供靈活性,但另一方面缺乏控制。
第二個是由數(shù)據(jù)質(zhì)量、管理和可靠性問題導(dǎo)致的數(shù)據(jù)停機,數(shù)據(jù)停機會導(dǎo)致客戶的體驗感不佳,時間成本投入較高等等,同時也會讓數(shù)據(jù)團隊將時間花在解決、調(diào)試和修復(fù)數(shù)據(jù)問題上,而不是在其他可以為您的客戶增加實質(zhì)性價值的優(yōu)先事項上取得進展。
第三個是對類似的數(shù)據(jù)資產(chǎn)進行大規(guī)模的數(shù)據(jù)質(zhì)量管理,假如一個組織中平均有 9 個數(shù)據(jù)集副本。那么手動檢查和重新創(chuàng)建每個數(shù)據(jù)質(zhì)量是沒有意義的。我們幫助您識別相似的數(shù)據(jù)資產(chǎn),并且還支持規(guī)則重用,允許您將現(xiàn)有規(guī)則“復(fù)制/粘貼”到其他數(shù)據(jù)集。這消除管理數(shù)據(jù)質(zhì)量方面的重復(fù)工作。
第四個是與不必要的數(shù)據(jù)集相關(guān)聯(lián)的過度成本,數(shù)據(jù)系統(tǒng)會接收和存儲海量的數(shù)據(jù),這些數(shù)據(jù)中可能會有重復(fù)的、不必要的數(shù)據(jù),如果沒有工具或平臺去幫助數(shù)據(jù)系統(tǒng)識別和處理多余的、不必要的數(shù)據(jù)集,那么就會導(dǎo)致企業(yè)在存儲、計算、維護等方面花費大量的資金。
最后一個是難以理解和增加對大規(guī)模分布式數(shù)據(jù)集的訪問,分布式存儲系統(tǒng)有很多個數(shù)據(jù)節(jié)點,每個節(jié)點都存儲著這個巨大的數(shù)據(jù)集的一部分,隨著數(shù)據(jù)量和用戶量的增多,數(shù)據(jù)的存取結(jié)構(gòu)復(fù)雜,程序訪問(讀?。┻@個數(shù)據(jù)集會特別慢,系統(tǒng)響應(yīng)延遲較高,可用性較低。
可見這些問題都與數(shù)據(jù)質(zhì)量脫不了干系,面對這些數(shù)據(jù)挑戰(zhàn),我們推薦虹科的Torch解決這些問題
Torch 是一種數(shù)據(jù)質(zhì)量解決方案,是一個數(shù)據(jù)編目和質(zhì)量監(jiān)控系統(tǒng),它可以確保數(shù)據(jù)在整個數(shù)據(jù)管道中保持準(zhǔn)確和完整,包括為數(shù)據(jù)團隊解決問題并在可能的情況下自動解決質(zhì)量問題。
高質(zhì)量的數(shù)據(jù)對于做出良好的商業(yè)決策至關(guān)重要。如果數(shù)據(jù)質(zhì)量較低或可疑,企業(yè)就無法完整、準(zhǔn)確地了解其組織,并且有可能投資不足、錯過收入機會或損害其運營。然而,在現(xiàn)代數(shù)據(jù)管道中,數(shù)據(jù)是不斷運動的。當(dāng)數(shù)據(jù)通過管道從源流向目標(biāo)時,它會經(jīng)歷幾個不同的階段。集成階段將多個數(shù)據(jù)源合并在一起。轉(zhuǎn)換階段是數(shù)據(jù)清理和驗證的階段。在一些簡單的處理階段,數(shù)據(jù)被匯總、聚合和過濾。最后,還有更復(fù)雜的處理階段類型,使用機器學(xué)習(xí),比如預(yù)測建模。在這些階段中的任何一個階段,流程都可能會失敗或減慢,從而阻止數(shù)據(jù)到達其預(yù)期目的地,并給業(yè)務(wù)帯來潛在風(fēng)險。因此,高質(zhì)量的數(shù)據(jù)并不一定能保證數(shù)據(jù)的可靠性。那我們的這個產(chǎn)品Torch就是為了幫助企業(yè)擁有高質(zhì)量數(shù)據(jù)的可靠交付、實時處理和大規(guī)模的端到端管道。
Torch提供可擴展、連續(xù)的數(shù)據(jù)質(zhì)量監(jiān)控,它能夠根據(jù)用戶定義的數(shù)據(jù)質(zhì)量策略來監(jiān)控數(shù)據(jù)資產(chǎn)。自動化的數(shù)據(jù)質(zhì)量規(guī)則和警報可以更輕松地識別缺失數(shù)據(jù)、數(shù)據(jù)類型違規(guī)、不正確的值和格式、敏感數(shù)據(jù)等。
Torch利用核對策略來確保數(shù)據(jù)按預(yù)期到達。對于每個核對策略,數(shù)據(jù)工程師命名數(shù)據(jù)源和目的地,要執(zhí)行的比較類型,以及要檢查的比較,在儀表盤中顯示結(jié)果,如有不匹配的情況則會向管理員發(fā)送警報,以便迅速采取行動。
并且它提供數(shù)據(jù)和模式漂移監(jiān)測,以保護管道和AI/ML模型的準(zhǔn)確性。過監(jiān)控意外內(nèi)容更改來提高 AI/ML 工作負(fù)載的準(zhǔn)確性。數(shù)據(jù)漂移規(guī)則根據(jù)關(guān)鍵指標(biāo)的容差閾值自動驗證更改。收到有關(guān)過度數(shù)據(jù)漂移的通知。檢測可能破壞管道或影響下游應(yīng)用程序的模式和表的結(jié)構(gòu)更改。了解何時添加、修改和刪除列。
然后它是通過機器學(xué)習(xí)自適應(yīng)企業(yè)數(shù)據(jù)環(huán)境,用戶可以添加標(biāo)簽,按目的、所有者或業(yè)務(wù)功能和評級對數(shù)據(jù)資產(chǎn)進行分類、聚類、關(guān)聯(lián)和自動標(biāo)記,以改進數(shù)據(jù)發(fā)現(xiàn)和管理
通過機器學(xué)習(xí)建立專業(yè)知識,利用基于人工智能的建議和自動警報做出快速反應(yīng),預(yù)測數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)團隊可以應(yīng)用這些建議快速解決常見問題。這些基于人工智能的建議可以提高生產(chǎn)力、準(zhǔn)確性和覆蓋率
那么是誰會用Torch呢?包括分析師、數(shù)據(jù)科學(xué)家和開發(fā)人員在內(nèi)的所有用戶都可以依靠 Torch 來觀察數(shù)據(jù)在倉庫或數(shù)據(jù)湖中的流動情況,并可以放心,不會丟失數(shù)據(jù)。
接下來我們看一下它的特點:首先它可以從任何數(shù)據(jù)源或湖中抓取數(shù)據(jù),Torch 使用爬蟲來獲取元數(shù)據(jù)并將其存儲在數(shù)據(jù)源中,并且根據(jù)數(shù)據(jù)源的不同,對元數(shù)據(jù)進行自動分類,同時確??梢暂p松搜索元數(shù)據(jù)。在 Torch中,每次數(shù)據(jù)源被云或大數(shù)據(jù)爬蟲抓取時,都會執(zhí)行模式漂移策略。在數(shù)據(jù)抓取過程中,根據(jù)源的類型, Torch收集不同類型的元數(shù)據(jù)。例如,為數(shù)據(jù)庫和數(shù)據(jù)倉庫收集的元數(shù)據(jù)可能包括模式、表、列和視圖,而查詢服務(wù)的元數(shù)據(jù)可能包括數(shù)據(jù)集、視圖和查詢域。Torch收集關(guān)于數(shù)據(jù)源的元數(shù)據(jù),并顯對模式的改變。當(dāng)變化出乎意料時,一個數(shù)據(jù)工程師可以深入了解模式的變化,然后去響應(yīng)問題、解決問題。
第二個是它能快速與企業(yè)數(shù)據(jù)源集成,Torch連接到任何流行的數(shù)據(jù)源,無論是在云中還是在本地。它能實時發(fā)現(xiàn)和驗證所有數(shù)據(jù)源中的數(shù)百萬行數(shù)據(jù),
我們知道一些數(shù)據(jù)團隊依賴手動 ETL 驗證腳本,ETL 驗證腳本旨在以有限的批次處理穩(wěn)定的靜態(tài)數(shù)據(jù)。他們無法處理來自復(fù)雜數(shù)據(jù)管道、跨云、混合和彈性系統(tǒng)架構(gòu)的連續(xù)數(shù)據(jù)流。隨著越來越多的企業(yè)走向數(shù)字化轉(zhuǎn)型,他們越來越需要分析傳入的實時數(shù)據(jù)流,但使用手動 ETL 驗證腳本會導(dǎo)致時間滯后,可能會導(dǎo)致失去商機。將 Torch之類的數(shù)據(jù)可觀察性平臺與 Kafka 一起使用,可以讓您更好地控制數(shù)據(jù)管道。使用 Torch 進行 Kafka 流式傳輸可讓你分析存儲在 Kafka 集群中的數(shù)據(jù)并監(jiān)控實時數(shù)據(jù)流的分布。事件是管道中任何出現(xiàn)的流或消息。使用 Torch,您可以監(jiān)控 Kafka 生態(tài)系統(tǒng)中的內(nèi)部事件,以獲得更快的吞吐量和更好的穩(wěn)定性。無需依賴 ETL 驗證腳本來清理和驗證傳入數(shù)據(jù),Torch 自動實時標(biāo)記不完整、不正確和不準(zhǔn)確的數(shù)據(jù),而無需任何手動干預(yù)。
最后它可以添加策略和業(yè)務(wù)規(guī)則以改進組織運作的方式,它可以根據(jù)用戶定義的策略監(jiān)控數(shù)據(jù),以識別數(shù)據(jù)和模式錯誤。它還監(jiān)測數(shù)據(jù)管道本身的可靠性,并顯示每個組件有關(guān)的信息。在 Torch中,每次對資產(chǎn)進行剖析時都會執(zhí)行數(shù)據(jù)漂移策略。在數(shù)據(jù)剖析過程中, Torch收集了有關(guān)數(shù)據(jù)結(jié)構(gòu)如何、各部分如何相互關(guān)聯(lián)以及個別記錄中的錯誤的信息。Torch還跟蹤每一個被執(zhí)行的剖析。通過比較針對同一數(shù)據(jù)資產(chǎn)運行的兩個配置文件之間的差異,數(shù)據(jù)工程師可以確定數(shù)據(jù)漂移錯誤首次出現(xiàn)的時間。
接下來看一下pulse的應(yīng)用場景:
第一個是屬于電信、金融服務(wù)、能源、物聯(lián)網(wǎng)、電子商務(wù)行業(yè)和任何依賴大量靜止數(shù)據(jù)和動態(tài)數(shù)據(jù)以滿足運營和分析需求的企業(yè)。
例如,假設(shè)您經(jīng)營一個電子商務(wù)商店,其中包含多個數(shù)據(jù)源(銷售交易、庫存數(shù)量、用戶分析),這些數(shù)據(jù)源整合到一個數(shù)據(jù)倉庫中。銷售部門需要銷售交易數(shù)據(jù)來生成財務(wù)報告。營銷部門依靠用戶分析數(shù)據(jù)來有效地開展?fàn)I銷活動。數(shù)據(jù)科學(xué)家依靠數(shù)據(jù)為產(chǎn)品推薦引擎訓(xùn)練和部署機器學(xué)習(xí)模型。如果其中一個數(shù)據(jù)源不同步或不正確,則可能會損害業(yè)務(wù)的不同方面。
數(shù)字業(yè)務(wù)依賴于流暢且響應(yīng)迅速的技術(shù)。網(wǎng)站或應(yīng)用程序的緩慢響應(yīng)可能會直接導(dǎo)致客戶流失。網(wǎng)站或數(shù)據(jù)系統(tǒng)的中斷可能會導(dǎo)致銷售損失和延誤,從而影響您的聲譽。
第二個就是依賴大量靜止數(shù)據(jù)和動態(tài)數(shù)據(jù)來滿足運營和分析需求的公司,第三個就是擁有 Amazon EMR, Amazon Glue, Amazon Redshift, Apache HBase, Azure SQL 等等這些產(chǎn)品的公司。
看一下Torch的架構(gòu),Torch將強大的數(shù)據(jù)質(zhì)量管理平臺與功能豐富的資產(chǎn)目錄、分析器、業(yè)務(wù)詞匯表等結(jié)合在一起。Torch 從底層數(shù)據(jù)源讀取和處理原始數(shù)據(jù)以及元信息,以收集各種指標(biāo)并驗證系統(tǒng)內(nèi)定義的數(shù)據(jù)質(zhì)量策略。Torch 被設(shè)計為一系列微服務(wù),它們協(xié)同工作以協(xié)調(diào)各種業(yè)務(wù)成果。此外,它使用 Apache spark 來運行卸載數(shù)據(jù)處理需求的作業(yè)。
首先建立數(shù)據(jù)源鏈接,然后由爬蟲遍歷數(shù)據(jù)源并提取元數(shù)據(jù),再將元數(shù)據(jù)信息發(fā)送到目錄服務(wù)器,通過其余的表示狀態(tài)傳輸調(diào)用目錄服務(wù)器正確索引它們,并將它們存儲在數(shù)據(jù)庫中,然后,您可以設(shè)置執(zhí)行以下操作的規(guī)則:分析數(shù)據(jù)。驗證數(shù)據(jù)源中的數(shù)據(jù)。使用 ETL(提取、轉(zhuǎn)換和加載)工具協(xié)調(diào)從另一個源系統(tǒng)加載到數(shù)據(jù)源的數(shù)據(jù)。用戶界面用于查看元數(shù)據(jù)并檢索有關(guān)其數(shù)據(jù)源中數(shù)據(jù)的有用信息,質(zhì)量規(guī)則可以設(shè)置自動運行或在執(zhí)行規(guī)則時的計劃 ,它會創(chuàng)建系統(tǒng)執(zhí)行。執(zhí)行結(jié)果決定了該時間段內(nèi)該規(guī)則是通過還是失敗,這將顯示在用戶界面中,你將通過電子郵件或slack收到通知。
Torch功能詳解
虹科云課堂
02
總結(jié)一下:我們的自動化機器學(xué)習(xí)會自動對您的數(shù)據(jù)資產(chǎn)進行分類,甚至理解大量的非結(jié)構(gòu)化數(shù)據(jù)集,包括敏感、相似和相關(guān)的數(shù)據(jù)資產(chǎn),并在幾分鐘內(nèi)進行自動分析、協(xié)調(diào)和分類。將相似的資產(chǎn)聚集在一起,并為相關(guān)資產(chǎn)賦予相同的標(biāo)簽。我們還會自動掃描您的數(shù)據(jù)資產(chǎn)以了解數(shù)據(jù)質(zhì)量,并提供準(zhǔn)確的一鍵式建議來解決多達 80% 的問題。進行檢測模式和數(shù)據(jù)漂移:提高動態(tài)數(shù)據(jù)處理,維護ML和AI的準(zhǔn)確性。它能夠增加數(shù)據(jù)消耗:發(fā)現(xiàn)數(shù)據(jù)、探索數(shù)據(jù)配置文件,并通過儀表板的自助服務(wù)快速訪問元數(shù)據(jù)。您的數(shù)據(jù)工程師可以圍繞自動掃描和觸發(fā)器設(shè)置多策略規(guī)則和計劃,并配置規(guī)則以掃描您的整個數(shù)據(jù)基礎(chǔ)架構(gòu),無論是分布式和異構(gòu)的。這可確保數(shù)據(jù)可靠,并為 AI、ML 和其他分析應(yīng)用程序提供準(zhǔn)確的結(jié)果。這使您的數(shù)據(jù)工程師能夠?qū)W⒂跒闃I(yè)務(wù)服務(wù)的工作,而不是日常故障排除。
Torch保證數(shù)據(jù)可靠性的三個點:
全面:Torch 監(jiān)控常見的數(shù)據(jù)質(zhì)量問題以及許多其他風(fēng)險,包括:協(xié)調(diào)動態(tài)數(shù)據(jù)、模式漂移以及數(shù)據(jù)趨勢和異常,以提供全面的數(shù)據(jù)可靠性
自動化:Torch 利用機器學(xué)習(xí)和易于掌握、用戶友好的 UI界面來快速管理跨大型和多樣化數(shù)據(jù)環(huán)境的數(shù)據(jù)可靠性
可擴展:Torch 利用在本地和所有主要云提供商上運行的分布式處理框架來確保數(shù)據(jù)能夠以現(xiàn)代業(yè)務(wù)的速度移動。
03
Torch保證企業(yè)數(shù)據(jù)可靠性的原因
虹科云課堂
第一個它能消除數(shù)據(jù)停機時間,超越數(shù)據(jù)監(jiān)控,通過整個數(shù)據(jù)管道,確保跨算法、模型、特性和源的數(shù)據(jù)可靠性和質(zhì)量。跨數(shù)據(jù)湖、倉庫和其他存儲庫監(jiān)控企業(yè)數(shù)據(jù),以消除影響可靠性的問題。然后它能擴展工作負(fù)載,確保關(guān)鍵任務(wù)數(shù)據(jù)和工作負(fù)載的可用性。最后一個是它能自動驗證數(shù)據(jù)質(zhì)量,對靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)進行分類、編目和管理業(yè)務(wù)規(guī)則。
其他精彩課程
虹科云課堂
1
什么是數(shù)據(jù)可觀察性?
2
虹科Pulse——數(shù)據(jù)處理的可觀察性解決方案
云科技事業(yè)部
虹科電子
虹科在工業(yè)、制造業(yè)領(lǐng)域深耕了長達20年,隨著云技術(shù)的全面發(fā)展和數(shù)字化工廠的逐步落地,虹科參與了越來越多的云主題的業(yè)務(wù),從最初的所有數(shù)據(jù)先統(tǒng)一采集上云,到后續(xù)的邊緣計算再上云,到現(xiàn)在的全面業(yè)務(wù)優(yōu)化、洞察研究、成本優(yōu)化等,虹科的云科技事業(yè)部已經(jīng)為行業(yè)的用戶實操并積累了豐富的解決方案和應(yīng)用場景。它們包括:資源監(jiān)控、安全保障、多云的互聯(lián)互通、應(yīng)用和數(shù)據(jù)牽引等。虹科云科技團隊在不斷順應(yīng)國家策略,從技術(shù)創(chuàng)新、標(biāo)準(zhǔn)制定、豐富生態(tài)、安全保障、節(jié)能減排等五個方面,不斷創(chuàng)造出更好的產(chǎn)品,幫助工業(yè)制造業(yè)的用戶實現(xiàn)數(shù)字化轉(zhuǎn)型、實現(xiàn)基于數(shù)據(jù)的降本增效。
虹科云科技工程師團隊不斷參與美國和歐洲產(chǎn)業(yè)內(nèi)先進的專家培訓(xùn),學(xué)習(xí)和實踐創(chuàng)新的技術(shù)手段、操作性強的應(yīng)用案例,并不斷引入到國內(nèi)的項目中完成落地和推廣,這讓我們團隊充滿了自豪感與使命感,賦予了我們當(dāng)今時代極大的技術(shù)價值、工作成就感。
-
數(shù)據(jù)管理
+關(guān)注
關(guān)注
1文章
294瀏覽量
19610
發(fā)布評論請先 登錄
相關(guān)推薦
評論