目前隨著高性能計(jì)算、生命科學(xué)、地質(zhì)遙感、遙感測繪、數(shù)據(jù)分析、數(shù)據(jù)挖掘、蛋白質(zhì)折疊、基因工程、醫(yī)療影像等快速發(fā)展,當(dāng)今社會朝著信息化發(fā)展,依托網(wǎng)絡(luò)信息技術(shù)和無處不在的傳感器、微處理器,每一個人、每一個部門、每一種行業(yè)都會以數(shù)據(jù)的形式被儲存,我們已經(jīng)處于一個“大數(shù)據(jù)”的時代。
在大數(shù)據(jù)處理平臺的建設(shè)以及基于平臺的日志分析過程中,會遇到如下問題:
擴(kuò)展性
當(dāng)日志數(shù)據(jù)量達(dá)到一定限度之后,無論是日志數(shù)據(jù)存儲、分析、查詢,都會受到極大的限制,系統(tǒng)的橫向擴(kuò)展性的能力將是系統(tǒng)建設(shè)的重要考量之一。
價格
系統(tǒng)的橫向擴(kuò)展,必然會帶來軟件、硬件成本的增加,以及后期升級、維護(hù)、擴(kuò)展成本的投入也是系統(tǒng)擴(kuò)展面臨的挑戰(zhàn)。
性能
日志數(shù)據(jù)急劇膨脹動輒達(dá)到幾十?TB、甚至上百?TB,面對如此海量的數(shù)據(jù), 若要進(jìn)行高效?SQL?的計(jì)算、分析,為業(yè)務(wù)提供有效的指導(dǎo),必須要滿足業(yè)務(wù)允許的時間要求。
平臺的易用性
數(shù)據(jù)處理平臺易用性也是系統(tǒng)建設(shè)的關(guān)鍵問題,能否提供一個簡單、方便為上層應(yīng)用使用的平臺,或者可以將現(xiàn)有應(yīng)用方便遷移到新建設(shè)的大數(shù)據(jù)平臺也是面臨的挑戰(zhàn)。平臺的易用性將直接影響到平臺的建設(shè)、應(yīng)用的建設(shè)將直接影響工作成本。
在建立分析模型的過程中,需要對參數(shù)進(jìn)行合理的配置組合,同時也需要隨著業(yè)務(wù)的發(fā)展不斷完善。藍(lán)海大腦通過多年的努力,成功研制出機(jī)柜冷板式、浸沒式兩種液冷散熱解決方案,具有高性能、高密度、擴(kuò)展性強(qiáng)、低碳綠色節(jié)能等特點(diǎn)。液冷機(jī)柜支持4~8臺液冷服務(wù)器,每臺液冷服務(wù)器支持1~16塊 GPU顯卡,適用于深度學(xué)習(xí)訓(xùn)練及推理、生命科學(xué)、醫(yī)藥研發(fā)、虛擬仿真等場景,液冷解決方案覆蓋服務(wù)器、水冷工作站、數(shù)據(jù)中心等多種產(chǎn)品形態(tài)。藍(lán)海大腦大數(shù)據(jù)平臺主要包括智能分析工具和數(shù)據(jù)智能開發(fā)兩部分。智能分析工具作為數(shù)據(jù)資源和應(yīng)用開發(fā)的中間環(huán)節(jié),為算法模型、知識、服務(wù)等資源的集成和管理提供支持。數(shù)據(jù)智能開發(fā)基于智能分析工具,開展大數(shù)據(jù)融合挖掘典型應(yīng)用。
?
智能分析工具
智能分析工具作為連接數(shù)據(jù)資源和應(yīng)用開發(fā)的紐帶,是實(shí)現(xiàn)時空信息服務(wù)資源、信息共享和服務(wù)統(tǒng)籌的基礎(chǔ)。面向多領(lǐng)域環(huán)境圖像識別、自然語言處理等人工智能開發(fā)應(yīng)用需求,主要通過支撐工具集框架、模型算法開發(fā)、數(shù)據(jù)語義提取和標(biāo)注、樣本數(shù)據(jù)庫制作、智能圖像識別分析算法集、綜合檢索服務(wù)、智能推薦工具集、自然語言處理分析工具集,完成智能分析服務(wù)、工具集、算法集、模型集的構(gòu)建,為信息融合和應(yīng)用開發(fā)提供平臺工具支持,形成智能分析處理開發(fā)和應(yīng)用服務(wù)。
?
智能分析工具建設(shè)具體包括以下內(nèi)容:
智能分析框架
采用微服務(wù)架構(gòu),支持常用的模型計(jì)算框架。通過模型管理、模型部署、模型二次開發(fā)、模型評估、通用算法和自定義算法等功能模塊,形成一個靈活性強(qiáng)、可靠性高、兼容性好、響應(yīng)能力快的智能模型服務(wù)支撐框架。
算法開發(fā)
采用互聯(lián)網(wǎng)通用的大數(shù)據(jù)挖掘、建模和預(yù)測技術(shù)。通過構(gòu)建模型算法開發(fā)工具、資源組件拼接、參數(shù)配置和優(yōu)化、模型算法迭代學(xué)習(xí)和通用分析算法集五大功能模塊,形成大數(shù)據(jù)計(jì)算分析模型的一站式構(gòu)建、共享、訓(xùn)練、部署和監(jiān)控,實(shí)現(xiàn)各級人員快速自主的大數(shù)據(jù)計(jì)算分析目的。
樣本制作與管理
根據(jù)典型特征識別、重點(diǎn)目標(biāo)識別和綜合檢索模型學(xué)習(xí)對大量樣本標(biāo)注輸入的需求,通過樣本制作與管理、典型特征識別與變化檢測的樣本庫、重點(diǎn)目標(biāo)識別與變化監(jiān)測的樣本庫、語料標(biāo)注樣本庫提供樣本標(biāo)注工具,從而形成對多源異構(gòu)樣本的有效組織、管理和維護(hù),解決典型特征識別、重點(diǎn)目標(biāo)識別和綜合檢索模型學(xué)習(xí)的樣本缺乏和制作時間長的問題。
智能圖像識別分析
采用智能圖像處理技術(shù)和機(jī)器學(xué)習(xí)方法。通過典型地物智能提取與變化檢測、重點(diǎn)目標(biāo)智能提取與變化檢測、專題圖制備、多源DSM通用提取與檢測四種分析算法,形成典型地物自動提取與變化監(jiān)測能力,解決了人工提取典型地物與變化監(jiān)測工作量大、時間長的問題。
自然語言處理與分析
為環(huán)境、測繪、氣象、導(dǎo)航、地理、地質(zhì)等領(lǐng)域的數(shù)據(jù)提供快速、準(zhǔn)確、大規(guī)模、自動化的自然語言處理工具。通過句子語義理解模塊、信息分類聚類模塊、關(guān)鍵詞觀點(diǎn)提取模塊和實(shí)體專業(yè)領(lǐng)域識別模塊。
綜合檢索
采用智能全文檢索技術(shù),提供時空大數(shù)據(jù)索引庫、時空大數(shù)據(jù)關(guān)聯(lián)詞庫、智能綜合檢索工具、空間數(shù)據(jù)全局搜索引擎和智能問答,形成時空大數(shù)據(jù)綜合檢索能力。
智能推薦
采用成熟推薦技術(shù)的發(fā)展和應(yīng)用成果,分析研究不同用戶的興趣、愛好和行為,利用智能推薦算法進(jìn)行時空數(shù)據(jù)的智能推薦,提高時空數(shù)據(jù)的精準(zhǔn)、主動智能服務(wù)功能,解決快速增長的時空數(shù)據(jù)利用率低、時效性差的問題。
知識圖譜構(gòu)建
采用自然語言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、關(guān)系網(wǎng)絡(luò)分析、圖計(jì)算等技術(shù)?;谧匀徽Z言處理等支撐工具,構(gòu)建時空大數(shù)據(jù)知識圖譜平臺。通過模型構(gòu)建、知識提取、知識融合、知識推理等過程。支持典型領(lǐng)域和方向的時空大數(shù)據(jù)知識圖譜構(gòu)建,支持時空大數(shù)據(jù)智能推薦等應(yīng)用。
數(shù)據(jù)智能
數(shù)據(jù)智能開發(fā)面向數(shù)據(jù)和人工智能的應(yīng)用保障需求?;诮y(tǒng)一的數(shù)據(jù)服務(wù)和工具集,構(gòu)建大數(shù)據(jù)智能開發(fā)框架,開發(fā)重點(diǎn)目標(biāo)智能識別與監(jiān)測分析、典型特征智能提取與融合、基于大數(shù)據(jù)的時空環(huán)境分析、時空環(huán)境知識圖譜等四大數(shù)據(jù)融合挖掘典型應(yīng)用,豐富和提升成果數(shù)據(jù),實(shí)現(xiàn)時空環(huán)境大數(shù)據(jù)服務(wù)體系能力形成,為大數(shù)據(jù)服務(wù)體系智能數(shù)據(jù)輸出提供前端應(yīng)用接口,提供建設(shè)中的網(wǎng)絡(luò)信息。
數(shù)據(jù)智能開發(fā)建設(shè)內(nèi)容包含以下內(nèi)容:
數(shù)據(jù)智能開發(fā)框架
采用基于微服務(wù)的架構(gòu)設(shè)計(jì),支持使用統(tǒng)一的數(shù)據(jù)支持工具,為桌面端和Web數(shù)據(jù)應(yīng)用開發(fā)提供統(tǒng)一支持。
重點(diǎn)目標(biāo)智能識別、監(jiān)控和分析子系統(tǒng)
采用大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)等技術(shù)。并基于多源時空數(shù)據(jù)和大數(shù)服務(wù)系統(tǒng)的支撐工具集和數(shù)據(jù)開發(fā)框架,通過對重點(diǎn)目標(biāo)的智能識別定位、重點(diǎn)目標(biāo)的監(jiān)控分析、目標(biāo)的立體觀測,形成對重點(diǎn)目標(biāo)的快速識別定位、廣域全時監(jiān)控和立體監(jiān)控的能力,達(dá)到全面了解目標(biāo)的能力。判斷目標(biāo)的潛力及時發(fā)現(xiàn)和查明預(yù)警信息,準(zhǔn)確分析時空環(huán)境,實(shí)時掌握時空態(tài)勢,從而達(dá)到準(zhǔn)確高效保障時空環(huán)境的目的。
典型地物智能提取與融合子系統(tǒng)
采用深度學(xué)習(xí)技術(shù)。通過樣本數(shù)據(jù)庫制作和模型算法研發(fā),構(gòu)建典型地物智能提取與融合應(yīng)用子系統(tǒng),形成典型地物識別與監(jiān)測、專題數(shù)據(jù)制作等能力??山鉀Q地面地物識別慢、自動化程度低、智能動態(tài)監(jiān)測程度低、響應(yīng)不及時等問題,為復(fù)雜行動提供多種專題數(shù)據(jù)和基于多因素的綜合分析評估。
基于大數(shù)據(jù)的時空環(huán)境分析子系統(tǒng)
以機(jī)器學(xué)習(xí)自動獲取遙感信息、多光譜遙感影像等關(guān)鍵技術(shù)為基礎(chǔ),構(gòu)建了時空環(huán)境現(xiàn)狀數(shù)據(jù)準(zhǔn)備、環(huán)境態(tài)勢時空演變分析與預(yù)測等典型應(yīng)用場景模塊。
時空知識圖譜構(gòu)建子系統(tǒng)
采用自然語言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、關(guān)系網(wǎng)絡(luò)分析、圖計(jì)算等技術(shù)。通過只是提取、數(shù)據(jù)語義提取和標(biāo)注、本體庫構(gòu)建地圖表達(dá)等流程,實(shí)現(xiàn)空間數(shù)據(jù)與文本、圖片、互聯(lián)網(wǎng)信息等非空間數(shù)據(jù)的關(guān)聯(lián)、交流和可視化表達(dá),構(gòu)建典型目標(biāo)知識圖譜,為其他應(yīng)用系統(tǒng)提供聯(lián)合分析能力,解決數(shù)據(jù)利用率低、關(guān)聯(lián)分析弱的問題。
?
藍(lán)海大腦大數(shù)據(jù)平臺硬件搭建
藍(lán)海大腦深度學(xué)習(xí)大數(shù)據(jù)平臺是由藍(lán)海大腦推出的一款面向多源空間數(shù)據(jù)生產(chǎn)的數(shù)據(jù)處理平臺,該平臺集成存儲、計(jì)算和數(shù)據(jù)處理軟件,旨在為大數(shù)據(jù)時代的行業(yè)用戶提供一個低成本的數(shù)據(jù)處理平臺,利用其高效、易操作、低成本、多層次擴(kuò)展和快速部署等顯著優(yōu)勢,在測繪、農(nóng)業(yè)、林業(yè)、水利、環(huán)保等領(lǐng)域提升用戶圖像處理能力,減少投資成本,高效應(yīng)對大數(shù)據(jù)挑戰(zhàn),促成業(yè)務(wù)突破和轉(zhuǎn)型。
主要技術(shù)指標(biāo)
可 靠 性:平均故障間隔時間MTBF≥15000 h
工作溫度:5~40 ℃
工作濕度:35 %~80 %
存儲溫度:-40~55 ℃
存儲濕度:20 %~90 %
聲? ? ? ?噪:≤35dB
產(chǎn)品特點(diǎn):
基于統(tǒng)一的整體架構(gòu),采用先進(jìn)成熟可靠的技術(shù)與軟硬件平臺,保證基礎(chǔ)數(shù)據(jù)平臺易擴(kuò)展、易升級、易操作、易維護(hù)等特性?;跇I(yè)界熱門,且領(lǐng)先的 Spark 技術(shù),極速提高平臺的整體計(jì)算性能。
隨著新的業(yè)務(wù)需求的不斷產(chǎn)生,支持基礎(chǔ)數(shù)據(jù)模型、應(yīng)用分析模型、前端應(yīng)用的擴(kuò)展性;支持在統(tǒng)一系統(tǒng)架構(gòu)中服務(wù)器、存儲、I/O 設(shè)備等的可擴(kuò)展性。?
制定并實(shí)施基礎(chǔ)數(shù)據(jù)平臺高可用性方案、運(yùn)行管理監(jiān)控制度、運(yùn)行維護(hù)制度、故障處理預(yù)案等,保證系統(tǒng)在多用戶、多節(jié)點(diǎn)等復(fù)雜環(huán)境下的可靠性。?
高效性包含兩方面內(nèi)容,一方面系統(tǒng)需要在規(guī)定時間內(nèi)完成數(shù)據(jù)寫入操作,并將數(shù)據(jù)寫入對數(shù)據(jù)分析的影響降到最低;另一方面系統(tǒng)需要實(shí)現(xiàn)規(guī)劃要求的數(shù)據(jù)查詢和統(tǒng)計(jì)分析速度。
數(shù)據(jù)質(zhì)量貫穿基礎(chǔ)數(shù)據(jù)平臺系統(tǒng)建設(shè)的每個環(huán)節(jié),基礎(chǔ)數(shù)據(jù)平臺系統(tǒng)通過合理的數(shù)據(jù)質(zhì)量管理解決方案保證數(shù)據(jù)質(zhì)量。?
具有超強(qiáng)影像處理能力,每天(24小時)可處理多達(dá)500景對(全色和多光譜)高分一號影像數(shù)據(jù);
廣泛適用于基礎(chǔ)測繪、農(nóng)業(yè)、林業(yè)、水利、環(huán)保等領(lǐng)域,適合常規(guī)模式下測繪產(chǎn)品生產(chǎn)和應(yīng)急模式下快速影像圖生成。
針對大數(shù)據(jù)原始技術(shù)存在的問題,藍(lán)海大腦大數(shù)據(jù)平臺從企業(yè)應(yīng)用角度出發(fā),對 Apache Hadoop 進(jìn)行了系列技術(shù)開發(fā),形成了適應(yīng)企業(yè)級應(yīng)用的一站式大數(shù)據(jù)平臺——藍(lán)海大腦,從而使這一理論框架更能滿足各類企業(yè)用戶的要求:
超大數(shù)據(jù)的分布式存儲、流數(shù)據(jù)實(shí)時計(jì)算要求
滿足大數(shù)據(jù)的高并發(fā)、低延遲查詢請求
分布式應(yīng)用系統(tǒng)異常故障時,業(yè)務(wù)切換
系統(tǒng)線性擴(kuò)展時,無需增加開發(fā)工作,實(shí)現(xiàn)無成本擴(kuò)展
有良好的人機(jī)接口靈活多樣的展現(xiàn)方式,需要對最終用戶提供適當(dāng)?shù)呐嘤?xùn)就可以方便地使用新的分析工具,從而減少 IT 人員的工作量,同時加強(qiáng)了集群監(jiān)管的時效性。
系統(tǒng)要有統(tǒng)一的管理平臺, 管理基礎(chǔ)數(shù)據(jù)平臺系統(tǒng)的各個環(huán)節(jié),能對系統(tǒng)進(jìn)行相應(yīng)的性能管理和日志監(jiān)控。?
按國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、安全規(guī)范等實(shí)現(xiàn)數(shù)據(jù)安全管理。?
評論
查看更多