傳統(tǒng)的銀行、保險行業(yè)的人工柜臺、信貸申請、承保和理賠等業(yè)務除了在數據庫中記錄交易信息,往往也會產生大量的非結構化數據:身份證照片、紙質文件掃描件、取證文件掃描件、現(xiàn)場照片等,依據金融行業(yè)相關法規(guī)要求,這些文件需長期保存,以便于后督審計和避免可能存在的法律風險。
隨著互聯(lián)網金融的迅猛發(fā)展,金融行業(yè)的競爭日趨白熱化,越來越多的金融公司希望金融科技能夠幫助企業(yè)降低攬客成本和客戶服務成本,提升辦公效率和風險評估效率。為此,各大金融機構競相實施金融科技項目,如:智能化柜臺,降低營業(yè)網點業(yè)務開通成本;無紙化柜臺,提升柜臺工作和服務效率;理賠智能手機客戶端,提升用戶理賠效率;智能化信貸審核,提升風險評估效率,降低人力投入成本;基礎架構云化、容器化,提升基礎資源的利用和管理效率等。
這些新型金融科技的背后,顯而易見地會產生海量的圖片、文檔、音頻和視頻等非結構化數據,其文件個數和數據量都呈現(xiàn)爆發(fā)性增長,對原有的存儲系統(tǒng)架構帶來了更多的新挑戰(zhàn)。
海量非結構化數據帶來的挑戰(zhàn)
對業(yè)務部門來說,海量小文件的訪問性能至關重要,直接關系到終端用戶的體驗,而一個股份制銀行省分行的柜臺系統(tǒng)、信貸系統(tǒng)每年會新增上億個文件,大量小文件對文件存儲是一大挑戰(zhàn),而很多銀行已經在考慮如何實現(xiàn)文件大集中。
而隨著VTM(遠程虛擬銀行服務系統(tǒng))、雙錄系統(tǒng)的上線,存儲容量需求高速增長,如保險公司銀保的雙錄數據半年即可增加數百TB數據,存儲是否能夠提供高吞吐能力,來保障音視頻文件的讀寫性能是重要的關注點。
大多數金融機構已經采用分布式數據庫、大數據技術,來實現(xiàn)歷史數據的在線統(tǒng)一存儲和查詢,而非結構化數據的存儲規(guī)??赡軙_到PB級甚至EB級,在這種情況下如何實現(xiàn)數據的統(tǒng)一存儲和管理、歷史數據的實時查詢、未來的大數據分析,對存儲高度智能化的管理能力提出了更高的要求。
當前IaaS層云化是大趨勢,私有云實現(xiàn)了計算和存儲資源的云化,分布式數據庫實現(xiàn)了結構化數據的云化,云化后的資源可按需分配、彈性擴展。而非結構化數據存儲的云化卻缺乏很好的解決方案,尤其是隨著音視頻數據的加入,占用的存儲空間越來越大,而這些數據的單位價值不高,如何降低單位存儲成本也需重點考量。
為了解決銀行、保險關鍵系統(tǒng)(如:柜臺、信貸、承保、理賠等)的海量票據、證件、合同等文件數量龐大且不斷累積導致的存儲性能和擴展性瓶頸問題,金融行業(yè)非結構化數據存儲的技術發(fā)展經歷了四個階段:
NAS存儲階段
在金融行業(yè)早期文件數量不多、存儲容量不大的階段, 金融客戶普遍采用NAS外置存儲設備來放置影像資料,但隨著文件的海量增長,單臺NAS可管理的文件數量和容量都出現(xiàn)了瓶頸。在實際項目中我們看到,用戶的文件數量達到數千萬時,訪問時延可能達到秒級,這將直接影響到對最終用戶的金融服務體驗。而增加多臺NAS外置存儲設備,又會導致存儲管理復雜性更高,同一應用系統(tǒng)數據存放在不同設備上導致數據割裂。在中大型企業(yè),IT人員將花費大量時間完成IT運維變更審批流程,同時還要時刻提防這種頻繁變更可能導致的IT運維風險,無法真正聚焦在為業(yè)務創(chuàng)造價值上。
ECM階段
隨著文件數量的增加,金融機構開始引入ECM(企業(yè)內容管理系統(tǒng)),ECM統(tǒng)一管理多個NAS外置存儲設備,并可動態(tài)增加NAS,對外提供統(tǒng)一的名字空間,文件管理規(guī)模相對于單臺NAS存儲大大增加。同時,ECM系統(tǒng)還支持文件的屬性存放和屬性檢索,可以實現(xiàn)跨業(yè)務系統(tǒng)的文件檢索,滿足文件管理的需要。
但由于ECM接口為非標準協(xié)議,需要專門進行應用開發(fā),應用改造成本高,目前主要應用在金融的柜臺、信貸和后督的影像系統(tǒng)。更重要的是,ECM的投資成本較高,百TB數據的存儲成本高達數百萬,不適合存儲音視頻等價值密度較低的數據,維護的成本也非常高。
分布式數據庫階段
隨著大數據技術、MPP分布式數據庫在金融行業(yè)的興起,金融行業(yè)嘗試利用這些技術解決非結構化數據存儲問題,對于海量小文件性能和擴展性確實有較大突破,且分布式數據庫可以實現(xiàn)文件元數據的統(tǒng)一存儲和檢索,滿足對內容管理的需求。
但分布式數據庫是結構化存儲架構,替換文件存儲存在很多局限性。首先,由于MPP分布式數據庫的架構限制,很難實現(xiàn)傳統(tǒng)存儲的部分高級功能,如:糾刪碼功能(類似分布式RAID)、文件去重等,導致存儲成本過高,不適用于音視頻等低價值密度數據的存儲。其次,受限于SQL接口,無法實現(xiàn)目錄和子目錄的權限管理、配額管理、目錄快照回滾等傳統(tǒng)NAS存儲的基本功能,導致數據缺乏安全性機制及數據可靠性保障機制。此外,SQL、NoSQL作為文件存儲,標準性差、接口使用復雜,不便于企業(yè)用戶使用。該技術方案在部分金融機構嘗試后,未能成為主流形態(tài)大范圍推廣應用。
對象存儲階段
反觀互聯(lián)網行業(yè),近幾年隨著移動互聯(lián)網和智能手機的蓬勃發(fā)展,微信、直播、短視頻等新型應用帶來的非結構化數據量已遠遠超過金融行業(yè)。由于數據量大、文件數多,因此需要尋找性價比高的存儲方案,互聯(lián)網在十年前就已經開始采用基于x86服務器的分布式架構來解決海量數據存儲問題,出現(xiàn)過的技術包括谷歌的GoogleFS、亞馬遜的S3、阿里的FastDFS等基于HTTP訪問協(xié)議的文件存儲方案,由于亞馬遜的公有云影響力,AWS S3對象存儲逐步成為互聯(lián)網行業(yè)的事實標準,目前阿里、騰訊、華為的公有云都采用兼容S3協(xié)議的對象存儲技術。
對象存儲的技術特點是基于x86服務器+分布式存儲軟件技術構建統(tǒng)一存儲池,利用服務器本地磁盤實現(xiàn)PB級甚至EB級的大規(guī)模存儲集群,可擴展性強。軟硬件解耦,可實現(xiàn)硬件的動態(tài)淘汰和更新,無需像NAS進行設備更新時要完成數據遷移。采用簡化的文件操作接口,單一名字空間可管理的文件數量相比NAS大數百倍?;贖TTP協(xié)議的SDK訪問,無需掛載操作系統(tǒng),應用可直接訪問,適合應用云化和容器化場景及手機APP程序訪問場景。協(xié)議標準化,符合基礎架構標準化需求且與公有云兼容,便于應用系統(tǒng)在公有云和私有云間無縫遷移。
除了具備對象存儲的基本特點,杉巖分布式對象存儲軟件聚焦金融行業(yè),幫助金融客戶構建本地私有云存儲資源池。同時,將互聯(lián)網對象存儲技術進行深度產品化,并推出了更多的特性:
兼容FTP/文件接口,支持金融行業(yè)傳統(tǒng)應用實現(xiàn)向對象存儲的平滑遷移;
支持文件元數據和元數據檢索,代替ECM功能,滿足企業(yè)內容管理需求;
支持目錄快照和快照策略、文件多版本和快速回滾,實現(xiàn)非結構化數據免備份,解決磁帶庫備份帶寬不足和調取慢的問題;
支持多數據中心容災及數據中心AA模式,實現(xiàn)業(yè)務的就近讀寫訪問;
一套環(huán)境同時支持副本和糾刪碼(類似分布式RAID),兼顧金融核心業(yè)務系統(tǒng)的性能和音視頻存儲成本型應用需求;
支持數據冷熱自動分層,滿足業(yè)務性能的同時,降低歷史冷數據的存儲成本。
綜上所述,隨著金融科技的不斷引入,非結構化數據類型更多、數據量增長更快,存儲需要對數據進行統(tǒng)一管理和利用,金融行業(yè)的IT管理者需要根據信息化需求選擇更為合適和具有前瞻性的存儲方案。未來,能夠結合大數據分析、人工智能技術,實現(xiàn)對金融海量非結構化數據的價值挖掘,推動金融行業(yè)蓬勃發(fā)展。
【關于杉巖數據】
企業(yè)級軟件定義存儲(SDS)方案和服務提供商,“+存儲”理念的倡導者和踐行者,由來自世界500強企業(yè)的專業(yè)存儲團隊為技術班底組成。幫助企業(yè)級用戶輕松應對IT向云遷移的存儲挑戰(zhàn),為大數據時代的商業(yè)決策提供智能存儲。
評論
查看更多