RM新时代正规网址|首入球时间,rm新时代理财官网

摘要：寶信和英特爾相關(guān)團(tuán)隊(duì)利用Analytics Zoo在無(wú)監(jiān)督的基于時(shí)間序列異常檢測(cè)用例上進(jìn)行了有益的合作探索，本文分享了合作項(xiàng)目的結(jié)果和經(jīng)驗(yàn)。

背景----

在工業(yè)制造行業(yè)，有多種方法來(lái)避免由于設(shè)備失效導(dǎo)致的生產(chǎn)中斷。常見(jiàn)的方法是定期檢修維護(hù)，或者提前更換設(shè)備零部件，這些方法都可能會(huì)增加設(shè)備維護(hù)和更換的投入。然而，另一個(gè)可行的方法是收集不同設(shè)備的大量振動(dòng)數(shù)據(jù)，并使用這些數(shù)據(jù)自動(dòng)檢測(cè)設(shè)備狀態(tài)的異常。因此，有效地收集大量的時(shí)間序列數(shù)據(jù)并且大規(guī)模地進(jìn)行異常和失效檢測(cè)，對(duì)于降低工業(yè)制造行業(yè)中的的很多不必要的成本是非常關(guān)鍵的。

Recurrent neural networks (RNNs)循環(huán)神經(jīng)網(wǎng)絡(luò)，特別是Long short term memory models (LSTMs)長(zhǎng)短期記憶模型現(xiàn)在被廣泛應(yīng)用于信號(hào)處理，時(shí)間序列分析等場(chǎng)景。作為connectionist模型，RNNs可以提取網(wǎng)絡(luò)節(jié)點(diǎn)中的動(dòng)態(tài)序列。在這個(gè)項(xiàng)目中，我們利用LSTM來(lái)模擬震動(dòng)信號(hào)的統(tǒng)計(jì)學(xué)規(guī)律，并且使用了來(lái)自辛辛那提大學(xué)的IMS全生命周期數(shù)據(jù) (http://ti.arc.nasa.gov/c/3/)來(lái)展示設(shè)備異常檢測(cè)的分析流程。

Analytics Zoo解決方案

Analytics Zoo (https://github.com/intel-analytics/analytics-zoo)是一個(gè)基于Apache Spark和BigDL等構(gòu)建的analytics （分析）+AI（人工智能）的平臺(tái)，由英特爾開(kāi)源，該平臺(tái)能夠方便地讓用戶將端到端的基于大數(shù)據(jù)的深度學(xué)習(xí)應(yīng)用直接部署在已有的Hadoop/Spark的大數(shù)據(jù)集群上，而無(wú)需安裝專用的GPU設(shè)備。

我們已經(jīng)在Apache Spark和Analytics Zoo上創(chuàng)建了端到端的基于LSTM的異常檢測(cè)流程，可以應(yīng)用于大規(guī)模時(shí)間序列數(shù)據(jù)的無(wú)監(jiān)督深度學(xué)習(xí)。作為L(zhǎng)STM模型的輸入數(shù)據(jù)的是一系列設(shè)備震動(dòng)信號(hào)，比如在當(dāng)前時(shí)間點(diǎn)之前50秒的信號(hào)數(shù)據(jù)，通過(guò)這些信號(hào)數(shù)據(jù)，經(jīng)過(guò)訓(xùn)練的模型可以預(yù)測(cè)下一個(gè)數(shù)據(jù)點(diǎn)。當(dāng)下一個(gè)數(shù)據(jù)點(diǎn)和模型預(yù)測(cè)的數(shù)據(jù)點(diǎn)有較大偏差，我們認(rèn)為該數(shù)據(jù)為異常數(shù)據(jù)。圖1所示為一個(gè)端到端的數(shù)據(jù)處理流程。

圖1：基于Analytics Zoo的振動(dòng)時(shí)間序列異常檢測(cè)處理流程.

1. 處理流程從Spark集群讀取原始數(shù)據(jù)并構(gòu)造RDD（resilient distributed datasets）彈性分布式數(shù)據(jù)集，并抽取特征，最后把特征輸出到Dataframe。在原始數(shù)據(jù)集中，每個(gè)數(shù)據(jù)描述了一個(gè)檢測(cè)失效（test-to-failure）的實(shí)驗(yàn)，并包含了時(shí)長(zhǎng)為1秒的20K赫茲采樣的即時(shí)振動(dòng)信號(hào)（如圖2所示）。為了訓(xùn)練深度學(xué)習(xí)模型，每一秒的統(tǒng)計(jì)數(shù)據(jù)被提取作為特征數(shù)據(jù)，包括均方根（Root Mean Square），峰度（Kurtosis），峰值（ Peak）, 以及小波包分解得到的8個(gè)頻段的能量值。

2. 處理流程進(jìn)一步在RDD中處理這些特征數(shù)據(jù)，包括數(shù)值的小波去噪處理、標(biāo)準(zhǔn)化處理（normalize）和滑動(dòng)平均處理，以50秒為基準(zhǔn)展開(kāi)特征數(shù)據(jù)序列，以便于深度學(xué)習(xí)模型可以通過(guò)前50秒的模式來(lái)預(yù)測(cè)下一個(gè)數(shù)據(jù)點(diǎn)，并最終把數(shù)據(jù)轉(zhuǎn)換為Sample RDD。(https://bigdl-project.github.io/master/#APIGuide/Data/#sample).

3. 處理流程使用Analytics Zoo中提供的類Keras API來(lái)創(chuàng)建時(shí)間序列異常檢測(cè)模型，包括如圖所示的三個(gè)LSTM層和一個(gè)密集層，并通過(guò)數(shù)據(jù)訓(xùn)練這個(gè)模型（前50個(gè)點(diǎn)訓(xùn)練下一個(gè)點(diǎn)）。

 val model = Sequential[Float]()
  model.add(LSTM[Float](8, returnSequences = true, inputShape = inputShape))
  model.add(Dropout[Float](0.2))
  model.add(LSTM[Float](32, returnSequences = true))
  model.add(Dropout[Float](0.2))
  model.add(LSTM[Float](15, returnSequences = false))
  model.add(Dropout[Float](0.2))
  model.add(Dense[Float](outputDim = 1))

4. 接下來(lái)是模型評(píng)估：使用測(cè)試數(shù)據(jù)或者全部數(shù)據(jù)來(lái)檢測(cè)異常。異常數(shù)據(jù)是指遠(yuǎn)離RNN模型預(yù)測(cè)的數(shù)據(jù)點(diǎn)。在這個(gè)項(xiàng)目中，我們指定異常數(shù)據(jù)為整體數(shù)據(jù)集的10%，也就是距離模型預(yù)測(cè)數(shù)值最遠(yuǎn)的那10%數(shù)據(jù)為異常數(shù)據(jù)。這個(gè)篩選比例設(shè)置為可調(diào)整參數(shù)，可以為每個(gè)單獨(dú)案例進(jìn)行調(diào)整。

圖2：時(shí)間點(diǎn)2004.02.13.14.32.39上四通道的振動(dòng)數(shù)據(jù)

測(cè)試結(jié)果

圖3顯示了原始振動(dòng)數(shù)據(jù)和LSTM模型預(yù)測(cè)數(shù)據(jù)的對(duì)比。只有峰值和均方根這兩個(gè)統(tǒng)計(jì)數(shù)值顯示出來(lái)，其他統(tǒng)計(jì)數(shù)值具有相似的波動(dòng)。圖中所示紅點(diǎn)為被識(shí)別的異常數(shù)據(jù)，橙色線條為L(zhǎng)STM模型的預(yù)測(cè)數(shù)值，藍(lán)色線條為原始數(shù)值。經(jīng)過(guò)訓(xùn)練的模型最終成功預(yù)測(cè)了設(shè)備的失效，以及在經(jīng)過(guò)600個(gè)時(shí)間點(diǎn)之后的震動(dòng)尖峰，在時(shí)間序列早期的一些波動(dòng)可以作為設(shè)備失效的預(yù)警信息。

a), peak

b), RMS

圖3: RNN預(yù)測(cè)數(shù)值和原始震動(dòng)數(shù)值的比較

結(jié)論

通過(guò)利用無(wú)監(jiān)督深度學(xué)習(xí)，以及Analytics Zoo提供的端到端處理流程，我們可以有效地在大數(shù)據(jù)集和標(biāo)準(zhǔn)大數(shù)據(jù)集群（Hadoop, Spark等）上應(yīng)用時(shí)間序列異常檢測(cè)。通過(guò)收集、處理大量的時(shí)間序列數(shù)據(jù)（比如日志，傳感器讀數(shù)等），應(yīng)用RNN來(lái)學(xué)習(xí)數(shù)據(jù)模式，最終預(yù)判數(shù)據(jù)和判定異常數(shù)據(jù)，Analytics Zoo提供的端到端處理流程能夠?yàn)樵S多新興的智能系統(tǒng)如智能制造、智能運(yùn)維、物聯(lián)網(wǎng)等提供解決方案?；跁r(shí)間序列的異常檢測(cè)在設(shè)備的智能監(jiān)控和

預(yù)測(cè)性維護(hù)上可以得到重要應(yīng)用。

參考文獻(xiàn)

1. https://github.com/intel-analytics/analytics-zoo

2. https://github.com/intel-analytics/BigDL

3. https://www.kaggle.com/victorambonati/unsupervised-anomaly-detection

4. https://iwringer.wordpress.com/2015/11/17/anomaly-detection-concepts-and-techniques/

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

Hadoop

Hadoop

+關(guān)注

關(guān)注
1

文章
90

瀏覽量
15974
Apache

Apache

+關(guān)注

關(guān)注
0

文章
64

瀏覽量
12463
SPARK

SPARK

+關(guān)注

關(guān)注
1

文章
105

瀏覽量
19891

評(píng)論

相關(guān)推薦

基于Intel Analytics Zoo上分布式TensorFlow的美的/KUKA工業(yè)檢測(cè)平臺(tái)

本文中，我們將分享我們?cè)诿赖?/ KUKA ，使用英特爾 Analytics Zoo （一個(gè)基于 Apache Spark 、 TensorFlow 和 BigDL 的開(kāi)源數(shù)據(jù)分析 + AI

發(fā)表于 10-17 10:30 ?6838次閱讀

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】全書(shū)概覽與時(shí)間序列概述

模型、指數(shù)平滑方法、Prophet,以及神經(jīng)網(wǎng)絡(luò),例如循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)、Transformer、Informer 等。 ●第4章“時(shí)間序列異常檢測(cè)”:介紹

發(fā)表于 08-07 23:03

【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 了解時(shí)間序列

據(jù)分析處理的專業(yè)書(shū)籍。再看一下目錄結(jié)構(gòu)：可看出書(shū)的前五章以理論為主，先后介紹了時(shí)間序列分析的基礎(chǔ)知識(shí)、時(shí)間序列的信息提取、時(shí)間

發(fā)表于 08-11 17:55

介紹有關(guān)時(shí)間序列預(yù)測(cè)和時(shí)間序列分類

通過(guò)之前有關(guān)LSTM的8遍基礎(chǔ)教程和10篇處理時(shí)間序列預(yù)測(cè)任務(wù)的教程介紹，使用簡(jiǎn)單的序列數(shù)據(jù)示例，已經(jīng)把LSTM的原理，數(shù)據(jù)處理流程，模型架

發(fā)表于 07-12 09:18

怎樣去搭建一套用于多步時(shí)間序列預(yù)測(cè)的LSTM架構(gòu)？

如何開(kāi)發(fā)和評(píng)估家庭電力數(shù)據(jù)集的預(yù)測(cè)模型？LSTM在多步時(shí)間序列預(yù)測(cè)方面具有哪些優(yōu)勢(shì)？怎樣去搭建一套用于多步時(shí)間序列預(yù)測(cè)的

發(fā)表于 07-22 06:19

如何基于Keras和Tensorflow用LSTM進(jìn)行時(shí)間序列預(yù)測(cè)

為了做到這一點(diǎn)，我們需要先對(duì)CSV文件中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換，把處理后的數(shù)據(jù)加載到pandas的數(shù)據(jù)框架中。之后，它會(huì)輸出numpy數(shù)組，饋送進(jìn)LSTM。Keras的LSTM一般輸入(N, W, F)三維numpy數(shù)組，其中N表示訓(xùn)練數(shù)據(jù)中的

發(fā)表于 09-06 08:53 ?2.1w次閱讀

如何使用頻繁模式發(fā)現(xiàn)進(jìn)行時(shí)間序列異常檢測(cè)詳細(xì)方法概述

針對(duì)傳統(tǒng)異常片段檢測(cè)方法在處理增量式時(shí)間序列時(shí)效率低的問(wèn)題，提出一種基于頻繁模式發(fā)現(xiàn)的時(shí)間序列

發(fā)表于 11-28 11:09 ?5次下載

Analytics Zoo: 統(tǒng)一的大數(shù)據(jù)分析+AI 平臺(tái)

怎么應(yīng)用 Analytics Zoo ？比如在阿里云上面部署 EMR，使用 Analytics Zoo。

發(fā)表于 07-02 11:18 ?4792次閱讀

基于時(shí)間卷積網(wǎng)絡(luò)的通用日志序列異常檢測(cè)框架

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的日志序列異常檢測(cè)模型對(duì)短序列有較好的檢測(cè)能力，但對(duì)長(zhǎng)序列的

發(fā)表于 03-30 10:29 ?8次下載

一種多維時(shí)間序列汽車駕駛異常點(diǎn)檢測(cè)模型

針對(duì)傳統(tǒng)異常點(diǎn)檢測(cè)模型難以準(zhǔn)確分析汽車駕駛異常行為的情況，建立一種基于自動(dòng)編碼器與孤立森林算法的多維時(shí)間序列汽車駕駛

發(fā)表于 05-26 16:32 ?2次下載

一種新的無(wú)監(jiān)督時(shí)間序列異常檢測(cè)方法

時(shí)間序列數(shù)據(jù)是生活中常見(jiàn)的一種數(shù)據(jù)，在時(shí)間順序上具有一定規(guī)律，且大量存在于金融貿(mào)易、工業(yè)生產(chǎn)、環(huán)境保護(hù)、網(wǎng)絡(luò)安全等眾多領(lǐng)域。時(shí)間序列

發(fā)表于 08-10 11:29 ?2685次閱讀

采用基于時(shí)間序列的日志異常檢測(cè)算法應(yīng)用

目前，日志異常檢測(cè)算法采用基于時(shí)間序列的方法檢測(cè)異常，具體為：日志結(jié)構(gòu)化 -> 日志模式識(shí)別 -

發(fā)表于 12-09 10:47 ?1646次閱讀

智能電網(wǎng)時(shí)間序列異常檢測(cè):a survey

故障、中斷、外部網(wǎng)絡(luò)攻擊或能源欺詐引起的。識(shí)別這些異常對(duì)于現(xiàn)代電網(wǎng)的可靠和高效運(yùn)行至關(guān)重要。對(duì)電網(wǎng)時(shí)間序列數(shù)據(jù)進(jìn)行異常檢測(cè)的方法有很多種。本

發(fā)表于 04-04 16:13 ?0次下載

時(shí)間序列分析的異常檢測(cè)綜述

時(shí)間序列是在不同時(shí)點(diǎn)記錄一個(gè)或多個(gè)變量值的數(shù)據(jù)。例如，每天訪問(wèn)網(wǎng)站的人數(shù)、每月城市的 average 溫度、每小時(shí)的股票價(jià)格等。時(shí)間序列非常重要，因?yàn)樗鼈冊(cè)试S我們分析過(guò)去，理解現(xiàn)在，并

發(fā)表于 03-11 09:36 ?616次閱讀

LSTM神經(jīng)網(wǎng)絡(luò)在時(shí)間序列預(yù)測(cè)中的應(yīng)用

時(shí)間序列預(yù)測(cè)是數(shù)據(jù)分析中的一個(gè)重要領(lǐng)域，它涉及到基于歷史數(shù)據(jù)預(yù)測(cè)未來(lái)值。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，長(zhǎng)短期記憶（LSTM）神經(jīng)網(wǎng)絡(luò)因其在處理序列數(shù)據(jù)方面的優(yōu)勢(shì)而受到廣泛關(guān)注。

發(fā)表于 11-13 09:54 ?564次閱讀