RM新时代还能玩多久,rm理财

將遷移學(xué)習(xí)應(yīng)用于計算機(jī)視覺模型的例子很常見，但如果將其用于文本分類，情況又會如何呢？不妨進(jìn)入TensorFlow Hub，這是通過遷移學(xué)習(xí)來增強(qiáng) TF 模型的內(nèi)容庫。遷移學(xué)習(xí)是這樣一種過程：選用已借助大量數(shù)據(jù)訓(xùn)練好的已有模型的權(quán)重和變量，并將其運用于自己的數(shù)據(jù)和預(yù)測任務(wù)。

遷移學(xué)習(xí)具有諸多好處，其中之一就是您無需像從頭開始訓(xùn)練時一樣提供自己的大量訓(xùn)練數(shù)據(jù)。但這些已有模型又來自何處呢？這正是 TensorFlow Hub 大顯身手之處：它可以為各類模型（圖像、文本等）提供現(xiàn)有模型檢查點的完整存儲區(qū)。在本篇博文中，我將介紹如何使用 TensorFlow Hub 文本模塊構(gòu)建一個模型，以根據(jù)相關(guān)描述預(yù)測電影類型。

您可以使用Colab在瀏覽器中運行此模型，無需任何設(shè)置。

導(dǎo)入數(shù)據(jù)并進(jìn)行預(yù)處理

在這個模型中，我們將使用Kaggle 電影數(shù)據(jù)集這個出色的公共領(lǐng)域資源。該數(shù)據(jù)集包含逾 45000 部電影的數(shù)據(jù)，每部電影均有大量相關(guān)數(shù)據(jù)。為簡便起見，我們僅使用該數(shù)據(jù)集中的電影描述（稱作 “簡介”）和電影類型。下面是該數(shù)據(jù)集在 Kaggle 中的預(yù)覽：

注：Kaggle 電影數(shù)據(jù)集鏈接

https://www.kaggle.com/rounakbanik/the-movies-dataset/home

首先，我們將導(dǎo)入要使用的內(nèi)容庫，以構(gòu)建此模型：

1import numpy as np

2import pandas as pd

4import tensorflow as tf

5import tensorflow_hub as hub

7from sklearn.preprocessing import MultiLabelBinarizer

我已經(jīng)將這個數(shù)據(jù)集的 CSV 文件放在一個公共 Cloud Storage 存儲分區(qū)中。我們可以運行如下命令，將數(shù)據(jù)下載到我們的 Colab 實例中，并讀取為 Pandas dataframe 格式：

1!wget 'https://storage.googleapis.com/movies_data/movies_metadata.csv'

2data = pd.read_csv('movies_metadata.csv')

4descriptions = data['overview']

5genres = data['genres']

為簡便起見，我們將可能的類型限定為下列幾種：

1top_genres = ['Comedy', 'Thriller', 'Romance', 'Ac tion', 'Horror', 'Crime', 'Documentary', 'Adventure', 'Science Fiction']

我們將數(shù)據(jù)集限定為這些類型中描述非空白的電影，然后按照 80% 訓(xùn)練和 20% 測試的比例將數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集：

1train_size = int(len(descriptions) * .8)

3train_descriptions = descriptions[:train_size]

4train_genres = genres[:train_size]

6test_descriptions = descriptions[train_size:]

7test_genres = genres[train_size:]

使用 TF Hub 構(gòu)建嵌入層

以 TF Hub 創(chuàng)建嵌入層時僅需使用極少量代碼。我們的模型僅有一個特征（描述），并將表示為一個嵌入列。文本嵌入提供了在向量空間表示文本內(nèi)容的方法，如此一來，嵌入空間中相似的字詞或句子會更靠近（您可在此處閱讀更多相關(guān)內(nèi)容）。您可以完全使用自己的數(shù)據(jù)從頭開始構(gòu)建文本嵌入向量。TF Hub 可提供已使用各種文本數(shù)據(jù)訓(xùn)練過的文本嵌入，因而能夠簡化這一過程。

注：文本嵌入鏈接

https://www.tensorflow.org/hub/modules/text

對于英文文本，TF Hub 提供了各種已使用不同種類文本數(shù)據(jù)訓(xùn)練過的嵌入：

通用語句編碼器 (Universal sentence encoder)：用于較長的文本輸入

ELMo：使用十億單詞基準(zhǔn) (1B Word Benchmark) 訓(xùn)練過的深度嵌入

神經(jīng)網(wǎng)絡(luò)語言模型 (Neural Network Language Model)嵌入：通過 Google 新聞訓(xùn)練

Word2vec：通過 Wikipedia 訓(xùn)練

您所選擇的預(yù)訓(xùn)練文本嵌入是您模型中的一個超參數(shù)，所以最好用不同的文本嵌入進(jìn)行試驗，看看哪個的準(zhǔn)確性最高。先從用與您的文本最接近的文本訓(xùn)練過的模型開始。由于我們的電影描述都是較長的輸入，因此，我發(fā)現(xiàn)使用通用語句編碼器嵌入的準(zhǔn)確性最高。這可以將我們的描述編碼為高維文本向量。請注意，這一特定模型很大，會占用 1GB 容量。

注：通用語句編碼器鏈接

https://www.tensorflow.org/hub/modules/google/universal-sentence-encoder/2

我們可以使用 hub.text_embedding_column，以一行代碼為該層創(chuàng)建一個特征列，并向其傳遞我們層的名稱 (“movie_descriptions”) 和要使用的 TF Hub 模型網(wǎng)址：

1description_embeddings = hub.text_embedding_column(

2"movie_descriptions",

3module_spec="https://tfhub.dev/google/universal-sentence-encoder/2"

請注意，該單元正在下載預(yù)訓(xùn)練過的嵌入，因此需要一些時間來運行。

此操作最大的好處在于，我們無需進(jìn)行任何預(yù)處理，即可將文本描述饋送至預(yù)訓(xùn)練過的字詞嵌入。如果從頭開始構(gòu)建此模型，我們就需要自己將描述轉(zhuǎn)換為向量，但使用 TF Hub 列，我們可以將描述字符串直接傳遞至模型。

將標(biāo)簽變?yōu)?multi-hot 編碼

由于一部電影往往具有多種類型，所以我們的模型會為每部電影返回多個可能的標(biāo)簽。我們的類型目前是每部電影有一個字符串列表（例如 [‘Action’, ‘Adventure’]）。由于每個標(biāo)簽的長度必須相同，所以我們要將這些列表轉(zhuǎn)換為由 1 和 0（與特定描述中的類型相對應(yīng)）組成的 multi-hot 向量。動作冒險片的 multi-hot 向量如下所示：

注：多個可能的標(biāo)簽鏈接

https://en.wikipedia.org/wiki/Multi-label_classification

1# Genre lookup, each genre corresponds to an index

2top_genres = ['Comedy', 'Thriller', 'Romance', 'Action', 'Horror', 'Crime', 'Documentary', 'Adventure', 'Science Fiction']

4# Multi-hot label for an action and adventure movie

5[0 0 0 1 0 0 0 1 0]

要用短短幾行代碼將字符串標(biāo)簽轉(zhuǎn)換為 multi-hot 向量，我們需要使用名為 MultiLabelBinarizer 的 Scikit Learn 實用程序：

1encoder = MultiLabelBinarizer()

2encoder.fit_transform(train_genres)

3train_encoded = encoder.transform(train_genres)

4test_encoded = encoder.transform(test_genres)

5num_classes = len(encoder.classes_)

您可以打印 encoder.classes_，查看模型預(yù)測的所有字符串類列表。

構(gòu)建并訓(xùn)練 DNNEstimator 模型

針對我們的模型，我們將使用 DNNEstimator 構(gòu)建能夠返回 multi-hot 向量的深度神經(jīng)網(wǎng)絡(luò)，這是因為每部電影會具有 0 個或多個可能的標(biāo)簽（這與每個輸出正好有一個標(biāo)簽的模型不同）。我們傳遞至 DNNEstimator 的第一個參數(shù)稱作 head，且此參數(shù)會定義我們的模型預(yù)期具有的標(biāo)簽類型。我們希望我們的模型可以輸出多個標(biāo)簽，所以我們在這里使用 multi_label_head：

1multi_label_head = tf.contrib.estimator.multi_label_head(

2num_classes,

3loss_reduction=tf.losses.Reduction.SUM_OVER_BATCH_SIZE

現(xiàn)在，當(dāng)我們實例化 DNNEstimator 時，便可對其進(jìn)行傳遞。hidden_units 參數(shù)表示我們網(wǎng)絡(luò)中的層數(shù)。此模型有 2 個層，第一層有 64 個神經(jīng)元，第二層有 10 個。層數(shù)和層大小是超參數(shù)，所以您應(yīng)當(dāng)嘗試不同的值，看看哪個最適合您的數(shù)據(jù)集。最后，我們將特征列傳遞至估算器。在本例中，我們只有一個特征列（即描述），而且在上文中已將其定義為 TF Hub 嵌入列，所以在此我們可以將其作為列表傳遞：

1estimator = tf.contrib.estimator.DNNEstimator(

2head=multi_label_head,

3hidden_units=[64,10],

4feature_columns=[description_embeddings]

我們基本準(zhǔn)備就緒，很快就可以開始訓(xùn)練模型了。在訓(xùn)練估算器實例之前，我們需要定義訓(xùn)練輸入函數(shù)。輸入函數(shù)可以將我們的數(shù)據(jù)與模型聯(lián)系起來。在這里，我們將使用 numpy_input_fn，并將我們的數(shù)據(jù)作為 Numpy 數(shù)組饋送至模型：

1# Format our data for the numpy_input_fn

2features = {

3"descriptions": np.array(train_descriptions)

5labels = np.array(train_encoded)

7train_input_fn = tf.estimator.inputs.numpy_input_fn(

8features,

9labels,

10shuffle=True,

11batch_size=32,

12num_epochs=20

13)

我們輸入函數(shù)中的 batch_size 和 num_epochs 參數(shù)都是超函數(shù)。batch_size 可告知我們的模型在一次迭代中會有多少示例傳遞至模型，而 num_epochs 是指我們的模型完成整個訓(xùn)練集的次數(shù)。

現(xiàn)在可以開始訓(xùn)練我們的模型了。只用一行代碼即可：

1estimator.train(input_fn=train_input_fn)

為了評估模型的準(zhǔn)確性，我們用自己的測試數(shù)據(jù)創(chuàng)建一個 eval 函數(shù) input_function，然后調(diào)用 estimator.evaluate()：

1eval_input_fn = tf.estimator.inputs.numpy_input_fn({"descriptions": np.array(test_descriptions).astype(np.str)}, test_encoded.astype(np.int32), shuffle=False)

3estimator.evaluate(input_fn=eval_input_fn)

此模型的 AUC 達(dá)到 91.5%，而查準(zhǔn)率/查全率為 74%。您的結(jié)果可能稍有不同。

使用我們已訓(xùn)練的模型生成預(yù)測結(jié)果

現(xiàn)在到了最精彩的部分：根據(jù)我們的模型從未見過的數(shù)據(jù)生成預(yù)測結(jié)果。首先，我們設(shè)置一個包含一些描述的數(shù)組（我從 IMDB 中獲取這些描述）：

1raw_test = [

2"An examination of our dietary choices and the food we put in our bodies. Based on Jonathan Safran Foer's memoir.", # Documentary

3"A teenager tries to survive the last week of her disastrous eighth-grade year before leaving to start high school.", # Comedy

4"Ethan Hunt and his IMF team, along with some familiar allies, race against time after a mission gone wrong." # Action, Adventure

然后，我們定義預(yù)測輸入函數(shù)并調(diào)用 predict()：

1predict_input_fn = tf.estimator.inputs.numpy_input_fn({"descriptions": np.array(raw_test).astype(np.str)}, shuffle=False)

3results = estimator.predict(predict_input_fn)

最后，我們可以迭代訪問結(jié)果，并顯示為每部電影找到的前 2 個類型及其置信度值：

1for movie_genres in results:

2top_2 = movie_genres['probabilities'].argsort()[-2:][::-1]

3for genre intop_2:

4text_genre = encoder.classes_[genre]

5print(text_genre + ': ' + str(round(movie_genres['probabilities'][genre] * 100, 2)) + '%')

我們的模型能夠正確標(biāo)記上述所有電影描述。

使用入門

想用 TF Hub 開始構(gòu)建自己的模型嗎？請參閱此文檔和教程。您可以在GitHub或Colab上找到本文所述的完整模型代碼。在之后的博文中，我會介紹如何導(dǎo)出此模型，以用于 TensorFlow Serving 或 Cloud ML Engine，并構(gòu)建可根據(jù)新描述生成預(yù)測結(jié)果的應(yīng)用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24689
tensorflow

tensorflow

+關(guān)注

關(guān)注
13

文章
329

瀏覽量
60527
遷移學(xué)習(xí)

遷移學(xué)習(xí)

+關(guān)注

關(guān)注
0

文章
74

瀏覽量
5559

原文標(biāo)題：使用 TensorFlow Hub 和估算器構(gòu)建文本分類模型

文章出處：【微信號：tensorflowers，微信公眾號：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

如何使用TensorFlow構(gòu)建機(jī)器學(xué)習(xí)模型

在這篇文章中，我將逐步講解如何使用 TensorFlow 創(chuàng)建一個簡單的機(jī)器學(xué)習(xí)模型。

發(fā)表于 01-08 09:25 ?967次閱讀

如何使用<b class='flag-5'>TensorFlow</b><b class='flag-5'>構(gòu)建</b>機(jī)器學(xué)習(xí)<b class='flag-5'>模型</b>

高階API構(gòu)建模型和數(shù)據(jù)集使用

能擬合或逼近現(xiàn)實世界中事物或現(xiàn)象的數(shù)學(xué)模型，故樣本數(shù)據(jù)大，可以覆蓋事物或現(xiàn)象所有特征時，可以越準(zhǔn)確的識別事物，這也是大數(shù)據(jù)時代，數(shù)據(jù)是燃料的觀點。TensorFlow是一個神經(jīng)網(wǎng)絡(luò)軟件

發(fā)表于 11-04 07:49

如何構(gòu)建文本生成器？如何實現(xiàn)馬爾可夫鏈以實現(xiàn)更快的預(yù)測模型

Compose，聊天機(jī)器人都是應(yīng)用的例子，本文將使用馬爾可夫鏈構(gòu)建一個文本生成器。這將是一個基

發(fā)表于 11-22 15:06

谷歌推出了AdaNet，一個基于TensorFlow的輕量化框架

AdaNet采用TensorFlow估計器的交互界面，它通過簡單訓(xùn)練、評估，大大簡化了機(jī)器學(xué)習(xí)的編程過程。它把TensorFlow Hub模塊、Te

發(fā)表于 11-05 15:27 ?3126次閱讀

訓(xùn)練一個機(jī)器學(xué)習(xí)模型，實現(xiàn)了根據(jù)基于文本分析預(yù)測葡萄酒質(zhì)量

我們可以把上述的其他信息也引入作為特征參數(shù)，這樣就能構(gòu)建出一個更全面的模型來預(yù)測葡萄酒質(zhì)量。為了將文字描

發(fā)表于 05-16 18:27 ?6144次閱讀

PyTorch Hub發(fā)布獲Yann LeCun強(qiáng)推一行代碼調(diào)用經(jīng)典模型

全新API PyTorch Hub提供模型的基本構(gòu)建模塊，用于提高機(jī)器學(xué)習(xí)研究的模型復(fù)現(xiàn)性。

發(fā)表于 06-12 14:41 ?2375次閱讀

Facebook新推出了一個深度學(xué)習(xí)工具包：PyTorch Hub

TensorFlow Hub是一個共享可重用的機(jī)器學(xué)習(xí)平臺，主要面向開發(fā)者，谷歌希望TensorFlow

發(fā)表于 06-15 09:58 ?4773次閱讀

如何構(gòu)建一個雙編碼器神經(jīng)網(wǎng)絡(luò)模型

這個例子需要TensorFlow 2.4或更高版本。此外，BERT模型需要TensorFlow Hub和TensorFlow Text，Ad

發(fā)表于 03-02 15:59 ?2536次閱讀

如何在TensorFlow中構(gòu)建并訓(xùn)練CNN模型

在TensorFlow中構(gòu)建并訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型是一

發(fā)表于 07-04 11:47 ?883次閱讀

如何使用Tensorflow保存或加載模型

TensorFlow是一個廣泛使用的開源機(jī)器學(xué)習(xí)庫，它提供了豐富的API來構(gòu)建和訓(xùn)練各種深度學(xué)習(xí)模型。在

發(fā)表于 07-04 13:07 ?1476次閱讀

keras模型轉(zhuǎn)tensorflow session

在這篇文章中，我們將討論如何將Keras模型轉(zhuǎn)換為TensorFlow session。 Keras和TensorFlow簡介 Keras是一個

發(fā)表于 07-05 09:36 ?510次閱讀

tensorflow簡單的模型訓(xùn)練

TensorFlow開始，然后介紹如何構(gòu)建和訓(xùn)練一個簡單的神經(jīng)網(wǎng)絡(luò)模型。 1. 安裝TensorFlow

發(fā)表于 07-05 09:38 ?625次閱讀

神經(jīng)網(wǎng)絡(luò)預(yù)測模型的構(gòu)建方法

神經(jīng)網(wǎng)絡(luò)模型作為一種強(qiáng)大的預(yù)測工具，廣泛應(yīng)用于各種領(lǐng)域，如金融、醫(yī)療、交通等。本文將詳細(xì)介紹神經(jīng)網(wǎng)絡(luò)預(yù)測模型的

發(fā)表于 07-05 17:41 ?641次閱讀

利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

要利用TensorFlow實現(xiàn)一個基于深度神經(jīng)網(wǎng)絡(luò)（DNN）的文本分類模型，我們首先需要明確幾個關(guān)鍵步驟：數(shù)據(jù)預(yù)處理、

發(fā)表于 07-12 16:39 ?828次閱讀

如何使用Python構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)模型

numpy tensorflow 2. 準(zhǔn)備數(shù)據(jù) LSTM模型通常用于序列數(shù)據(jù)，比如時間序列預(yù)測或文本生成。這里我們以

發(fā)表于 11-13 10:10 ?325次閱讀

RM新时代网站-首页

搜索歷史

如何使用TensorFlow Hub文本模塊構(gòu)建一個模型，以根據(jù)相關(guān)描述預(yù)測電影類型

評論

如何使用TensorFlow構(gòu)建機(jī)器學(xué)習(xí)模型

高階API構(gòu)建模型和數(shù)據(jù)集使用

如何構(gòu)建文本生成器？如何實現(xiàn)馬爾可夫鏈以實現(xiàn)更快的預(yù)測模型

谷歌推出了AdaNet，一個基于TensorFlow的輕量化框架

訓(xùn)練一個機(jī)器學(xué)習(xí)模型，實現(xiàn)了根據(jù)基于文本分析預(yù)測葡萄酒質(zhì)量

PyTorch Hub發(fā)布獲Yann LeCun強(qiáng)推一行代碼調(diào)用經(jīng)典模型

Facebook新推出了一個深度學(xué)習(xí)工具包：PyTorch Hub

如何構(gòu)建一個雙編碼器神經(jīng)網(wǎng)絡(luò)模型

如何在TensorFlow中構(gòu)建并訓(xùn)練CNN模型

如何使用Tensorflow保存或加載模型

keras模型轉(zhuǎn)tensorflow session

tensorflow簡單的模型訓(xùn)練

神經(jīng)網(wǎng)絡(luò)預(yù)測模型的構(gòu)建方法

利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

如何使用Python構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)模型

搜索歷史

如何使用TensorFlow Hub文本模塊構(gòu)建一個模型，以根據(jù)相關(guān)描述預(yù)測電影類型

評論

如何使用TensorFlow Hub文本模塊構(gòu)建一個模型，以根據(jù)相關(guān)描述預(yù)測電影類型