數(shù)據(jù)分析師Seth Grimes曾指出“80%的商業(yè)信息來自非結(jié)構(gòu)化數(shù)據(jù),主要是文本數(shù)據(jù)”,這一表述可能夸大了文本數(shù)據(jù)在商業(yè)數(shù)據(jù)中的占比,但是文本數(shù)據(jù)的蘊(yùn)含的信息價值毋庸置疑。KDnuggets的編輯、機(jī)器學(xué)習(xí)研究者和數(shù)據(jù)科學(xué)家Matthew Mayo就在網(wǎng)站上寫了一個有關(guān)文本數(shù)據(jù)分析的文章系列。本文是該系列的第一篇,主要講述了文本數(shù)據(jù)分析的大致步驟和框架。以下是論智對原文的編譯。
雖然NLP和文本挖掘不是一回事兒,但它們?nèi)允蔷o密相關(guān)的:它們處理同樣的原始數(shù)據(jù)類型、在使用時還有很多交叉。下面我們就來描述一下這些任務(wù)的處理步驟。
如今的文本數(shù)據(jù)量非常之大,許多都是從日常生活中產(chǎn)生的,其中既有結(jié)構(gòu)化的,也有半結(jié)構(gòu)化甚至混亂的數(shù)據(jù)。我們對此能做什么?事實(shí)上,能做的有很多,這取決于你的目標(biāo)是什么。
文本挖掘還是自然語言處理?
自然語言處理(NLP)關(guān)注的是人類的自然語言與計(jì)算機(jī)設(shè)備之間的相互關(guān)系。NLP是計(jì)算機(jī)語言學(xué)的重要方面之一,它同樣也屬于計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域。而文本挖掘和NLP的存在領(lǐng)域類似,它關(guān)注的是識別文本數(shù)據(jù)中有趣并且重要的模式。
但是,這二者仍有不同。首先,這兩個概念并沒有明確的界定(就像“數(shù)據(jù)挖掘”和“數(shù)據(jù)科學(xué)”一樣),并且在不同程度上二者相互交叉,具體要看與你交談的對象是誰。我認(rèn)為通過洞見級別來區(qū)分是最容易的。如果原始文本是數(shù)據(jù),那么文本挖掘就是信息,NLP就是知識,也就是語法和語義的關(guān)系。下面的金字塔表示了這種關(guān)系:
另一種區(qū)分這兩個概念的方法是用下方的韋恩圖區(qū)分,其中也涉及其他相關(guān)概念,從而能更好地表示它們之間重疊的關(guān)系。
我們的目的并不是二者絕對或相對的定義,重要的是要認(rèn)識到,這兩種任務(wù)下對數(shù)據(jù)的預(yù)處理是相同的。
努力消除歧義是文本預(yù)處理很重要的一個方面,我們希望保留原本的含義,同時消除噪音。為此,我們需要了解:
關(guān)于語言的知識
關(guān)于世界的知識
結(jié)合知識來源的方法
除此之外,下圖所示的六個因素也加大了文本數(shù)據(jù)處理的難度,包括非標(biāo)準(zhǔn)的語言表述、斷句問題、習(xí)慣用語、新興詞匯、常識以及復(fù)雜的名詞等等。
文本數(shù)據(jù)科學(xué)任務(wù)框架
我們能否為文本數(shù)據(jù)的處理制作一個高效并且通用的框架呢?我們發(fā)現(xiàn),處理文本和處理其他非文本的任務(wù)很相似,可以查看我之前寫的KDD Process作為參考。
以下就是處理文本任務(wù)的幾大主要步驟:
1.數(shù)據(jù)收集
獲取或創(chuàng)建語料庫,來源可以是郵箱、英文維基百科文章或者公司財(cái)報(bào),甚至是莎士比亞的作品等等任何資料。
2.數(shù)據(jù)預(yù)處理
在原始文本語料上進(jìn)行預(yù)處理,為文本挖掘或NLP任務(wù)做準(zhǔn)備
數(shù)據(jù)預(yù)處理分為好幾步,其中有些步驟可能適用于給定的任務(wù),也可能不適用。但通常都是標(biāo)記化、歸一化和替代的其中一種。
3.數(shù)據(jù)挖掘和可視化
無論我們的數(shù)據(jù)類型是什么,挖掘和可視化是探尋規(guī)律的重要步驟
常見任務(wù)可能包括可視化字?jǐn)?shù)和分布,生成wordclouds并進(jìn)行距離測量
4.模型搭建
這是文本挖掘和NLP任務(wù)進(jìn)行的主要部分,包括訓(xùn)練和測試
在適當(dāng)?shù)臅r候還會進(jìn)行特征選擇和工程設(shè)計(jì)
語言模型:有限狀態(tài)機(jī)、馬爾可夫模型、詞義的向量空間建模
機(jī)器學(xué)習(xí)分類器:樸素貝葉斯、邏輯回歸、決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)
序列模型:隱藏馬爾可夫模型、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTMs)
5.模型評估
模型是否達(dá)到預(yù)期?
度量標(biāo)準(zhǔn)將隨文本挖掘或NLP任務(wù)的類型而變化
即使不做聊天機(jī)器人或生成模型,某種形式的評估也是必要的
在下篇連載中,我將為大家?guī)碓谖谋緮?shù)據(jù)任務(wù)中,對數(shù)據(jù)預(yù)處理的框架的進(jìn)一步探索,敬請關(guān)注。
-
數(shù)據(jù)處理
+關(guān)注
關(guān)注
0文章
595瀏覽量
28554 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13552
原文標(biāo)題:文本數(shù)據(jù)分析(一):基本框架
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論