知識圖譜在圖書情報界稱為知識域可視化或知識領(lǐng)域映射地圖,是顯示知識發(fā)展進程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形。用可視化技術(shù)形象的描述學(xué)科知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。
隨著知識圖譜在搜索領(lǐng)域的大獲成功,以及知識圖譜進行中推廣,現(xiàn)在自然語言處理有明顯和知識圖譜結(jié)合的趨勢。特別是在特定領(lǐng)域的客服系統(tǒng)構(gòu)建模型中,這種趨勢就更明顯,因為這些系統(tǒng)往往要關(guān)聯(lián)很多領(lǐng)域的知識,而這種知識的整合和表示,很適合用知識圖譜來解決。
隨著知識圖譜基礎(chǔ)工程技術(shù)的完善和進步,圖譜構(gòu)建的容易程度也大大提高,所以自然語言處理和知識圖譜的結(jié)合就越來越成為趨勢。目前各項自然語言處理技術(shù)基本已經(jīng)比較成熟,但是很多技術(shù)的效果還達不到商用的水平。特別是在語義理解方面,和商用還有比較大的差距。不過隨著各個研究機構(gòu)和企業(yè)的不斷努力,技術(shù)研究也一直在不斷的進步。
對于新型的深度學(xué)習(xí)框架,目前在自然語言處理中的應(yīng)用還有待進一步加深和提高。比如對抗學(xué)習(xí)、對偶學(xué)習(xí)等雖然在圖像處理領(lǐng)域得到了比較好的效果,但是在自然語言處理領(lǐng)域的效果就稍微差一些。
目前人機對話、問答系統(tǒng)、語言翻譯是自然語言處理中的熱門領(lǐng)域,各大公司都有投入大量的精力在做自己的語音助手。這些上層的應(yīng)用,都依賴于底層技術(shù)和模型的進步,雖說整個自然語言處理的效果差強人意,但是對于底層技術(shù)的研究應(yīng)該說是目前研究的熱點。
知識結(jié)構(gòu)方法
要做算法研究,肯定需要一定的知識積累,對于知識積累這部分,建議是先學(xué)數(shù)學(xué)理論基礎(chǔ),學(xué)的順序可以是代數(shù)→概率論→隨機過程。當(dāng)然這里面每一科都是很大的一個方向,學(xué)的時候不必面面俱到,所有都深入理解,但是相對基礎(chǔ)的一些概念和這門學(xué)科主要講的是什么問題一定要記住。
在學(xué)習(xí)了一些基礎(chǔ)數(shù)學(xué)知識之后,就開始編寫算法。這里的算法模型,建議跟著具體的業(yè)務(wù)來學(xué)習(xí)和實踐,比如可以先從識別垃圾郵件這樣的demo進行學(xué)習(xí)實驗,可以改進里面的參數(shù)或者實現(xiàn)方法,看看能不能達到更好的效果。初步學(xué)習(xí)還是需要下苦功夫一步一步模仿,然后改進,才能深入的掌握相應(yīng)的內(nèi)容。
工具
工欲善其事必先利其器,所以好的工具往往能事半功倍。在工具的選擇上,建議最高優(yōu)先級的是Python,畢竟其的宣傳口語是:人生苦短,請用Python。第二優(yōu)先級的是Java,基于Java可以和現(xiàn)有的很多框架進行直接交互,比如Hadoop、Spark等等。
對于Java就要學(xué)習(xí)一些基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu),對于Python也可以按照這個思路,Python本身也是一個高級編程語言。掌握了基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)之后,也可以一步一步的實現(xiàn)具體的功能,在學(xué)習(xí)的時候,要多試驗,求同存異。
緊跟時代
自然語言處理領(lǐng)域也算是一個知識密集型的行業(yè),知識的更新迭代非常的快,要時刻關(guān)注行業(yè)、領(lǐng)域的最新進展。這個方面主要就是看一些論文和關(guān)注一些重要的學(xué)術(shù)會議,對于論文的獲取,Google Scholar、arxiv都是很好的工具和資源。
-
圖像處理
+關(guān)注
關(guān)注
27文章
1289瀏覽量
56722 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13552 -
知識圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7703
原文標(biāo)題:自然語言處理現(xiàn)狀和學(xué)習(xí)方法
文章出處:【微信號:NeXt8060,微信公眾號:HALCON圖像處理與機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論