ChatGPT出來以后很多人都在說開源,認為只要OpenAI大發(fā)善心或者哪個高超的黑客黑進服務(wù)器,把ChatGPT的源碼發(fā)出來放到網(wǎng)上,那么到不了第二天天亮,全世界就會人手一個ChatGPT。
這是一種常見的誤解。
開源字面意思是公開源代碼,過去我們通常是指公開某款軟件項目的源代碼。知名的譬如說Linux操作系統(tǒng),準確來說是操作系統(tǒng)內(nèi)核,我們拿到Linux的源碼,只要搭建好相應(yīng)的編譯環(huán)境,就能在本地編譯一套一模一樣的操作系統(tǒng)內(nèi)核。
當然,實際會復(fù)雜一點,同一套源碼用不同方法編譯,運行效率、資源占用等都可能不同。這里姑且不再細摳,總之,過去軟件開源給我們的印象就是,甭管什么閬苑仙葩,只要一開源就能人手一份,而且很快還會有各種換皮魔改,同人逼死官方。往好了說,這叫開源帶來澎湃力量。
但大語言模型的“開源”完全不是這么一回事。先別管OpenAI現(xiàn)在名叫鈕鈷祿氏·CloseAI,就算哪天良心發(fā)現(xiàn),真的要找回自己做一個名副其實的OpenAI,洗心革面把GPT-4給開源了。先別著急著高興,對于99%的人來說,GPT-4的源碼毫無意義,對于剩下的1%里的99%,可能也就蹭一些研究論文。只有最后剩下的1%里的1%才會有真正幫助,不過,也只是有幫助,但不算很大。
為什么?原因不復(fù)雜,因為大語言模型的所謂開源,實際上是有三個對象。源碼只是其中之一。我不是針對誰,在座各位即使拿到了源碼,剩下能做的也就只有點贊鼓掌。
人工智能三要素,算法、算力和數(shù)據(jù)。也有人管最后叫算據(jù),不太確定這倆詞是不是互通??傊?,到了力大飛磚的大語言模型時代,這三要素就成了算法、高算力和大數(shù)據(jù)。只有同時滿足這三大要素,你才有可能最終得到一款和ChatGPT類似效果拔群的模型。
那么,源碼在哪呢?在算法。算法的核心部分主要包括有模型結(jié)構(gòu)和訓(xùn)練方法,這兩部分都有對應(yīng)的源碼。哪天OpenAI公開源碼,我們應(yīng)該就能看到的也就是模型結(jié)構(gòu)和訓(xùn)練方法兩部分。
當然,這只是核心部分。一款人工智能產(chǎn)品,尤其是大型人工智能產(chǎn)品,還會有許多工程問題需要解決,除了核心還需要其它配套部件。別看到“配套部件”就覺得沒什么。之前同樣是OpenAI,配套部件大概占九成。所以,別管它Open不Open吧,我們能看到的都是冰山一角。
拿到源碼之后,真正的挑戰(zhàn)才剛開始。接下來才是這個世界絕大多數(shù)人、研究機構(gòu)和企業(yè)注定無法邁過的門檻:高算力和大數(shù)據(jù)。
高算力已經(jīng)說了很多了,門檻很高,但從全世界范圍來說,總歸有一些企業(yè)擠擠還是有的。不過,大數(shù)據(jù)就未必了。
數(shù)據(jù)非常重要。無論是人工智能時代,還是人工智障時代,擴大數(shù)據(jù)的規(guī)模、提高數(shù)據(jù)的質(zhì)量,通常都能顯著提高模型的最終表現(xiàn)。以前我們經(jīng)常自嘲,說人工智能就是投入多少人工就產(chǎn)出多少智能,人工做什么呢?就是標數(shù)據(jù)。
千萬不要小看了標數(shù)據(jù),這玩意費人、費錢,關(guān)鍵還費時間。搞一個大模型已經(jīng)十分不易,搞一個能喂飽大模型的數(shù)據(jù)集更為困難。OpenAI這種光啟動資金就10億刀的富二代企業(yè),標數(shù)據(jù)照樣也得想辦法省錢,后來還出了一條新聞。
這里插個的陰謀論,ChatGPT的免費用,換個角度看沒準就成了我們給OpenAI免費標數(shù)據(jù)。有沒有依據(jù)?有。OpenAI官方明著說了,你和ChatGPT的交互數(shù)據(jù)可能用于模型訓(xùn)練,要知道那可是一億多的用戶,那得生產(chǎn)多少高質(zhì)量的人工標注數(shù)據(jù)。技術(shù)領(lǐng)先優(yōu)勢可以追趕,數(shù)據(jù)領(lǐng)先優(yōu)勢則就未必了。
好了,假設(shè)你七星聚頂,三大要素都湊齊了,接下來是不是就能煉出ChatGPT了呢?前面我們說過,“你才有可能最終得到一款和ChatGPT類似效果拔群的模型”。為什么是有可能?因為模型訓(xùn)練和編譯源碼不太一樣,里面還包含一些難以言說的玄學(xué)因素。我一直對Bard的表現(xiàn)耿耿于懷,百思不得其解,我懷疑谷歌可能就是栽倒在玄學(xué)因素上面。
那么,現(xiàn)在很多研究者在呼吁的開源,到底是要開源什么呢?開源模型,具體來說,是開源訓(xùn)練好的模型參數(shù)。模型參數(shù)拿到手,基本上就能完整復(fù)現(xiàn)能力了。當然,這還是對于大企業(yè)、大機構(gòu)來說,運行大語言模型雖然消耗的算力遠不如訓(xùn)練,但也不是單卡就能負擔的。
何況,行話說的“單卡運行”,通常是指60G顯存往上。哥們那些打游戲的所謂高端顯卡,在這還沒夠上起步價。
最后多說兩句開源。開源很重要,人工智能能有今天的進步,開源功不可沒。人工智能的研究成果大概有幾種,首先就是論文。學(xué)術(shù)論文是要錢的,但是在人工智能領(lǐng)域,很多作者都免費公開了論文。當然,有些是論文,有些是名叫論文的文宣資料,通常倒數(shù)第三或者第四部分會放一些表格,表揚一下這次搞的模型在什么什么任務(wù)上面效果拔群,洋氣一點,叫SOTA。
然后是源碼。源碼不是必選項,有些研究者只發(fā)論文不發(fā)源碼,有一種原因是舍不得,覺得辛辛苦苦憋出來的成果不愿意簡簡單單就交給別人,當然也有可能覺得寫得太爛丟不起人,或者在論文里吹太過了,擔心別人復(fù)效不了質(zhì)疑。
還有就是模型。前面說過,模型這玩意距離能力復(fù)現(xiàn)就一步之遙,有很多人愛開源模型,也有很多人不愛開源模型,原因和上面差不多,還有一種是大公司大機構(gòu)才敢用,官方辭令很多,譬如“出于社會責(zé)任考慮”,或者“安全倫理存在巨大風(fēng)險”等等。
谷歌在21年就搞出了大語言模型LaMDA,說技術(shù)過于先進不便展示,害得我對著論文流了好多口水?,F(xiàn)在出來個Bard,還不如不展示。
這里為咱們的中文開源大語言模型打個Call吧,能講中文還開源的大語言模型真的不多,清華放出來的ChatGLM-6B應(yīng)該是佼佼者,而是真·單卡就能運行。這里說的是消費級顯卡。
最后就是開源數(shù)據(jù)集了,這項工作很重要,但也很容易被圈外忽視?,F(xiàn)在中文大語言模型缺的東西很多,抱怨的也很多,還有一票人天天平替這個平替那個,實在不知道怎么想。不過,講屁話沒有用,已經(jīng)有一些開源項目開始做起來,這都是星星之火。
審核編輯:劉清
-
Linux操作系統(tǒng)
+關(guān)注
關(guān)注
0文章
54瀏覽量
11043 -
OpenAI
+關(guān)注
關(guān)注
9文章
1079瀏覽量
6480 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1558瀏覽量
7592
原文標題:開源大模型到底開源什么?
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論