谷歌大型模型終于開放源代碼，遲到但重要的開源戰(zhàn)略

妙手、本手還是俗手？

昨夜，谷歌罕見地改變了去年堅持的“大模型閉源”策略，推出了“開源”大模型 Gemma。

Gemma 采用了與 Gemini 相同的技術(shù)，由谷歌 DeepMind 與谷歌其他團(tuán)隊共同合作開發(fā)，在拉丁文中意為 “寶石”。

Gemma 包括兩種權(quán)重規(guī)模的模型：Gemma 2B 與 Gemma 7B，每種規(guī)模都有預(yù)訓(xùn)練與指令微調(diào)版本。同時，谷歌還推出了一系列工具，旨在支持開發(fā)者創(chuàng)新，促進(jìn)合作，并指導(dǎo)如何負(fù)責(zé)任地使用 Gemma 模型。

這樣一來，谷歌在大模型領(lǐng)域形成了雙線作戰(zhàn)——閉源領(lǐng)域?qū)?OpenAI，開源領(lǐng)域?qū)?Meta。

在人工智能領(lǐng)域，谷歌可以算是開源的鼻祖。今天幾乎所有的大語言模型，都基于谷歌在 2017 年發(fā)布的 Transformer 論文；谷歌的發(fā)布的 BERT、T5，都是最早的一批開源 AI 模型。

然而，自從 OpenAI 在 2022 年底發(fā)布閉源的 ChatGPT，谷歌也開始轉(zhuǎn)向閉源策略。此后，開源大模型被 Meta 的Llama 主導(dǎo)，后來被稱為“歐洲版 OpenAI”的法國開源大模型公司 Mistral AI 走紅，其 MoE 模型也被眾多 AI 公司追捧。

無論在閉源還是開源領(lǐng)域，有世界上最前沿技術(shù)儲備與人才儲備的谷歌，都沒能確立絕對的領(lǐng)先地位。

如今，閉源與開源雙線作戰(zhàn)，這是谷歌的妙手、本手還是俗手？

1.谷歌被迫開源？

谷歌開源大模型的發(fā)布時間，比 Meta 的 Llama 晚了整整一年。

對此，出門問問創(chuàng)始人李志飛表示：“相比于去年上半年就開源，現(xiàn)在可能要花數(shù)倍的努力進(jìn)行模型的差異化以及推廣的投入、才有可能在眾多開源模型中脫穎而出?！?/p>

同時，李志飛認(rèn)為谷歌的開源力度也不夠，還是被動防御和扭扭捏捏的應(yīng)對之策，不是進(jìn)攻。“比如說，開個7B的模型實在是太小兒科了，一點殺傷力都沒有。應(yīng)該直接開源一個超越市場上所有開源的至少 100B 的模型、1M 的超長上下文、完善的推理 infra 方案、外加送一定的 cloud credit。是的，再不歇斯底里 Google 真的就晚了。面對 OpenAI 的強(qiáng)力競爭，只有殺敵一千、自損一千五?！?/p>

李志飛感覺，谷歌覺得自己還是 AI 王者，放不下高貴的頭顱，很多發(fā)布都有點不痛不癢，還是沿著過去研發(fā)驅(qū)動的老路而不是產(chǎn)品和競爭驅(qū)動，比如說不停發(fā)論文、取新名字（多模態(tài)相關(guān)模型過去半年就發(fā)了 Palme、rt-2、Gemini、VideoPoet、W.A.L.T 等等）、發(fā)布的模型又完整度不夠，感覺就沒有一個絕對能打的產(chǎn)品。谷歌可能要意識到在公眾眼中，他在 AI 領(lǐng)域已經(jīng)是廉頗老矣潰不成軍，經(jīng)常起大早趕晚集（比如說這次 Sora 借鑒的 ViT、ViViT、NaVit、MAGVit 等核心組件技術(shù)都是它家寫的論文）。

但作為前谷歌總部科學(xué)家，李志飛也希望谷歌希望亡羊補(bǔ)牢未為晚。他表示：“Google 作為一個僵化的大公司，動作慢一點可以理解，但是如果再不努力是不是就是 PC 互聯(lián)網(wǎng)的 IBM、移動互聯(lián)網(wǎng)的 Microsoft ？作為 Google 的鐵粉，還是希望他能打起精神一戰(zhàn)，AI 產(chǎn)業(yè)需要強(qiáng)力的競爭才能不停往前發(fā)展，也需要他在前沿研究和系統(tǒng)的開源才能幫助一大眾貧窮的 AI 創(chuàng)業(yè)公司?！?/p>

另一位 AI 專家——微博新技術(shù)研發(fā)負(fù)責(zé)人張俊林認(rèn)為，谷歌重返開源賽場，這是個大好事，但很明顯是被迫的。

張俊林表示：“去年 Google 貌似已經(jīng)下定決心要閉源了，這可能源于低估了追趕 OpenAI 的技術(shù)難度，Bard 推出令人大失所望使得谷歌不得不面對現(xiàn)實，去年下半年進(jìn)入很尷尬的局面，閉源要追上 OpenAI 估計還要不少時間，而開源方面 Meta 已下決心，還有 Mistral 這種新秀冒頭，逐漸主導(dǎo)了開源市場。這導(dǎo)致無論開源閉源，谷歌都處于被兩面夾擊，進(jìn)退為難的境地?！?/p>

很明顯，Gemma 代表谷歌大模型策略的轉(zhuǎn)變：兼顧開源和閉源，開源主打性能最強(qiáng)大的小規(guī)模模型，希望腳踢 Meta 和 Mistral；閉源主打規(guī)模大的效果最好的大模型，希望盡快追上 OpenAI。

大模型到底要做開源還是閉源？

張俊林的判斷是，如果是做當(dāng)前最強(qiáng)大的大模型，目前看還是要拼模型規(guī)模，這方面開源模型相對閉源模型處于明顯劣勢，短期內(nèi)難以追上 GPT-4 或 GPT-4V。而且這種類型的大模型，即使是開源，也只能仰仗谷歌或者 Meta 這種財大氣粗的大公司，主要是太消耗資源了，一般人玩不起。國內(nèi)這方面阿里千問系列做得比較好，肯把比較大規(guī)模的模型開源出來，當(dāng)然肯定不是最好的，不過這也很難得了。

而在開源領(lǐng)域，張俊林的判斷是應(yīng)該把主要精力放在開發(fā)并開源出性能足夠強(qiáng)的“小規(guī)模大模型”上（SLLM，Small Large Language Model），因此谷歌的開源策略是非常合理的。

目前看，作出強(qiáng)大的 SLLM 并沒有太多技巧，主要是把模型壓小的基礎(chǔ)上，大量增加訓(xùn)練數(shù)據(jù)的規(guī)模，數(shù)據(jù)質(zhì)量方面則是增加數(shù)學(xué)、代碼等數(shù)據(jù)來提升模型的推理能力。比如 Gemma 7B 用 6 萬億 Token 數(shù)據(jù)，外界猜測 Mistral 7B 使用了 7 萬億 Token 數(shù)據(jù)，兩者也應(yīng)該大量采用了增強(qiáng)推理能力的訓(xùn)練數(shù)據(jù)。

所以 SLLM 模型的性能天花板目前也沒有到頭，只要有更多更高質(zhì)量的數(shù)據(jù)，就能持續(xù)提升 SLLM 模型的效果，仍然有很大空間。

而且 SLLM 相對 GPT-4 這種追求最強(qiáng)效果的模型比，訓(xùn)練成本低得多，而因為模型規(guī)模小，推理成本也極低，只要持續(xù)優(yōu)化效果，從應(yīng)用層面，大家肯定會比較積極地部署 SLLM 用來實戰(zhàn)的，市場潛力巨大。也就是說，SLLM 應(yīng)該是沒有太多資源，但是還是有一些資源的大模型公司必爭之地。

張俊林相信，2024 年開源 SLLM 會有黑馬出現(xiàn)。

2.大模型打壓鏈

從今天起，Gemma 在全球范圍內(nèi)開放使用。該模型的關(guān)鍵細(xì)節(jié)如下：

發(fā)布了兩種權(quán)重規(guī)模的模型：Gemma 2B 和 Gemma 7B。每種規(guī)模都有預(yù)訓(xùn)練和指令微調(diào)版本。

新的 Responsible Generative AI Toolkit 為使用 Gemma 創(chuàng)建更安全的 AI 應(yīng)用程序提供指導(dǎo)和必備工具。

通過原生 Keras 3.0 為所有主要框架（JAX、PyTorch 和 TensorFlow）提供推理和監(jiān)督微調(diào)（SFT）的工具鏈。 ?

上手即用 Colab 和 Kaggle notebooks，以及與 Hugging Face、MaxText 和 NVIDIA NeMo 等受歡迎的工具集成，讓開始使用 Gemma 變得簡單容易。

經(jīng)過預(yù)訓(xùn)練和指令微調(diào)的 Gemma 模型可以在筆記本電腦、工作站或 Google Cloud 上運行，并可輕松部署在 Vertex AI 和 Google Kubernetes Engine（GKE）上。

基于多個 AI 硬件平臺進(jìn)行優(yōu)化，其中包括 NVIDIA GPUs 和 Google Cloud TPUs。

使用條款允許所有組織（無論規(guī)模大?。┴?fù)責(zé)任地進(jìn)行商用和分發(fā)。

Gemma 是開源領(lǐng)域一股不可忽視的力量。根據(jù)谷歌給出的數(shù)據(jù)，性能超越 Llama 2。 ?

圖片來自谷歌

至此，大模型開源形成三巨頭局面：谷歌 Gemma、Meta LLama 和歐洲的 Mistral。 ? 張俊林認(rèn)為，大模型巨頭混戰(zhàn)形成了打壓鏈局面：OpenAI 處于鏈條頂端，主要打壓對手是有潛力追上它的競爭對手：谷歌和 Anthropic，Mistral 估計也正在被列入 OpenAI 的打壓列表中。打壓鏈條為：OpenAI→Google &Anthropic & Mistral→ Meta→其它大模型公司。 ? 比如，谷歌上周發(fā)布的 Gemini 1.5 Pro 就是一個有代表性的案例，本身模型實例很強(qiáng)大，但在宣發(fā)策略上被 Sora 打到啞火；前年年底發(fā)布的 ChatGPT 也是臨時趕工出來打壓 Anthropic 的 Claude 模型的。 ?

張俊林對此判斷：“OpenAI 應(yīng)該儲備了一個用于打壓對手的技術(shù)儲備庫，即使做得差不多了也隱而不發(fā)，專等競爭對手發(fā)布新產(chǎn)品的時候扔出來，以形成宣傳優(yōu)勢。如果 OpenAI 判斷對手的產(chǎn)品對自己的威脅越強(qiáng)，就越可能把技術(shù)儲備庫里最強(qiáng)的扔出來，比如 ChatGPT 和 Sora，都是大殺器級別的，這也側(cè)面說明 OpenAI 比較認(rèn)可 Gemini 1.5 和 Claude 的實力。而這種打壓策略很明顯還會繼續(xù)下去，以后我們?nèi)匀粫?jīng)?？吹筋愃频那榫?，不巧的是，可能其它公司比如谷歌也學(xué)會這招了，估計也很快會傳導(dǎo)到國內(nèi)大模型公司范圍里。所以 2024 年會比較熱鬧，估計會有不少大戲上演。” ? 谷歌開源 Gemma 很明顯是針對 Meta 和 Mistral 而來。張俊林據(jù)此推測，Meta 的 LLama 3 很快就要發(fā)布了，或者M(jìn)istral 最近會有新品發(fā)布。

審核編輯：黃飛

閱讀全文

谷歌(103102) 谷歌(103102)
GPT(14803) GPT(14803)
OpenAI(5839) OpenAI(5839)
大模型(810) 大模型(810)

谷歌Android 4.1果凍豆系統(tǒng)源代碼今天發(fā)布

北京時間7月10日消息，據(jù)國外媒體報道，Android開源項目技術(shù)負(fù)責(zé)人Jean-Baptiste M. Queru在谷歌論壇宣布，谷歌今天將發(fā)布Android 4.1（果凍豆）系統(tǒng)源代碼。這意味著數(shù)部果凍豆電話和平板電

2012-07-10 10:48:54

876

1012編譯openwrt是github上的開源代碼嗎

1012編譯openwrt用的是哪個版本？是github上的開源代碼嗎？還是專門提供的版本，給的資料里面沒有openwrt的源碼，也沒說用哪個。

2022-01-05 06:20:24

開放原子開源基金會聯(lián)合發(fā)起“openDACS開源電路與系統(tǒng)設(shè)計自動化”開源項目

對象劃分和描述、專用處理器(XPU)的快速定制與自動生成等低代碼開發(fā)等重要問題。中國工程院孫凝暉院士發(fā)言開放原子開源基金會楊濤理事長做了《共建、共治、共享--聯(lián)合構(gòu)建 openDACS 開源 EDA

2022-06-24 15:17:14

開放源代碼獲得授權(quán)許可

也多種多樣，最近的方式是開放源代碼。由于設(shè)計者在開發(fā)軟微處理器的軟件代碼時投入了大量的時間，所以理解相關(guān)許可模式的含義非常重要。

2019-07-12 07:13:09

開放源代碼獲得授權(quán)許可

也多種多樣，最近的方式是開放源代碼?！　∮捎谠O(shè)計者在開發(fā)軟微處理器的軟件代碼時投入了大量的時間，所以理解相關(guān)許可模式的含義非常重要?！　　　?/div>

2019-06-25 06:25:01

開源(Open Source)的概念

開源(Open Source)的概念最早被應(yīng)用于軟件，開放源代碼促進(jìn)會(Open Source Initiative)用其描述那些源碼可以被公眾使用的軟件，并且此軟件的使用、修改和發(fā)行也不受許可證

2021-08-20 06:25:22

開源操作系統(tǒng)大全

開源操作系統(tǒng)即公開源代碼的操作系統(tǒng)軟件，它遵循開源協(xié)議使用、編譯和發(fā)布。自由和開放源代碼軟件中最著名的是 Linux ，它是一種類 Unix 的操作系統(tǒng)。Linux 可安裝在各種計算機(jī)硬件設(shè)備中

2023-10-27 15:13:41

開源硬件知識你懂多少？

布局?jǐn)?shù)據(jù)，通常使用開源軟件來驅(qū)動硬件。若你想成為一個開源硬件方面的“創(chuàng)客”，首先在創(chuàng)客集結(jié)號平臺上了解以下開源硬件的知識。1. Arduino UnoArduino是一個開放源代碼的單芯片微電腦，它

2018-07-26 14:27:38

開源資料基于Arduino的倒車?yán)走_(dá)（原理圖&源代碼）

網(wǎng)上開源資料基于Arduino的倒車?yán)走_(dá)的原理圖和源代碼，有興趣的小伙伴可以下載拿去作參考設(shè)計。

2020-12-18 18:07:34

開源代碼中直接提供了camera.hap包，誰有相應(yīng)源代碼？潤和的能否提供下嗎？

開源代碼中直接提供了camera.hap包，誰有相應(yīng)源代碼？潤和的能否提供下嗎？

2020-11-18 09:23:39

Arduino 的開源代碼在哪找

各位哥哥姐姐，姐夫大嫂，有誰能告訴我 Arduino 的開源代碼 在哪找？小弟不勝感激??！

2015-08-25 13:52:16

DSO138學(xué)習(xí)型示波器的開源代碼

DLO-138是針對DSO138學(xué)習(xí)型示波器的開源代碼，如果你希望對138軟件進(jìn)行修改（或者增加通道），那么基于這個工程應(yīng)該是不錯的。步驟：1 準(zhǔn)備工作下載開源代碼DLO-138：安裝arduino1.8.5(高版本可能支持stm32有問題)下載Arduino_STM32

2021-08-06 09:23:10

加速培育開源人才，開放原子校源行課程體系正式發(fā)布

統(tǒng)有限公司（以下簡稱“騰訊”）達(dá)成“開放原子校源行”戰(zhàn)略合作，標(biāo)志著開放原子校源行公益項目駛?cè)肟燔嚨馈?b class="flag-6" style="color: red">開放原子校源行公益項目旨在充分發(fā)揮開放原子開源基金會作為國家級開源公益平臺作用的特色公益活動，在全國范圍

2022-12-08 11:59:52

國內(nèi)唯一開源基金會“開放原子開源基金會“正式成立！

和品牌營銷服務(wù)。基金會介紹，開源基金會是開源項目的孵化器、連接器與倍增器。通過對開源代碼的開放治理以便于形成事實標(biāo)準(zhǔn)，連接產(chǎn)學(xué)研共建生態(tài)，為開源項目找到更多的應(yīng)用場景。 9月10日華為開發(fā)者大會上，現(xiàn)場

2020-09-10 17:24:02

大佬都在用的github開源代碼庫地址

嵌入式開發(fā)有用的github上的開源代碼庫版權(quán)聲明：本文為博主原創(chuàng)文章，未經(jīng)博主允許不得轉(zhuǎn)載。 https://blog.csdn.net/u011559046/article/details

2021-11-08 07:56:02

如何使用qmk打開源代碼在NUC029上執(zhí)行鍵盤？

應(yīng)用程序: 此示例代碼使用 qmk( qmk)鍵盤打開源代碼在 NUC029 上執(zhí)行鍵盤。 BSP 版本: NUC029xGE_Series_BSP_CMSIS_V3.00.004 硬件

2023-08-29 08:14:48

如何使用帶有USB/Web/SSL的RTOS？

。只要RTOS/Stack的許可只適用于那個模塊，我就可以開放源代碼，把我對堆棧所做的任何修改供其他人使用。無論如何，我只想看看人們還想出了什么其他選項，因為和諧堆棧似乎有很多問題。謝謝，Joh維維斯

2019-11-06 07:52:07

如何去編寫開源avr下載線的源代碼

如何去自制一種開源的avr下載線？如何去編寫開源avr下載線的源代碼？

2021-09-18 08:40:42

新思科技助力三星SDS公司落實開源生命周期戰(zhàn)略

集思廣益。其中，首席專家Yunjae Jung博士在建立和運行開源軟件治理流程方面功不可沒。Yunjae Jung博士表示：“作為行業(yè)創(chuàng)新者，戰(zhàn)略性地使用開源軟件對三星SDS取得成功至關(guān)重要。尤其是在移動

2023-03-02 14:20:49

有償請幫忙，下載開源代碼到機(jī)器狗

小米的cyberdog2里面的所有開源代碼遠(yuǎn)程桌面，指導(dǎo)安裝對應(yīng)的軟件，代碼編譯運行下載到機(jī)器狗；簡單講解一下代碼。有償請人幫忙，可以長期合作。

2023-09-01 17:33:48

構(gòu)建工業(yè)軟件開源工具鏈，2022 開放原子全球開源峰會開源工業(yè)軟件論壇即將開幕

工業(yè)軟件是全球產(chǎn)業(yè)升級的重要基礎(chǔ)，打造開放、共建、共治、共享的開源工業(yè)軟件，則是為工業(yè)軟件構(gòu)建健康發(fā)展的基石。2022 年 7 月 25 日，由開放原子開源基金會主辦，以“軟件定義世界，開源共筑未來

2022-07-08 16:05:28

某安全瀏覽器竟然也被查出高危漏洞？開源安全問題不容忽視

和知識產(chǎn)權(quán)海關(guān)同樣的分析技術(shù)。在2006年的LinuxWorld大會上，Linux內(nèi)核維護(hù)人考克斯強(qiáng)調(diào)，有相當(dāng)數(shù)量的資金被用來攻擊開放源代碼系統(tǒng)。他警告說，許多開放源代碼項目遠(yuǎn)談不上安全，許多資金

2017-09-05 14:26:59

某安全瀏覽器竟然也被查出高危漏洞？開源安全問題不容忽視

的LinuxWorld大會上，Linux內(nèi)核維護(hù)人考克斯強(qiáng)調(diào)，有相當(dāng)數(shù)量的資金被用來攻擊開放源代碼系統(tǒng)。他警告說，許多開放源代碼項目遠(yuǎn)談不上安全，許多資金都被用來破壞開放源代碼系統(tǒng)的安全。媒體上經(jīng)常有這樣的字眼

2017-08-31 16:06:31

百度智能手環(huán)方案全開源包括硬件原理圖、BOM清單和源代碼

百度剛剛公布了一套智能手環(huán)的開源方案，是一整套的參考設(shè)計，包括硬件原理圖、BOM清單和源代碼。據(jù)百度官方說明百度云智能手環(huán)的開源方案是基于Apache2.0開源協(xié)議，免費開源包括硬件原理、ROM

2014-08-25 22:28:13

目前國內(nèi)常用的開源飛控

Source)的概念最早被應(yīng)用于開源軟件，開放源代碼促進(jìn)會(Open Source Initiative)用其描述那些源碼可以被公眾使用的

2021-07-16 07:43:15

螞蟻集團(tuán)基礎(chǔ)設(shè)施委員會主席何征宇：開源是核心技術(shù)戰(zhàn)略

的發(fā)展，開放原子開源基金會是我們當(dāng)下應(yīng)該關(guān)注，值得關(guān)注，并且為軟件業(yè)繁榮帶來變化的組織。螞蟻集團(tuán)基礎(chǔ)設(shè)施技術(shù)委員會主席何征宇開源是螞蟻核心技術(shù)戰(zhàn)略開源社區(qū)的發(fā)展離不開生態(tài)發(fā)展，生態(tài)的發(fā)展離不開商業(yè)價值

2022-08-17 11:37:20