RM新时代入口,RM平台

隨著人工智能技術(shù)的飛速發(fā)展，大語言模型（Large Language Models, LLMs）在各行各業(yè)的應(yīng)用日益廣泛，尤其是在軟件開發(fā)、數(shù)據(jù)分析、客戶服務(wù)等領(lǐng)域。蘑菇云創(chuàng)客空間[445期開放夜]就以“ChatGPT、Gemini、通義千問等一眾大語言模型，哪家更適合您”這樣的主題，開展了一次深度的大語言模型的測評。開放夜現(xiàn)場測評了十幾個(gè)國內(nèi)外大語言模型，測評角度從邏輯、數(shù)學(xué)、翻譯、倫理等方面，深入探討和體驗(yàn)了這些大語言模型的實(shí)際效能。

測評的大語言模型：

1.Kimi 智能助手：由月之暗面科技有限公司開發(fā)的先進(jìn)AI。

2.智譜清言：由智言科技開發(fā)的大語言模型，以深度學(xué)習(xí)和自然語言處理技術(shù)見長。

3.訊飛星火：科大訊飛推出的創(chuàng)新語言模型。

4.文心一言：百度的前沿語言模型，致力于理解和生成自然語言。

5.豆包：專注于提供個(gè)性化的智能對話服務(wù)。

6.通義千問：以廣泛的知識(shí)庫和靈活的對話能力著稱。

7.海螺AI：新興的語言模型，擅長處理復(fù)雜的語言任務(wù)。

8.騰訊混元助手：騰訊推出的多功能AI助手。

9.Sider: 是由日本公司Sider開發(fā)的大語言模型。

10.ChatGPT：由OpenAI開發(fā)，國際上廣受認(rèn)可的更大規(guī)模、功能更全面的語言模型。

11.Claude：Anthropic開發(fā)的先進(jìn)語言模型，注重安全性和可靠性。

12.groq：以其專為AI設(shè)計(jì)的硬件加速器而聞名。

13.Gemini: OpenAI 開發(fā)的較小規(guī)模的語言模型，旨在提供更高效的計(jì)算和資源利用。

14.Mixtral：開源人工智能初創(chuàng)公司 MistralAI開發(fā)的超越GPT-3.5的AI模型

測評問題一: 雞兔同籠的數(shù)學(xué)問題

雞兔同籠是一個(gè)經(jīng)典的數(shù)學(xué)問題，通過觀察雞兔的頭和腳的數(shù)量關(guān)系，可以利用代數(shù)方程來解決問題，從而確定籠子里雞和兔子的數(shù)量。這個(gè)問題常常展示了代數(shù)方程組的應(yīng)用。

針對雞兔同籠的問題，除了Gemini Pro沒有得出正確的結(jié)果，其余的大語言模型都可以給出正確結(jié)果。

測評問題二：翻譯（詩句中翻英）

詩人馬致遠(yuǎn)的詩句“斷腸人在天涯”，描寫了“夕陽向西緩緩落下，只有孤獨(dú)的旅人漂泊在遙遠(yuǎn)的地方?！痹娋涞姆g涉及到文化差異和詩人獨(dú)特情感。Mixtral 的語言模型正確的解釋了詩句本身的含義，幫助翻譯者很好地理解這句詩句。 Claude的語言模型對于詩句的本身理解是不正確的。

這句詩翻譯家許淵沖翻譯為“Far, far from home is the heartbroken one.”由此可見，大語言模型可以幫助翻譯者分析這句詩基本的意思，但是涉及文化層面的深層含義，還是做不到意譯的。

開放夜也探討了如下涉及生活、工作的一些問題，比如：

過年福字要倒著貼，那為什么不直接生產(chǎn)倒過來的福字呢？

收到公司的裁員通知郵件，你應(yīng)該怎么回復(fù)郵件來保住工作？

一個(gè)烏龜?shù)暨M(jìn)了井里，井里有30米深。烏龜白天爬3米，晚上滑下2米。問這只烏龜需要多長時(shí)間才能爬出井口？

DFRobot AIGC小組主理人夏青在開放夜的現(xiàn)場測評了十幾個(gè)國內(nèi)外大語言模型，通過多維度問題的測評，他認(rèn)為：對于處理綜合性問題，OpenAI的ChatGPT 4.0邏輯清楚，能提供非常有用的信息。盡管在回答一些較為復(fù)雜的問題上略顯不足，但在大多數(shù)場合下，其性能仍然令人滿意。然而，ChatGPT 4.0在國內(nèi)的使用成本是一個(gè)不容忽視的問題，不僅涉及訂閱費(fèi)用，也包括使用的技術(shù)門檻。

與此同時(shí)，Gemini和Claude等海外語言模型，盡管在遵循指令方面略顯不足，但已達(dá)到了實(shí)用水平。令人驚喜的是，國內(nèi)的Qwen1.5 72b開源模型在中文理解和特定任務(wù)，幾乎能與ChatGPT4.0匹敵此外，其他開源模型如Mixtral和新發(fā)布的LLaMA3雖在邏輯性上略遜于商業(yè)模型如ChatGPT，但總體表現(xiàn)已超越了ChatGPT 3.5。

綜合分析來看，盡管ChatGPT 4.0仍然是目前市場上最優(yōu)秀的大語言模型，但不可忽視的是，無論是國際市場還是國內(nèi)市場，其他廠商的模型均顯示出迅速的進(jìn)步。開源模型的崛起也證明了開源社區(qū)在AI時(shí)代的巨大潛力。當(dāng)前的大語言模型在處理理性問題方面表現(xiàn)一致，但通常無法提供情緒價(jià)值回應(yīng)。例如，一些國內(nèi)模型如“豆包”將展現(xiàn)其在情緒回應(yīng)方面的潛力。這種能力的發(fā)展可能為未來陪伴型機(jī)器人的商業(yè)模型提供新的方向。

蘑菇云創(chuàng)客空間

蘑菇云創(chuàng)客空間是上海浦東的一家創(chuàng)客空間,是科技部授牌的首批國家級(jí)創(chuàng)客空間,由浦軟孵化器提供場地支持、上海智位機(jī)器人提供硬件及技術(shù)支持的一家為創(chuàng)客服務(wù)的開放式創(chuàng)客空間。擁有獨(dú)立的加工室、公共協(xié)作區(qū)域以及儲(chǔ)物、耗材商店,為硬件愛好者、程序員、設(shè)計(jì)師、DIY 發(fā)燒友等各類創(chuàng)客,甚至包括進(jìn)行創(chuàng)新研發(fā)的科創(chuàng)團(tuán)隊(duì)提供一個(gè)開放式的社區(qū)化會(huì)員空間。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

Gemini

Gemini

+關(guān)注

關(guān)注
0

文章
53

瀏覽量
7591
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
520

瀏覽量
10268
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1558

瀏覽量
7595
通義千問

通義千問

+關(guān)注

關(guān)注
1

文章
25

瀏覽量
238

阿里通義千問代碼模型全系列開源

近日，阿里云通義大模型團(tuán)隊(duì)宣布了一項(xiàng)重大決策：將通義千問代碼

發(fā)表于 11-14 15:26 ?319次閱讀

通義千問三款主力模型再降價(jià)

阿里云百煉平臺(tái)再次掀起降價(jià)風(fēng)暴，三款通義千問主力模型——Qwen-Turbo、Qwen-Plus及Qwen-Max，繼5月首次大幅度降價(jià)后，再次迎來價(jià)格調(diào)整。此次降價(jià)力度空前，Qwen

發(fā)表于 09-20 16:46 ?904次閱讀

通義千問發(fā)布第二代視覺語言模型Qwen2-VL

阿里巴巴旗下的通義千問近日宣布，其第二代視覺語言模型Qwen2-VL正式問世，并宣布旗艦模型Qw

發(fā)表于 09-03 16:31 ?564次閱讀

【附實(shí)操視頻】聆思CSK6大模型開發(fā)板接入國內(nèi)主流大模型（星火大模型、文心一言、豆包、kimi、智譜glm、通義千問）

接入文心一言、通義千問、豆包、智譜glm、kimi等國內(nèi)的大模型，但由于各家接口和數(shù)據(jù)格式不

發(fā)表于 08-22 10:12

智能硬件接入主流大模型做語音交互（附文心一言、豆包、kimi、智譜glm、通義千問示例）

接入文心一言、通義千問、豆包、智譜glm、kimi等國內(nèi)的大模型，這個(gè)是必須可以的。但由于各家接

發(fā)表于 08-21 19:13

阿里通義千問Qwen2大模型發(fā)布并同步開源

阿里巴巴集團(tuán)旗下的通義千問團(tuán)隊(duì)宣布，全新的Qwen2大模型正式發(fā)布，并在全球知名的開源平臺(tái)Hugging Face和ModelScope上同步開源。這

發(fā)表于 06-11 15:33 ?1064次閱讀

阿里通義千問Qwen2大模型發(fā)布

阿里巴巴最近發(fā)布了其通義千問系列的新成員——Qwen2大模型，并在Hugging Face和ModelScope兩大平臺(tái)上實(shí)現(xiàn)了同步開源。這一

發(fā)表于 06-07 15:59 ?760次閱讀

阿里云正式發(fā)布通義千問2.5，中文性能全面趕超GPT-4 Turbo

在通義大模型發(fā)布一周年之際，阿里云邁出了歷史性的一步。近日，阿里云正式發(fā)布通義千

發(fā)表于 05-13 11:16 ?964次閱讀

阿里云發(fā)布通義千問2.5

阿里云近日正式發(fā)布了通義千問2.5，標(biāo)志著其人工智能技術(shù)在中文語境下取得了重要突破。據(jù)阿里云智能集團(tuán)首席技術(shù)官周靖人介紹，通義千

發(fā)表于 05-10 09:57 ?526次閱讀

阿里云發(fā)布通義千問2.5大模型，多項(xiàng)能力超越GPT-4

阿里云隆重推出了通義千問 2.5 版，宣稱其“技術(shù)進(jìn)步，全面超越GPT-4”，尤其是在中文環(huán)境中的多種任務(wù)（如文本理解、文本生成、知識(shí)問答及生活建議、臨時(shí)聊天及對話以及安全風(fēng)險(xiǎn)評估）方面表現(xiàn)出色，超越了GPT-4。

發(fā)表于 05-09 14:17 ?949次閱讀

通義千問開源千億級(jí)參數(shù)模型

通義千問近日開源了其首個(gè)千億級(jí)參數(shù)模型Qwen1.5-110B，這是其全系列中首個(gè)達(dá)到千億級(jí)別的開源模型。Qwen1.5-110B

發(fā)表于 05-08 11:01 ?740次閱讀

通義千問推出1100億參數(shù)開源模型

通義千問近日震撼發(fā)布1100億參數(shù)的開源模型Qwen1.5-110B，這一舉措標(biāo)志著通義

發(fā)表于 05-06 10:49 ?576次閱讀

聯(lián)發(fā)科天璣9300等旗艦芯片搭載通義千問大模型，成功實(shí)現(xiàn)

通義千問大模型可在離線環(huán)境下輕松應(yīng)對多輪AI對話。此外，阿里云也承諾與聯(lián)發(fā)科進(jìn)行深度合作，為全球手機(jī)制造商提供端側(cè)大模型解決方案。

發(fā)表于 03-28 16:35 ?802次閱讀

聯(lián)發(fā)科天璣9300搭載通義千問大模型，阿里云提供解決方案

通義千問大模型已開源多項(xiàng)版本，包括18億、70億、140億及720億參數(shù)等版本伴隨視覺、音頻多模態(tài)能力提升。阿里云于去年10月發(fā)布的

發(fā)表于 03-28 09:55 ?586次閱讀

阿里通義千問重磅升級(jí)，免費(fèi)開放1000萬字長文檔處理功能

近日，阿里巴巴旗下的人工智能應(yīng)用通義千問迎來重磅升級(jí)，宣布向所有人免費(fèi)開放1000萬字的長文檔處理功能，這一創(chuàng)新舉措使得通義

發(fā)表于 03-26 11:09 ?782次閱讀

RM新时代网站-首页

搜索歷史

ChatGPT、Gemini、通義千問等一眾大語言模型，哪家更適合您？

評論

阿里通義千問代碼模型全系列開源

通義千問三款主力模型再降價(jià)

通義千問發(fā)布第二代視覺語言模型Qwen2-VL

【附實(shí)操視頻】聆思CSK6大模型開發(fā)板接入國內(nèi)主流大模型（星火大模型、文心一言、豆包、kimi、智譜glm、通義千問）

智能硬件接入主流大模型做語音交互（附文心一言、豆包、kimi、智譜glm、通義千問示例）

阿里通義千問Qwen2大模型發(fā)布并同步開源

阿里通義千問Qwen2大模型發(fā)布

阿里云正式發(fā)布通義千問2.5，中文性能全面趕超GPT-4 Turbo

阿里云發(fā)布通義千問2.5

阿里云發(fā)布通義千問2.5大模型，多項(xiàng)能力超越GPT-4

通義千問開源千億級(jí)參數(shù)模型

通義千問推出1100億參數(shù)開源模型

聯(lián)發(fā)科天璣9300等旗艦芯片搭載通義千問大模型，成功實(shí)現(xiàn)

聯(lián)發(fā)科天璣9300搭載通義千問大模型，阿里云提供解決方案

阿里通義千問重磅升級(jí)，免費(fèi)開放1000萬字長文檔處理功能

搜索歷史

ChatGPT、Gemini、通義千問等一眾大語言模型，哪家更適合您？

評論

ChatGPT、Gemini、通義千問等一眾大語言模型，哪家更適合您？