RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

大模型現(xiàn)存的10個問題和挑戰(zhàn)

穎脈Imgtec ? 2023-09-04 16:42 ? 次閱讀

大模型現(xiàn)存的問題和挑戰(zhàn)這篇文章介紹了關于大型語言模型(LLMs)研究中的十個主要方向和問題:

1. 減少和度量幻覺:幻覺指的是AI模型虛構信息的情況,可能是創(chuàng)意應用的一個特點,但在其他應用中可能是一個問題。這個方向涉及減少幻覺和開發(fā)衡量幻覺的度量標準。

2. 優(yōu)化上下文長度和構造:針對大多數(shù)問題,上下文信息是必需的,文章介紹了在RAG(Retrieval Augmented Generation)架構中優(yōu)化上下文長度和構造的重要性。

3. 整合其他數(shù)據(jù)形式:多模態(tài)是強大且被低估的領域,文章探討了多模態(tài)數(shù)據(jù)的重要性和潛在應用,如醫(yī)療預測、產(chǎn)品元數(shù)據(jù)分析等。

4. 使LLMs更快、更便宜:討論了如何使LLMs更高效、更節(jié)約資源,例如通過模型量化、模型壓縮等方法。

5. 設計新的模型架構:介紹了開發(fā)新的模型架構以取代Transformer的嘗試,以及挑戰(zhàn)和優(yōu)勢。

6. 開發(fā)GPU替代方案:討論了針對深度學習的新硬件技術,如TPUs、IPUs、量子計算、光子芯片等。

7. 使代理人更易用:探討了訓練能夠執(zhí)行動作的LLMs,即代理人,以及其在社會研究和其他領域的應用。

8. 提高從人類偏好中學習的效率:討論了從人類偏好中訓練LLMs的方法和挑戰(zhàn)。

9. 改進聊天界面的效率:討論了聊天界面在任務處理中的適用性和改進方法,包括多消息、多模態(tài)輸入、引入生成AI等。

10. 為非英語語言構建LLMs:介紹了將LLMs擴展到非英語語言的挑戰(zhàn)和必要性。


1. 減少和衡量幻覺

幻覺是一個廣受關注的話題,指的是當AI模型編造信息時發(fā)生的情況。在許多創(chuàng)造性的應用場景中,幻覺是一種特性。然而,在大多數(shù)其他用例中,幻覺是一個缺陷。一些大型企業(yè)近期在關于大型語言模型的面板上表示,影響企業(yè)采用LLMs的主要障礙是幻覺問題。

減輕幻覺問題并開發(fā)用于衡量幻覺的度量標準是一個蓬勃發(fā)展的研究課題。有許多初創(chuàng)公司專注于解決這個問題。還有一些降低幻覺的方法,例如在提示中添加更多的上下文、思維鏈、自我一致性,或要求模型在回答中保持簡潔。

要了解更多關于幻覺的信息,可以參考以下文獻:

  • Survey of Hallucination in Natural Language Generation (Ji et al., 2022)
  • How Language Model Hallucinations Can Snowball (Zhang et al., 2023)
  • A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity (Bang et al., 2023)
  • Contrastive Learning Reduces Hallucination in Conversations (Sun et al., 2022)
  • Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)
  • SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (Manakul et al., 2023)
  • NVIDIA’s NeMo-Guardrails中關于事實核查和幻覺的簡單示例

2. 優(yōu)化上下文長度限制

大部分問題需要上下文信息。例如,如果我們詢問ChatGPT:“哪家越南餐廳最好?”,所需的上下文將是“在哪里”,因為越南在越南和美國的最佳越南餐廳不同。

在這篇論文中提到,許多信息尋求性的問題都有依賴于上下文的答案,例如Natural Questions NQ-Open數(shù)據(jù)集中約占16.5%。對于企業(yè)用例,這個比例可能會更高。例如,如果一家公司為客戶支持構建了一個聊天機器人,為了回答客戶關于任何產(chǎn)品的問題,所需的上下文可能是該客戶的歷史或該產(chǎn)品的信息。由于模型“學習”來自提供給它的上下文,這個過程也被稱為上下文學習。


3. 合并其他數(shù)據(jù)模態(tài)

多模態(tài)是非常強大但常常被低估的概念。它具有許多優(yōu)點:

首先,許多用例需要多模態(tài)數(shù)據(jù),特別是在涉及多種數(shù)據(jù)模態(tài)的行業(yè),如醫(yī)療保健、機器人、電子商務、零售、游戲、娛樂等。例如,醫(yī)學預測常常需要文本(如醫(yī)生的筆記、患者的問卷)和圖像(如CT、X射線、MRI掃描)。

ec690f84-4afe-11ee-a20b-92fbcf53809c.png

其次,多模態(tài)承諾可以顯著提高模型的性能。一個能夠理解文本和圖像的模型應該比只能理解文本的模型表現(xiàn)更好?;谖谋镜哪P托枰罅康奈谋緮?shù)據(jù),因此有現(xiàn)實擔憂稱我們可能會很快用完訓練基于文本的模型的互聯(lián)網(wǎng)數(shù)據(jù)。一旦我們用完了文本數(shù)據(jù),我們需要利用其他數(shù)據(jù)模態(tài)。

其中一個特別令人興奮的用例是,多模態(tài)可以幫助視障人士瀏覽互聯(lián)網(wǎng)和導航現(xiàn)實世界。


4. 使LLMs更快且更便宜

當GPT-3.5于2022年底首次發(fā)布時,很多人對在生產(chǎn)中使用它的延遲和成本表示擔憂。這是一個復雜的問題,牽涉到多個層面,例如:

訓練成本:訓練LLMs的成本隨著模型規(guī)模的增大而增加。目前,訓練一個大型的LLM可能需要數(shù)百萬美元。

推理成本:在生產(chǎn)中使用LLMs的推理(生成)可能會帶來相當高的成本,這主要是因為這些模型的巨大規(guī)模。

ec93134c-4afe-11ee-a20b-92fbcf53809c.png

解決這個問題的一種方法是研究如何減少LLMs的大小,而不會明顯降低性能。這是一個雙重的優(yōu)勢:首先,更小的模型需要更少的成本來進行推理;其次,更小的模型也需要更少的計算資源來進行訓練。這可以通過模型壓縮(例如蒸餾)或者采用更輕量級的架構來實現(xiàn)。


5. 設計新的模型架構

盡管Transformer架構在自然語言處理領域取得了巨大成功,但它并不是唯一的選擇。近年來,研究人員一直在探索新的模型架構,試圖超越Transformer的限制。

這包括設計更適用于特定任務或問題的模型,以及從根本上重新考慮自然語言處理的基本原理。一些方向包括使用圖神經(jīng)網(wǎng)絡、因果推理架構、迭代計算模型等等。eca7cd82-4afe-11ee-a20b-92fbcf53809c.png

新的架構可能會在性能、訓練效率、推理速度等方面帶來改進,但也需要更多的研究和實驗來驗證其實際效果。


6. 開發(fā)GPU替代方案

當前,大多數(shù)深度學習任務使用GPU來進行訓練和推理。然而,隨著模型規(guī)模的不斷增大,GPU可能會遇到性能瓶頸,也可能無法滿足能效方面的要求。

因此,研究人員正在探索各種GPU替代方案,例如:

TPUs(張量處理器):由Google開發(fā)的專用深度學習硬件,專為加速TensorFlow等深度學習框架而設計。

IPUs(智能處理器):由Graphcore開發(fā)的硬件,旨在提供高度并行的計算能力以加速深度學習模型。

量子計算:盡管仍處于實驗階段,但量子計算可能在未來成為處理復雜計算任務的一種有效方法。

光子芯片:使用光學技術進行計算,可能在某些情況下提供更高的計算速度。

這些替代方案都有其獨特的優(yōu)勢和挑戰(zhàn),需要進一步的研究和發(fā)展才能實現(xiàn)廣泛應用。


7. 使代理人更易于使用

研究人員正在努力開發(fā)能夠執(zhí)行動作的LLMs,也被稱為代理人。代理人可以通過自然語言指令進行操作,這在社會研究、可交互應用等領域具有巨大潛力。

然而,使代理人更易于使用涉及到許多挑戰(zhàn)。這包括:

指令理解和執(zhí)行:確保代理人能夠準確理解和執(zhí)行用戶的指令,避免誤解和錯誤。

多模態(tài)交互:使代理人能夠在不同的輸入模態(tài)(文本、語音、圖像等)下進行交互。

個性化和用戶適應:使代理人能夠根據(jù)用戶的個性、偏好和歷史進行適應和個性化的交互。

這個方向的研究不僅涉及到自然語言處理,還涉及到機器人學、人機交互等多個領域。


8. 提高從人類偏好中學習的效率

從人類偏好中學習是一種訓練LLMs的方法,其中模型會根據(jù)人類專家或用戶提供的偏好進行學習。然而,這個過程可能會面臨一些挑戰(zhàn),例如:

數(shù)據(jù)采集成本:從人類偏好中學習需要大量的人類專家或用戶提供的標注數(shù)據(jù),這可能會非常昂貴和耗時。

標注噪聲:由于人類標注的主觀性和誤差,數(shù)據(jù)中可能存在噪聲,這可能會影響模型的性能。

領域特異性:從人類偏好中學習的模型可能會在不同領域之間表現(xiàn)不佳,因為偏好可能因領域而異。

研究人員正在探索如何在從人類偏好中學習時提高效率和性能,例如使用主動學習、遷移學習、半監(jiān)督學習等方法。


9. 改進聊天界面的效率

聊天界面是LLMs與用戶交互的方式之一,但目前仍然存在一些效率和可用性方面的問題。例如:

多消息對話:在多輪對話中,模型可能會遺忘之前的上下文,導致交流不連貫。

多模態(tài)輸入:用戶可能會在消息中混合文本、圖像、聲音等不同模態(tài)的信息,模型需要適應處理這些多樣的輸入。

對話歷史和上下文管理:在長時間對話中,模型需要有效地管理對話歷史和上下文,以便準確回應用戶的問題和指令。

改進聊天界面的效率和用戶體驗是一個重要的研究方向,涉及到自然語言處理、人機交互和設計等多個領域的知識。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    30728

    瀏覽量

    268880
  • 人工智能
    +關注

    關注

    1791

    文章

    47183

    瀏覽量

    238235
  • 模型
    +關注

    關注

    1

    文章

    3226

    瀏覽量

    48806
收藏 人收藏

    評論

    相關推薦

    【「大模型啟示錄」閱讀體驗】對大模型更深入的認知

    閱讀《大模型啟示錄》這本書,我得說,它徹底顛覆了我對大模型的理解。作為一經(jīng)常用KIMI和豆包這類AI工具來完成作業(yè)、整理資料的大學生,我原以為大模型就是這些工具背后的技術。但這本書讓
    發(fā)表于 12-20 15:46

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?372次閱讀
    使用vLLM+OpenVINO加速大語言<b class='flag-5'>模型</b>推理

    國產(chǎn)大模型發(fā)展的經(jīng)驗與教訓

    ? ? 本文介紹大模型的計算特征(國產(chǎn)平臺介紹、系統(tǒng)挑戰(zhàn)、算子實現(xiàn)、容錯)、框架的并行性支持、未來算法等。 隨著ChatGPT的橫空出世,人工智能大模型成為各行各業(yè)熱議的焦點,國內(nèi)外各種大模型
    的頭像 發(fā)表于 11-11 11:39 ?228次閱讀
    國產(chǎn)大<b class='flag-5'>模型</b>發(fā)展的經(jīng)驗與教訓

    當前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)

    隨著大模型時代的到來,AI算力逐漸變成重要的戰(zhàn)略資源,對現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時、高效內(nèi)存管理、能耗等等。
    的頭像 發(fā)表于 09-24 16:57 ?638次閱讀

    模型發(fā)展下,國產(chǎn)GPU的機會和挑戰(zhàn)

    電子發(fā)燒友網(wǎng)站提供《大模型發(fā)展下,國產(chǎn)GPU的機會和挑戰(zhàn).pdf》資料免費下載
    發(fā)表于 07-18 15:44 ?10次下載
    大<b class='flag-5'>模型</b>發(fā)展下,國產(chǎn)GPU的機會和<b class='flag-5'>挑戰(zhàn)</b>

    在PyTorch中搭建一最簡單的模型

    在PyTorch中搭建一最簡單的模型通常涉及幾個關鍵步驟:定義模型結構、加載數(shù)據(jù)、設置損失函數(shù)和優(yōu)化器,以及進行模型訓練和評估。
    的頭像 發(fā)表于 07-16 18:09 ?1952次閱讀

    AI大模型的發(fā)展歷程和應用前景

    領域取得重要突破。本文將深入解析AI大模型的基本原理、發(fā)展歷程、應用前景以及面臨的挑戰(zhàn)與爭議,為讀者提供一全面而深入的科普視角。
    的頭像 發(fā)表于 07-03 18:20 ?1157次閱讀

    模型發(fā)展下,國產(chǎn)GPU的機會和挑戰(zhàn)(上)

    洞見分析經(jīng)驗分享模型
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年06月11日 16:51:11

    助聽器降噪神經(jīng)網(wǎng)絡模型

    在堆棧網(wǎng)絡方法中,參數(shù)少于一百萬。該模型使用挑戰(zhàn)組織者提供的 500 小時的嘈雜語音進行訓練。 該網(wǎng)絡能夠進行實時處理(一幀輸入,一幀輸 出)并達到有競爭力的結果。將這兩種類型的信號變換結合起來,使
    發(fā)表于 05-11 17:15

    【大語言模型:原理與工程實踐】大語言模型的應用

    能力,它缺乏真正的“思考”過程。對于任何輸入,大語言模型都會產(chǎn)生輸出,但這僅僅是基于計算和預測下一Token出現(xiàn)的概率。模型并不清楚自己的優(yōu)勢或劣勢,也無法主動進行反思和糾正錯誤。提示工程
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    安全性的評測則關注模型在強化學習階段的表現(xiàn)。行業(yè)模型的評測則針對特定行業(yè)的能力,如金融和法律等領域。整體能力的評測從宏觀角度評估模型作為一通用人工智能的綜合能力。這些評測方法和基準的
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    處理中預訓練架構Transformer,以及這些技術在現(xiàn)實世界中的如何應用。通過具體案例的分析,作者展示了大語言模型在解決實際問題中的強大能力,同時也指出了當前技術面臨的挑戰(zhàn)和局限性。書中對大語言模型
    發(fā)表于 04-30 15:35

    工業(yè)大模型的五基本問題

    工業(yè)業(yè)大模型是大模型為賦能工業(yè)應用所產(chǎn)生的產(chǎn)業(yè)新形態(tài),是制造業(yè)數(shù)字化轉(zhuǎn)型3.0的重要載體,是一新質(zhì)體。
    發(fā)表于 04-23 16:04 ?699次閱讀
    工業(yè)大<b class='flag-5'>模型</b>的五<b class='flag-5'>個</b>基本問題

    模型時代,國產(chǎn)GPU面臨哪些挑戰(zhàn)

    ,國產(chǎn)GPU在不斷成長的過程中也存在諸多挑戰(zhàn)。 ? 在大模型訓練上存在差距 ? 大語言模型是基于深度學習的技術。這些模型通過在海量文本數(shù)據(jù)上的訓練,學習語言的語法、語境和語義等多層次的
    的頭像 發(fā)表于 04-03 01:08 ?4662次閱讀
    大<b class='flag-5'>模型</b>時代,國產(chǎn)GPU面臨哪些<b class='flag-5'>挑戰(zhàn)</b>

    優(yōu)于10倍參數(shù)模型!微軟發(fā)布Orca 2 LLM

    微軟發(fā)布 Orca 2 LLM,這是 Llama 2 的一調(diào)優(yōu)版本,性能與包含 10 倍參數(shù)的模型相當,甚至更好。
    的頭像 發(fā)表于 12-26 14:23 ?625次閱讀
    RM新时代网站-首页