2023年7月,依圖發(fā)布了智能安防領(lǐng)域首個可實戰(zhàn)可商用的多模態(tài)大模型—依圖天問1.0。發(fā)布至今,依圖天問大模型基座已完成了兩次迭代升級,并率先在全國50多個項目中部署應(yīng)用。 近日,在第十屆中國(上海)國際技術(shù)進出口交易會上,依圖科技最新版本的“依圖天問大模型4.0”正式發(fā)布,以全新的交互體驗、超高的進化能力,重新定義了多模態(tài)大模型在智能安防領(lǐng)域的應(yīng)用邊界。 此次發(fā)布的依圖天問大模型4.0實現(xiàn)了眾多功能的跨越式升級:融合自然語言與視覺信息,大幅提升視頻內(nèi)容的模糊檢索能力;支持多條件組合場景布控,實現(xiàn)精細化布控和風(fēng)險管理;依圖天問4.0升級后的預(yù)訓(xùn)練模型支持算法極少樣本冷啟動,通過Agent代理輔助訓(xùn)練,真正實現(xiàn)了“想法既算法”的智能飛躍。??????
視頻理解更細微,語義檢索更豐富?????????
語言交互的模糊性來源于語境的多樣性。依圖天問4.0引入多模態(tài)視覺搜索技術(shù),將自然語言與視覺信息融合,以“用戶”為主,深刻理解語境中的細微差別,例如:當(dāng)需要搜索“騎電動車帶多個煤氣罐”的視頻內(nèi)容時,用戶只需用日常語言描述需求,系統(tǒng)便可呈現(xiàn)出最貼近意圖的搜索結(jié)果。同時,還可以針對視頻內(nèi)容里細小目標做模糊化檢索。這些能力極大地提升了城市管理者日常運營和決策調(diào)度中的工作效率,降低了溝通成本。
全要素理解、多條件布控更全面
高精度的視頻內(nèi)容理解,解鎖了復(fù)雜視頻場景布控的可能。機器可以代替人去看視頻,像人一樣看"懂"視頻,對視頻內(nèi)容進行全場景、全要素的理解,就可以對典型的場景目標和規(guī)則進行精準布控,提前預(yù)警潛在風(fēng)險,科學(xué)高效地輔助決策。依圖天問4.0支持多條件組合的場景布控,可幫助管理者進行精細化風(fēng)險防控和管理。在城市管理、環(huán)境監(jiān)測、公共安全等領(lǐng)域,這項技術(shù)展現(xiàn)出極高的實戰(zhàn)應(yīng)用價值。?
樣本更少更高效,現(xiàn)場訓(xùn)練更靈活
智能系統(tǒng)的一大特征是可以根據(jù)環(huán)境和需求的變化快速適配。傳統(tǒng)的機器學(xué)習(xí)模型面對新的算法任務(wù),需重新收集數(shù)據(jù)、訓(xùn)練模型,至少要1-3個月。依圖天問4.0升級了預(yù)訓(xùn)練模型,可實現(xiàn)1分鐘內(nèi)對極少樣本的新算法進行冷啟動,1小時內(nèi)完成在線標注訓(xùn)練,1天內(nèi)快速部署上線。通過日常工作過程中快速積累的數(shù)據(jù)飛輪,操作人員每天花幾分鐘對齊數(shù)據(jù)、簡單點擊對錯,幾天時間就可讓算法達到超過90%的準確率,展現(xiàn)出前所未有的智能化和靈活性,充分滿足業(yè)務(wù)系統(tǒng)的敏捷性和管理的時效性。
想法即算法,Agent輔助更智能
Agent(代理)在多模態(tài)大模型體系里扮演著至關(guān)重要的角色。AI Agent能夠基于歷史交互記錄和現(xiàn)有的算法能力,做出更為精準的決策輔助。依圖天問4.0可輔助逐步對齊認知,解構(gòu)重組算法。例如:當(dāng)我們想訓(xùn)練一個“大型倉庫里的小型叉車”,Agent會針對“大型倉庫”和“小型叉車”的語義做對齊,從而使得用戶的想法可以快速轉(zhuǎn)化為直觀的算法,讓用戶的每一個想法都能即時轉(zhuǎn)化為直觀的操作指令,實現(xiàn)“想法即算法”的飛躍,呈現(xiàn)出工作助手、智能體的靈動與高效特征。
AI新時代,因為看見,所以相信!
2019年起,依圖就開始了以Transformer為基礎(chǔ)的大模型研究與應(yīng)用探索。2020年,依圖推出預(yù)訓(xùn)練語言理解模型ConvBERT,通過全新的注意力模塊,僅用1/10的訓(xùn)練時間和1/6的參數(shù)就獲得了與谷歌BERT模型一樣的精度,相比OpenAI的GPT-3,可用更少時間去探索語言模型的訓(xùn)練,也降低了模型在預(yù)測時的計算成本。2023年7月,依圖天問多模態(tài)大模型正式發(fā)布,快速在全國項目中部署應(yīng)用。
依圖天問多模態(tài)大模型的工作范式,從傳統(tǒng)深度學(xué)習(xí)的像素標注升級到了多模態(tài)大模型的表征對齊,通過視覺與語言模型的深度融合,歸一了物理世界和認知世界的底層框架,構(gòu)建起物理與認知世界的橋梁,實現(xiàn)了用戶需求與技術(shù)創(chuàng)新的完美對接。此次發(fā)布的依圖天問4.0在類人交互、情境理解、認知進化等方面再次迭代出新特點,提升了多模態(tài)大模型對復(fù)雜視頻內(nèi)容的理解和發(fā)現(xiàn)能力。? 依圖求索新十年,在垂直視覺領(lǐng)域,隨著工程化應(yīng)用逐步落地,內(nèi)容理解的復(fù)雜度不斷提升,目標特征、關(guān)系特征、空間特征、行為特征、統(tǒng)計特征、知識特征、業(yè)務(wù)推理不斷解鎖。而多模態(tài)大模型在理論基礎(chǔ)上的不斷突破,讓我們也看到解鎖更多應(yīng)用場景的可能。 我們堅信,在智能安防領(lǐng)域,多模態(tài)大模型將發(fā)揮出更大潛能,尤其是在個性化需求強烈、環(huán)境多變的復(fù)雜場景中,將展現(xiàn)出更大的商業(yè)和社會價值?;跀?shù)據(jù)與算力的智能化運營將成為公共安全和城市治理的新常態(tài),各行各業(yè)也必將隨著技術(shù)的突破性發(fā)展真正邁入人工智能的新時代。
-
依圖科技
+關(guān)注
關(guān)注
0文章
50瀏覽量
9803 -
大模型
+關(guān)注
關(guān)注
2文章
2423瀏覽量
2640
原文標題:依圖天問大模型4.0重磅發(fā)布:開啟感知與認知融合的新篇章
文章出處:【微信號:依圖科技,微信公眾號:依圖科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論