【智慧城市網 品牌專欄】近日,在上海人工智能實驗室發布的多模態大模型榜單 MMBench中,來自佳都科技中央研究院的TransCore-M超過LLaVA、mPLUG-Owl2、Qwen-VL-Chat 等 20 余個來自世界一流大學和業界大廠的多模態大模型,分別在 4 個榜單中都高居第二。目前,TransCore-M 的模型和推理 demo 已在 huggingface 開源,并開放體驗。
△MMBench榜單(其一),MMBench是上海AI lab和南洋理工大學聯合推出的基于ChatGPT的全方位多模能力評測體系,其它榜單詳情請見文末。
模型架構與訓練
TransCore-M 采用預訓練和指令微調兩種訓練策略,來提升模型的多模態能力:
l預訓練階段:凍結視覺模塊(Visual Encoder)和語言模型(PCITransGPT),使用大量圖文數據將圖像和文本知識進行對齊;
l指令微調階段:構造多樣性的文本和多模態聯合數據,保持視覺模塊凍結,將視覺對齊模塊和語言模型進行全參微調,使得模型能夠具備更豐富的多模態理解能力。
交通行業能力
技術上,佳都科技布局視覺模型多年,自 2015 年開始加強在人臉識別、視頻大數據領域的技術投入,2017 年成立中央研究院,開展數據和智能中臺建設,2019年推出城軌智慧運營系統華佳 Mos,2020 年開始研發基于數字孿生技術的 AR(增強現實)引擎,將多維信息和 3D 虛擬界面融合。
應用場景方面,佳都長期深耕智慧大交通主賽道,積累了深厚的智慧交通行業項目經驗和數據優勢。一類是直接與視覺感知有關,主要是前端的采集智能設備,另一類是交通場景,包括車站客流分析、行車圖優化、應急調度指揮、智能運維、智能安檢,信號燈調優、交通擁堵分析、綜合樞紐與公交客流分析導向等。
通過將以往的經驗和數據沉淀為行業資產,多模態大模型深度融合了豐富的領域知識,結合高質量的專業語料庫,確保模型具有卓越的理解和判斷能力。
點擊huggingface 主頁中的 demo 鏈接后,用戶僅需上傳圖片,即可與TransCore-M 進行對話。
示例1:交通視覺描述
示例2:交通違規檢測
示例3:路況檢測
示例4:異常事件檢測
示例5:異常事件檢測
榜單排名情況
版權與免責聲明:
凡本網注明“來源:智慧城市網”的所有作品,均為浙江興旺寶明通網絡有限公司-智慧城市網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智慧城市網”。違反上述聲明者,本網將追究其相關法律責任。
本網轉載并注明自其它來源(非智慧城市網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。