親愛的廣場用戶們,廣場使用界面全新升級啦!新版本界面更清新簡潔、操作更流暢絲滑,還有多項貼心新功能上線,快來更新體驗吧!你對新版界面有什麼感受?你最喜歡的新功能是哪一個?你發現了哪些驚喜或變化呢?發帖分享新版廣場使用體驗,瓜分 $10 分享獎勵!
🎁 我們將精選 10 位幸運用戶,每人獎勵 $10 合約體驗券!
參與方式:
1⃣️ 關注 Gate廣場_Official;
2⃣️ 帶上 #我的广场升级体验 標籤發帖,分享你的使用感受,比如界面風格體驗、細節功能變化、你最喜歡的新功能,或優化建議等;
3⃣️ 帖子內容需至少 30 字,並且只帶本活動標籤;
廣場界面煥新介紹文章:https://gate.com/post?post_id=14774358&tim=ARAbClhcBQNwWRIVGAoGBB5QX1sO0O0O&ref=BFlBUFwL&ref_type=105
活動截止時間:2025/10/26 18:00(UTC+8)
你的體驗是我們持續優化的動力!趕快參與和大家分享吧!
國產大模型新進展,光芒照進聽覺領域
按照傳統看法,AI與大模型等涉及到的機器學習概念主要集中在“視覺”領域,經過不懈努力,現在已經拓展到聽覺領域了。清華大學與火山語音團隊合作,推出認知導向的開源聽覺大模型SALMONN,名稱源於Speech Audio Language Music Open Neural Network的首字母縮寫。 Demo鏈接:
如果僅以人的角度來看,視覺與聽覺是既獨立又配合的信息系統。但從電腦,大模型等涉及到AI的角度來說,從視覺到聽覺的跨越絕非動動嘴或手指那般想像中的簡單,其中的意義可以用美國登月先驅阿姆斯特朗的那句名言概括: “這是我個人的一小步,也是人類的一大步。”
而傳統的音頻處理手段較為繁瑣,在接受到音頻信號後先要通過API調用底層工具將音頻轉化為文字信息,再將文字信息輸入大模型做後續處理。與之相比,SALMONN可以直接從現實世界獲取知識,並在一些複雜場景中也有很好的理解和處理能力。而且由於訓練數據全部基於文本指令,因此也可以說它擁有跨模態的交互能力。
從目前的消息來看,SALMONN能夠勝任多種多樣的語音相關任務,同時又有多種在訓練時沒有專門學習過的多語言和跨模態能力,如不同語種的語音識別、英語到其他語言的翻譯、對語音內容的摘要與提取關鍵詞、通過音頻生成故事、音頻問答、語音和音頻聯合推理等任務。
根據官方團隊的說法,SALMONN能處理的任務,依據從易到難的程度可以分為三類:1.訓練中就學習過的任務,2.訓練中沒學過,但SALMONN能夠基於文本輸入完成的任務,3.訓練中沒學過,需要直接感知音頻或視頻的多模態大模型才能完成的任務。
**之所以會有如此窘境,主要是因為機器聽覺與機器視覺的先天性差異,以及由此導致的一系列困難。 **過去曾介紹過,蘋果的Siri已經算是質量很好的語音助手了,但依然經常被人嘲諷為“人工智障”。後來又有消息說蘋果對Siri也有諸多不滿,歷次發布會裡對它一直都很少提及,即使提到可能也只是“更智能”“更強大”之類的套話。之前馬克·古爾曼爆料蘋果在秘密開發Apple GPT時也說過,Siri部門長期陷於費力不討好的泥沼中,蘋果多年來一直想為Siri進行一次革命性更新,甚至是為此而單獨規劃生產線,專門出一款新產品,將Apple GPT與Siri集成到一起或許是一種好方法,能識別語音且能用語音控制的大模型,的確是比較酷的。