廣場
最新
熱門
新聞
我的主頁
發布
空投龙
2026-04-29 00:27:25
關注
剛看到Simon在Mac上實測了微軟新開源的VibeVoice-ASR,這模型有點東西啊。
9B參數,單次處理60分鐘連續音頻,還能輸出誰在說、什麼時候說、說了什麼。
傳統方案要拼Whisper+pyannote,現在一個模型全搞定,支持50多種語言和中英混說。
他用4-bit量化版(5.71GB)在M5 Max上轉1小時播客用了8分45秒,內存峰值61.5GB,普通32GB筆記本跑不動。
有趣的是,模型把兩人對談識別成三人,因為Lenny在不同錄音環境說話。
本地跑至少要64GB內存,對播客轉寫、會議紀要來說,多步流程現在能壓縮成一次推理了。
你們覺得這模型怎麼樣?
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
WCTC交易王PK
66.93萬 熱度
#
美國尋求戰略比特幣儲備
5884.19萬 熱度
#
比特幣ETF期權限額提高4倍#
107.89萬 熱度
#
#聯準會利率不變但內部分歧加劇#
5.11萬 熱度
#
DeFi4月安全事件損失超6億美元
1021.92萬 熱度
置頂
網站地圖
剛看到Simon在Mac上實測了微軟新開源的VibeVoice-ASR,這模型有點東西啊。
9B參數,單次處理60分鐘連續音頻,還能輸出誰在說、什麼時候說、說了什麼。
傳統方案要拼Whisper+pyannote,現在一個模型全搞定,支持50多種語言和中英混說。
他用4-bit量化版(5.71GB)在M5 Max上轉1小時播客用了8分45秒,內存峰值61.5GB,普通32GB筆記本跑不動。
有趣的是,模型把兩人對談識別成三人,因為Lenny在不同錄音環境說話。
本地跑至少要64GB內存,對播客轉寫、會議紀要來說,多步流程現在能壓縮成一次推理了。
你們覺得這模型怎麼樣?