字節豆包首個AI硬件來了,定價1199元!

字節跳動的首個AI硬件,就這麼水靈靈地來了——

一款塞了大模型的藍牙耳機!

這個AI耳機,名叫Ola Friend,“Olá”在葡萄牙語中意爲“你好”,因此它的中文名就是:你好呀 朋友。

首先,Ola Friend最大的亮點,就是第一個做到了真正把通用大模型應用到耳機場景——

戴上耳機,只需一句“豆包豆包”,就可以隨時隨地喚醒AI,並跟它做任何交流。

例如出門前詢問天氣、路面狀況,現在的“打開方式”是這樣的:

視頻詳情:https://www.toutiao.com/article/7424073841964384802/

當然,這些問題都只能算是開胃菜,我們直接來上一下難度——英語口語練習!

視頻詳情:https://www.toutiao.com/article/7424073841964384802/

不難看出,現在跟AI練習英語口語,就變成戴個耳機就能實現的事情了,而且你可以隨時打斷豆包說話(1分29秒左右)。

當然,作爲一個藍牙耳機,其本身最基本的“聽”的功能也是非常重要的。

Ola Friend在設計上屬於不入耳的開放式(OWS)耳機,單隻的重量只有6.6克(親測佩戴無重感)。

在音效方面,由於設計採用27.5度夾角,發聲單元會更靠近耳道,聲壓比會相對大一些;並且還採用了10mm動圈發聲單元、動態EQ1.0、動態低音補償、定向防漏音等設計,提升了耳機的音質。

上面視頻中豆包說話的音效,其實就已經非常接近佩戴時候的真實感覺了。

但畢竟我們第一時間拿到了Ola Friend,定然不能就這麼簡單放過它——

實測嘛,就是要狠狠地、各方面地都來體驗一把。

首先我們需要介紹一些基本的功能和設置。

Ola Friend在和手機配對的時候,需要雙手同時按住兩側機身,然後就可以在手機藍牙中找到它並連接。

但要想開啓AI大模型功能,還需要進豆包APP的“我的→設置”裡,找到“Ola Friend耳機”選項,進行第二次配對;其中,“豆包智能體”選項中的喚醒功能是默認開啓的。

接下來,我們就再貼近真實生活場景來一波測試。

畢竟我們戴耳機不僅僅是在安靜的環境,大多數可能都是非常嘈雜的環境,那麼在用Ola Friend跟豆包對話的過程中,它會不會受到外界環境的影響呢?

我們這波測試的環境設置如下:電腦外放音樂,用中英摻雜的方式跟豆包對話。

(由於對話文字內容較長,以下幾個實測視頻將以字幕的形式呈現)

視頻詳情:https://www.toutiao.com/article/7424073841964384802/

即便背景放了巨大音量的英文歌,但豆包還是能夠精準識別出用戶的聲音,在問及“爲什麼今年的the Nobel Prize in Physics頒給了Geoffrey Hinton”時,豆包也能做出準確回答。

由此可見,在嘈雜的現實環境中,Ola Friend也是完全可以hold住的。

而之所以能夠如此,是因爲Ola Friend是可以像朋友一樣專門記住你的聲音,這就大幅降低了錯誤打斷的概率。

同樣的問題,同樣的環境,我們再有請方言出戰——四川話!

視頻詳情:https://www.toutiao.com/article/7424073841964384802/

這一次,我們特意切換了語音風格爲“呆萌川妹”,是不是相當地有那味兒了!

那麼對於複雜的數學題,Ola Friend又將做何表現?

我們不妨以電影《抓娃娃》片段中的那道經典題目來提問(這次我們切換了聲音爲“溫暖阿虎”):

視頻詳情:https://www.toutiao.com/article/7424073841964384802/

從求解過程中不難看出,不論是要求Ola Friend直接給出答案,亦或是在它求解過程中任意打斷(1分17秒、1分59秒、2分14秒),它都能像跟真人交流一樣嚴絲合縫。

不難看出,戴上了Ola Friend,就宛如實時地在跟AI大模型電話一樣,而且是有問必答、隨意打斷、多輪對話的那種。

因此,像在做飯燒菜等場景中,這個AI大模型耳機就能在釋放雙手的同時,還能做到答疑解惑。

方便,着實是方便。

那麼接下來的一個問題便是:Ola Friend是如何做到的?

扒開Ola Friend內核,關鍵之一是字節於業界領先的大規模自迴歸文本到語音模型——Seed-TTS。

幾個月前,字節發佈了Seed-TTS技術論文,引發圈內廣泛關注。

它可以依據上下文理解文本情緒,能生成與人類語音幾乎無法區分的高質量語音,說話自然有感情,連停頓、喘息、換氣聲都合成得真真兒的。

視頻詳情:https://www.toutiao.com/article/7424073841964384802/

從技術實現上來看,Seed-TTS基於自迴歸Transformer,模型架構包含speech tokenizer從語音中提取token信息,語言模型建模文本和語音token的關係,擴散模型從語音token生成連續的語音表徵,最後通過聲碼器生成最終的語音。

訓練含三個階段:

與以前的模型相比,Seed-TTS在自然性和穩定性方面有顯著提升。

經實驗,Seed-TTS不僅具有零樣本上下文學習能力,基於短音頻提示生成相似聲音的新語音,還可以針對特定說話人進行微調,進一步提高相似度。

在情感等方面Seed-TTS具有更高的可控性,且支持跨語言語音合成,拿捏講話的音調、韻律、節奏。

Ola Friend另一大法寶是語音識別技術——Seed-ASR。

與AI智能音箱和車載語音系統相比,耳機通常在公共空間中被使用。這些場所環境嘈雜並且人多,因此在這些環境中進行聲音識別和意圖判斷面臨較大挑戰。

而字節Seed-ASR技術,不僅讓Ola Friend能聽懂用戶說話,甚至能通過上下文識別各類信息。

Seed-ASR以大語言模型爲基礎,通過輸入連續的語音表示和上下文信息,顯著提升了在不同應用場景下對多樣語音信號的識別準確率。

它支持包括普通話及多種方言在內的多語言識別,在豐富的訓練數據上進行大規模的自監督學習,還通過了階段性訓練策略,包括監督式微調、上下文感知訓練和強化學習,進一步優化性能。

Seed-ASR在公開測試集和內部綜合評估集上均展現出比現有端到端模型更低的詞/字錯誤率。

除此之外,依靠豆包大模型,Ola Friend還有buff加成——

能夠雙向實時對話,隨時打斷也可以,支持引入其他話題多輪交流,而非每句話都要喚醒詞並且聽完全部再回復。

與傳統智能音箱助手等大多是特定任務可以多輪(如追問天氣情況)不同,接入大模型之後,在交流中隨意切換話題也不怕,可以做到通用場景全雙工連續對話。

另外,Ola Friend進行了很多工程優化,像是鏈路預加載等,使得端到端交互時間可以縮短,降低用戶講話後得到反饋的時間。

作爲字節跳動豆包團隊第一款AI硬件,幾天前官方剛發佈預熱海報,就有大批網友開始猜測Ola Friend是耳機呢?還是眼鏡呢?還是耳機呢?

這下它的神秘面紗終於被揭開,那爲啥字節能將AI交互引入到耳機場景呢?

不僅得益於自家的豆包大模型支持,還與其硬件團隊的實力密不可分。

據瞭解,九月份,字節跳動正式宣佈成功收購開放穿戴式音頻產品廠商Oladance,完成100%控股。

Ola Friend硬件團隊就是原Oladance耳機團隊,也就是最早做OWS開放式耳機的那幫人,有深厚技術積累。

團隊出身如此,所以Ola Friend也正如我們前文所提到的,不僅從設計上不單單考慮了AI硬件的性能,還兼顧了傳統開放式耳機的舒適度和音質。

同時團隊還專門推出了優化降噪算法,算法已申請專利,針對輕聲喚醒和交互專門做了改進,用戶用較輕的聲音就能喚起豆包。

也就是說,在公開場合中悄默聲就能喚醒,媽媽再也不用擔心我會社死。

大模型技術的發展正如日中天,各種AI硬件如雨後春筍般涌現,從智能家居到個人助手,AI正在深刻改變我們的生活方式。

在這一背景下,字節跳動推出的Ola Friend無疑爲AI硬件耳機市場帶來了新的活力。

據悉,Ola Friend將於10月17日起售,聽說後續AI功能還會持續更新,未來Ola Friend不僅能喚醒豆包,還可以喚起更多智能體。

那麼你對這個首款AI大模型耳機心動了嗎?