推出 AI 耳機,字節真正的野心是什麼?

AI 硬件的關鍵,在於持續深入融入用戶生活。

作者 | 連然編輯| 靖宇

10 月 10 日上午,字節跳動豆包發佈了一款硬件產品——AI 智能體耳機 Ola Friend。該產品是一款開放式耳機,單耳 6.6 克同類最輕,可接入豆包大模型,並與豆包 App 深度結合,售價 1199 元。

用戶戴上耳機後,無需打開手機,只需喊出關鍵詞「豆包豆包」,便能喚起豆包進行對話,後者能夠在信息查詢、旅遊出行、英語學習及情感交流等場景爲用戶提供幫助。

今年以來,大模型應用落地加速的同時,AI 手機、AI 耳機、AI 眼鏡等 AI 硬件新品紛紛涌現,究竟誰能成爲 AI 時代,用戶與人工智能交互的第一個入口?

Ola Friend 並不是字節推出的第一款硬件產品,但此前包括大力檯燈以及收購 PICO 後的探索並未出現明朗結果,這次會有所不同嗎?

目前可以看到的是,相比之前更爲激進的策略,Ola Friend 這款 AI 耳機的定位迴歸到基礎階段,在功能上遠低於大家想象,但這似乎反而體現了字節思考得很清楚——今天在想象 AI 硬件的時候,不應該太過於樂觀,而是應該更務實地來想這件事。

在 Ola Friend 發佈當晚,極客公園「今夜科技談」直播間邀請了極客公園創始人 & 總裁張鵬,和靈宇宙創始人顧嘉唯一起聊了聊,這款這款 AI 耳機對於字節跳動的意義、以及 AI 硬件產品真正的機會到底在哪裡。

以下是直播沉澱文字,由極客公園整理。

01

字節推 Ola Friend:

只邁出了 0.1 步?

張鵬:你怎麼看字節今天推出的 Ola Friend 耳機?它在預期之中嗎?

顧嘉唯:這款產品的定義方向是正確的,不過它目前只邁出了 0.1 步,還需要進一步迭代。

從 Google Glass 到今天的 Ray-Ban Meta,這些終端的探索,實際上是所有科技公司夢寐以求的大目標——打造類似電影《Her》的 Personal AI。

過去 20 年間,爭奪入口始終是商業競爭中的巨大挑戰,尤其是在交互層面上。字節推出 Ola Friend,是一次不錯的嘗試——先把用戶在手機裡用「豆包」APP 調到耳機裡,離人更近。

值得一提的是,Ola Friend 謹慎控制了預期,沒有盲目擴展功能。做硬件產品,很重要的一個能力就在於不斷做減法、做收斂。

張鵬:所以你認爲 Ola Friend 沒有發散功能、控制用戶的預期是對的。

顧嘉唯:產品的外觀設計方面,很多人認爲它跟上一代區別不大,甚至在質疑爲何使用傳統的 TWS 耳機來冒充 AI 硬件。

Ola Friend 目前四種配色|圖片來源:Ola Friend

事實上,字節是在通過這種方式管理用戶預期,讓用戶先認爲它只是一個普通耳機,然後當它在軟件端的 AI 能力展現出來時,用戶就會感受到超出預期的體驗。這樣做的目的也是爲了讓「豆包」更容易觸達用戶,降低用戶使用「豆包」的門檻、減少進入層級,以提高活躍率爲小目標的。

在我的使用體驗中,豆包在電腦端的功能表現還是很出色的,無論是插件、劃詞、截屏等功能,響應迅速、便捷高效,很好地提升了工作效率。但是在移動端的表現就不太盡如人意了。這背後有很多原因,其中之一在於入口之爭的難度所在。

雖然豆包不具備像 Google Assistant 那樣的系統層能力,但在應用層面,它本質上構建的是一個AIfriend 的角色,來提供情感交互。

使用「豆包」比較多的話,會發現上面有許多 agent,這些 agent 不僅在文本轉語音(TTS)的音色上表現出色,還能通過情感表達讓人產生共鳴。這種情感交互的體驗,也正是過去半年 GPT 技術不斷髮展的成果之一,尤其是通過互聯網文本到視頻數據訓練涌現出的結果。

如果你使用過 Ola friend 這款產品,就會體驗到一種「aha moment」,就是那種強烈的陪伴感,就像身邊有人在跟你低語交流。這種陪伴感正是吸引用戶的重要特質之一。

張鵬:所以它本質上很多交互其實超越了手機的形態。

顧嘉唯:對,只是說它今天還沒有做到環境感知、主動理解。

張鵬:做到的話,那就真的是有點往 her 走了。

顧嘉唯:現在它至少已經實現了「即喚即用」(Instant On)的功能。雖然還沒有到「始終在線」(Always On)的程度,但當用戶需要時,它的喚醒方式非常便捷——無論是通過輕觸,還是使用喚醒詞,用戶都可以很輕鬆地啓動設備。耳機本來就是手機搭配非常自然的延伸設備了,做到比手機更隨時隨地更 on demand 的選擇,這是一個最安全低摩擦的一個品類選擇。

接下來,我覺得應該再往前一步,把環境感知和主動交互加入進來,這樣才能真正與手機的使用區分開來。我們靈宇宙認爲下一代 AI 硬件形態可能是各種形式,但有一點是重要的:可以更多更長時地感知用戶周圍的環境空間信息,進一步作爲輸入,從被動地需要用戶喚起轉變到可以主動感知並且支持用戶。同時做了 CoT 的算法設計,去更深層次理解人的意圖,把被動喚醒變成主動理解人意圖、能察言觀色、有眼睛見兒的深度交互。

和以往交互模式有什麼不同呢?我自始至終一直在做「交互」這件事情,在微軟研究院的時候從事的行業就是人機交互,大家一直談論 GUI、TUI、LUI、以及我們主動交互的 NUI,核心都是在於迴歸以「人」爲中心的交互。這也就是爲什麼我認爲今天 Ola friend 只邁出了 0.1,而後面的 0.9 還會有極大的變化,我正帶着團隊鎖定 NUI 的下個代際躍遷。

探尋 NUI 的同時,在 Personal AI 和 Ambient AI 領域中探索 AI 產品在空間交互技術棧和數據獲取的潛力。目標是構建一個可隨身攜帶、交互式的 AI 產品,無論是任務型、服務型,還是情感陪伴型,都是探索的方向。

02

給 AI 加了個硬件?

張鵬:字節推AI耳機,某種程度上是不是可以理解爲,有價值的是 AI,給 AI 加了個硬件?

顧嘉唯:手機是最大消費硬件,短期內難脫離「以手機爲中心」環境,你可以理解豆包耳機所有的價值功能幾乎都來自於手機上的豆包 APP。AI 給手機帶來的不只是功能疊加,而是重新定義運行方式和交互模式。

在場景中用更好軟件體驗升級可稱「加 AI」,如手機上各類被 AI 賦能升級的應用及功能集成的手機 OS 正被大模型以 SDK 化改造升級,這是商業化落地有效路徑。以 AI 爲中心重構手機日常使用方式,包括交互流程等;系統級 AI 助手包括意圖理解與指令執行。

大模型以 Agent 形式重構用戶與手機交互,包括新 AI 硬件變化,人們也在找「AI 原生」場景及解決方案,有 AI 後這些場景能打通。

不過,定義這兩類產品時思考方式不同。若產品基本能力已佔據高頻場景,就有機會通過 AI 替代、提效或替代非 AI 完成的功能,這種機會確實存在。

我們今天聊的主要是能成爲 AI 交互入口類型的產品對吧。對於「加 AI」,在智能音箱出來之前,我們曾經在 2015 年前後定義了一類家庭管家助理類的產品叫 Jibo,是基於 rule-based 寫的腳本,我們增加了多模態,增加了視覺,他能夠看得見,所以他有機會環境感知;而對於 AI 原生,我在過去的非常多產品嚐試,例如 Luka 盧卡出現之前家長給孩子讀繪本只能自己讀,學習機品類還是一塊屏沒有攝像頭掃題指讀,基於 Luka 盧卡把桌面上的交互場景變成一個可交互的多感官空間。我過去的很多產品,尤其是在軟件端,都是基於這樣的思考進行的。

很多創業者在上一個週期前仆後繼地進入這個領域,現在大概率也逃不出這個循環。從這個角度來看,有一類我定義成「容器屬型」的產品可能並不是完全的 AI 原生,而是上一個週期的產品基礎上「換 AI」,例如從 rule-based 換成了 LLM Agent,場景交互真實升級後,催生了原本需求的激活,帶來了更高的市場天花板。這個邏輯套到現在我們陸續看到的成功的 AI 硬件產品上都是適用的。

張鵬:總體來看,目前還沒有那種能夠穩定成長的目標級產品。不管是 TPF(技術可行性)還是 PMF(產品市場契合),都沒有真正實現。不過隨着時間的推移,我相信我們越來越有機會找到結合 TPF 和 PMF 的AI硬件。

字節跳動今天推出了一款在功能上遠低於大家想象的AI耳機,但反而體現了字節思考得很清楚,今天在想象 AI 硬件的時候,還是不應該太過於樂觀,還是應該更務實地來想這件事。

顧嘉唯:我認爲在未來一到三年,甚至三到五年內,AI 硬件創業者擁有巨大的機會,前途無量。這些機會源於底層技術能力的進步在今天真正實現了有價值的落地。

張鵬:未來我們需要思考的是,AInative 的硬件是否能真正發揮作用,關鍵在於與用戶的互動時長嗎?如果這些產品只是短暫使用,是否意味着它們僅解決特定問題,從而變成一種目的性的硬件,也就變成了硬件+AI。

而真正抓住未來機會的關鍵,可能還是在於如何深入融入用戶生活,延長使用時長,不斷爲他們提供個性化、持續的價值體驗。

03

離個人助理還有多遠?

Ola Friend 可以當作「隨身百事通」使用|圖片來源:Ola Friend

張鵬:從情緒價值這個層面去切,我其實也非常認同,因爲我覺得在過去一段時間裡,整個大模型領域印證了一點,大模型能夠確定交付的一個價值就是情緒價值。

那繼續往下走,是不是就是要在系統側做一個 assistant?也就是從目前的情感搭子逐漸轉變爲一個更加實用有效的助理。你覺得這種發展路徑存在嗎?

顧嘉唯:豆包其實已經在電腦端上無論是瀏覽器還是屏幕權限都拿捏得很好,不斷提升使用率和觸發率的各種場景,但在手機上實現這一點就很難。人們可能更傾向於從手機的複雜環境中提取出一個能夠更高頻使用助理和情感互動功能的場景。通過推出這款耳機,字節至少找到了一條可能的路徑。

很多人期待這款耳機能夠具備的一些功能,事實上並沒有,比如說訊飛耳機已經支持的電話錄音和語音摘要這些功能,但這款豆包耳機卻並沒有具備,這其實就是產品在做「減法」的結果。

Ola Friend 現在更專注於在某些垂直場景中打磨出色的用戶體驗。比如英語口語陪練、汽水音樂與字節私有音樂生態結合等主打場景,都是適合大模型現階段「笨任務」相對穩定可靠的技術低垂果實,應先將一兩個核心功能做到 80-90 分,而非在多個功能上平均用力致每個僅 50-60 分。在 AI 創新產品開發 PMF 多年,吃過最多的虧就是以前總習慣於去挑「聰明任務」去做,前沿技術「不穩定」致創新體驗不足以支撐替換成本的情況很多。

這是對於定義 AI 硬件,或者任何以軟件驅動爲核心的消費級硬件來說,非常重要的策略。

再回到個人助理的這一點,目前距離要做出一個真正意義上的個人助理還相當遙遠。要知道現在在豆包裡想要打電話都還不行。這不光是涉及技術本身的進程,還包括商業生態的打通。

在新興的技術入口之爭中,首先入局的往往是手機廠商,緊隨其後的是像微信這樣的超級應用。也就是說,一旦 AI Agent 助理技術發展到一個高度成熟的 PMF 階段,手機廠商和這些超級應用巨頭都會迅速涌入,字節推出 Ola Friend,算是搶跑了一步。不過若是各家手機廠商的 TWS 耳機都聯調適配好了自家 AI-OS 以後,屆時豆包 inside 生存空間會是什麼樣呢?

04

真正的目標:

掌握交互入口

張鵬:我在想,對於字節跳動這樣的公司來說,這款耳機是否能夠賺錢,或者能賺多少錢,並不是他們最關心的問題。它更像是豆包的一個輔助工具,這樣理解對不對?

顧嘉唯:如果我們猜測張一鳴特別想要全面投入 AI 這個入口,那麼他可能不會把硬件作爲商業模式,因爲無論是 PICO 還是大力檯燈,字節已經走過一遍路徑了。

除了耳機,眼鏡、項鍊這些形式都是有機會的,只要能離人的五官,也就是離人類天生的傳感器更近,比人看得更清楚,聽得更清晰,擁有第二大腦,無縫地提供 AI Agent 服務,就有機會成爲下一個 AI 入口。這種交互方式實際上更有可能實現從即時啓動(instant on)到始終開啓(always on)的轉變。交互方式創新了,就會產生新場景。

可能字節真正的目標還是想要掌握超級應用的入口。如果把交互入口作爲第一性原理來看,那麼肯定要通往 her,要做一個高度個性化的 AI 助手,這也是所有科技大佬的夢想。

張鵬:那基本可以預料未來 AI 耳機這個品類一定會有更多的品牌進來做。核心問題在於,AI 耳機的競爭力到底是體現在其 AI 技術上,還是耳機的硬件質量上?另外,AI 耳機真的是一個值得投入資源去競爭的賽道嗎?

顧嘉唯:我非常相信 Mark Weiser 對人機交互的未來發展路徑規劃——ubiquitous computing 隱形計算。手機之後,更輕、更小、更隨身的個人穿戴終端將成爲 PersonalAI核心價值的延伸。在這一過程中,耳機、眼鏡、項鍊等產品形態是創業者需探索的方向,關鍵在於後端交互體驗的承載,是各家需深耕之處,也是資本市場有較高期待的領域。

我們來看當下人交互的主流媒介還是「接觸式」的,例如手機、電腦,體驗最好的交互方式還是手機;而「非接觸式」的,例如體感遊戲機、智能音箱、智能家居等通過手勢、語音、聲控;可穿戴設備介於這兩者之間,屬於「嵌入式」,這裡面的產品形態和匹配的交互方式還有很大的創新空間。

張鵬:那回到 AI 耳機,它的長期競爭力是不是更多地依賴於其軟件和 AI 能力,而不是硬件本身?

顧嘉唯:對。

張鵬:AI眼鏡會是更好的選擇嗎?字節這次推出了 AI 耳機而不是 AI 眼鏡這件事,你是怎麼看的?

顧嘉唯:字節肯定是有在做AI眼鏡的,無論是頭盔式VR,還是其他輕量型設備,例如 BB 和光波導等光機畫幅技術實現透視效果的設備,字節都有在積極探索和做迭代。

對於像字節這樣的互聯網大廠來說,選擇做硬件不僅是基於情懷,更是對構建入口的持續追求,探索和試錯都是必經之路。

儘管目前還沒看到字節發佈類似 Ray-Ban Meta 這樣的硬件產品,但可以預見,他們必然會沿着這條路徑尋找機會並逐步推出相關設備。

在今天,探討耳機與攝像頭結合的必要性很明顯。提升 AI Agent 助理功能,從 instant on 到 always on,成爲更好的獨立 AI 硬件或手機輔助配件以支持更多交互和 AI 功能,一定要輕薄便攜,不應笨重,更不應去跟日漸普及的手機摺疊屏 PK 顯示效率。

張鵬:不要低估字節在佈局硬件上的資金、動力以及決心。不過就眼鏡來說,如果想讓智能眼鏡成爲取代下一代手機的終端,在今天是非常困難的,很難實現。但如果目標不是從手機屏幕上爭奪用戶的使用時間或屏幕使用量,那可能就會是另一個討論方向?

顧嘉唯:從長期來看,比如五年、十年,甚至更長的時間週期內,有可能會出現一種替代手機,成爲新的交互中心的可穿戴設備。

這種設備應該具備顯示功能、支持多模態交互,能夠感知環境,還能夠進行成像和有良好的畫幅顯示錶現。

張鵬:重要的是至少五年,不要想明年。不過光機方面最近還是會有一些進展。

05

AI硬件的真正機會在哪裡?

張鵬:怎麼理解在眼鏡上面加攝像頭這件事它真正的意義?

顧嘉唯:空間智能和空間交互是技術演進中一個非常好的載體。它的第一步是看今天的大模型能否從文本能力涌現出更多的認知,進而朝着 CoT(Chain of Thought,思維鏈)和推理能力的方向發展,然後引入更多的空間認知。

百度 2014 年推出了 BaiduEye,一款穿戴式產品原型|圖片來源:百度

之前我在百度選擇開發 BaiduEye 與 Meta 現在選擇推出 Ray-Ban Meta 是出於相同的目標。BaiduEye 欲成爲人類的「第二個大腦,第三隻眼睛」,打通物理世界空間交互數據集以索引真實世界,其產品原型受以色列 AI 視覺公司 OrCam 的 MyEye 啓發,其創始人 Ziv 也是 Mobileye 創始人,瞭解自動駕駛歷史的朋友一定不陌生。推動此目標過程中,已見大模型在前端意圖理解和後端自動化執行有顯著突破,中間缺失數據源可由 AI 眼鏡這類載體補充以完成空間智能構建。

張鵬:攝像頭其實能起到第一人稱視角的數據源的輸入。

顧嘉唯:關係算法和空間交互是通向 PersonalAI的必經之路,通過這條路的核心是數據集。

今天佔據「空間交互」數據閉環是競爭關鍵。未來做具身智能或通用人形機器人,所需數據源既要像第三視角,如遊戲過肩視角,觀察人在真實場景互動,包括人與人、人與物、人與空間交互;又要以人本身視角完成第一視角操作。

從數據源的價值角度來看,大家在未來的發展路徑應是相似的,關鍵在於誰的數據構建速度更快,但這波核心在於感知。感知指什麼?AI 硬件疊加多模態能力後蒐集大量多模態數據,此多模態非原有文字或屏幕二維維度所具備,先有感知再有交互升維是 AI 迭代重要條件。當前具身領域正在經歷硬件的迭代,但最終硬件能力可能會相差無幾,核心在於感知交互及由此帶來的能力差異。靈宇宙針對隨身 AI 場景積累大量感知的空間交互數據,使 AI 交互進化出不同體驗。

張鵬:這一切的核心在於,如果未來我們想要基於AI爲用戶交付價值,就需要給 AI 提供更豐富的信息輸入,而不僅僅依賴用戶的指令。只有這樣,AI 才能更默契地與用戶互動,通過更簡單的交互提供更大的個性化價值。如果一切都依賴於用戶來提供信息,那用戶會非常疲憊。

從手機中抽取時間,本質就是要爲用戶提供超越以往的價值。這意味着要在一些手機無法實現的場景中,提供更好的體驗。雖然手機積累了大量數據,但仍然是有限的。所以需要在數據維度上做得更加豐富,才能真正交付出AI的個性化價值。這可能就是我們今天所說的 AI 硬件的真正機會。

顧嘉唯:今天屏幕上,多模態任務操作簡潔直白,爲流式交互路徑,可同時多模態、多任務並行操作。但耳機和語音場景只有線性操作,任務高效性不足,那怎麼改變?需讓 AI 先完成主動處理部分,即我們靈宇宙要做的 Proactive Intention 主動意圖交互。

原來所有功能靠調 API 操作,如今大模型能中控調度持續獲取服務和調用信息,跳過 GUI 應用層寫腳本,模型更小、執行效率更高,推動了 agent 發展,能更靈活產生價值。

張鵬:交互這件事兒,過去是人機交互,是人在將就機器,因爲機器不懂人的東西,我們就是哄着人們說你用這種方式讓機器理解你的意圖。但未來終於到了,機器應該主動去理解人的這個階段。

顧嘉唯:傳統人機交互模式是基於信息流和服務流的推送,這是早期互聯網和移動互聯網發展階段的典型特徵,人們更多是通過學習如何與機器互動,來獲取信息或服務。

現在,隨着 AI 技術的驅動,交互模式正在發生根本性變化。未來的交互將不再是單純的人與機器的交互,而是基於「思維鏈」來重塑 AI,基於"關係鏈"來塑造內容。這意味着,未來的 AI 交互將會更注重人際關係和社交屬性及人與環境空間關係,而非僅依賴機器功能服務。

隨着這種轉變,傳統人機交互可能會逐漸消失,取而代之的是人與「類人」智能體的交互。這種交互方式不再是簡單命令執行,而是更接近於人際關係中的互動——包含情感陪伴、任務完成、結果交付等方面的社會化屬性。未來的 Agent 智能體將會模擬人的行爲和情感,與人類建立更加緊密的關係,成爲一種社會化的存在。屆時,或許由計算機、電子工程自動化等構建起來的人機交互也就消亡了,取而代之的是政治、法律、社會學等構建的人「人」交互。

06

創業者要避開哪些坑?

張鵬:上一波的AI硬件,其實沒有特別成功的東西出來,這一波 AI 加到硬件上,可能會面臨什麼坑?

顧嘉唯:今天佔據空間交互,數據閉環是競爭關鍵。從數據源價值看,未來發展路徑相似,關鍵是誰的數據構建速度更快。這波 AI 硬件公司最大的坑可能是忽視這一點,或沒有能力做到這點——誰都知道數據價值,但就是「啓動無數據優勢,過程無價值數據」。

目前市場上的許多智能硬件產品實際上無法真正被稱爲「智能」。這是因爲人們往往對其「智能」功能寄予厚望,期待它們能帶來顛覆性的用戶體驗,但在實際交付時往往遠低於這些預期,導致許多用戶失望。

例如今天的語音交互產品中,用戶「可感知」的智能之一就是「Barge-in 隨時打斷」,NUI 自然對話智能裡最大的摩擦是用戶已經開口說了,機器 AI 還沒反應過來還在那自說自話的違和感,然後機器 AI 說話時出現衝突,要不搶話,要不跟不上節奏,就顯得很弱智,不像跟身邊的人講話那麼自然流暢。其實,只要用戶必須遷就機器,就不是一個好的的人機交互。

過往我們迭代語音產品時,就是典型的需要攻克的一個技術項「全雙工打斷」。通過 VAD 語音活動檢測,結合通道降噪,以及音視頻各通道的信息理解做融合策略和對話控制管理。

相比於原來智能音箱類場景,其實這個技術難點在耳機場景已經好解決很多,因爲耳機貼近人的感官耳朵和嘴巴,語音採集的信號更清晰,話音起止更易判別,麥克風陣列與用戶出聲位置距離相對固定,又避免了環境噪音和語音衰減等影響。

目前已知的無論是 GPT-4o 還是豆包,全雙工打斷體驗都不佳,主要還是誤打斷居多。原本的 ASR 語音識別 - NLP 語義理解 - TTS 語音合成多階段的做法,遲早會被「端到端」取代掉,Transformer 架構能夠並行處理句子中的各個部分,大大提高語義理解的效率,LLM Agent 智能體也應該充分利用之前對話的上下文信息,通過構建對話歷史的知識圖譜或記憶網絡,在理解用戶打斷意圖時參考之前的話題信息等。總之,用 LLM 大模型來實現「流式交互」是這一輪語音類產品的共同目標。

另一個大坑,就是基礎硬件的「基本功」沒做到位。

我們來區分下是用藍牙或者內建網絡協議等仍舊以手機爲中心的「周邊硬件」,還是獨立計算能力不依賴手機以自己爲中心的「獨立硬件」,今天我們談論的豆包 AI 耳機屬於前者,智能音箱屬於後者。

今天我們用大模型創造「獨立 AI 硬件」的話,除非智能算力能完全跑到本地,不然首先得要做好聯網基本功,AI 硬件在這個時間點首先需要把硬件基本功給做好,你以爲我們要討論的都是高大上的 AI,實際上消費者往往還卡在「上一步」呢。AI 硬件在用戶實際使用中的場景往往非常極端。如何在這些極端情況下優化 AI 的容錯性,是 AI 硬件開發中的另一個關鍵環節。

特別是在我們討論的下一代的個人穿戴設備作爲 AI 入口,通常沒有屏幕或小屏幕的終端上,聯網功能的實現變得尤爲複雜,尤其是當產品需要通過 Wi-Fi 連接時,用戶在每個步驟的錯誤操作反饋都可能影響整體體驗。解決這些問題需要在硬件配置和成本之間做出取捨,並且需要企業在開發過程中積累大量的經驗教訓。

開發過程始終面臨一個關鍵的權衡點——如何在成本和性能之間找到平衡。而且,硬件即便價格便宜,仍然需要物流和一系列的交付流程,這對用戶來說也構成了一定的心智門檻。要跨越這個門檻,對於那些沒有積累的新公司來說,定義和推出一款新的產品,確實是極具挑戰的。開發過程面臨成本與性能的權衡點。硬件即便便宜,物流及交付流程對用戶有心智門檻。對無積累的新公司,定義和推出新產品極具挑戰。

硬件產品的首次交付質量直接決定了未來市場表現和用戶預期的管理。若首次交付時表現不佳,即使後續進行多次迭代,可能也難以徹底挽回用戶對產品的信任。但如果首次交付能達到至少 70 分,企業就有機會通過後續改進來提升用戶體驗。

硬件產品由於其高成本和生產週期的限制,容錯率極低。硬件的幾次錯誤決策就可能導致整個產品的失敗,甚至需要重新考慮是否將產品推向市場。

張鵬:做硬件產品相對軟件可能難了不止十倍,那涉及到AI硬件,可能裡面又有一堆新問題。那這次靈宇宙的思路是怎麼樣的?跟你之前在做的事兒有什麼區別?

最右爲顧嘉唯此前推出的社交機器人 Jibo 和繪本閱讀機器人 Luka|圖片來源:靈宇宙

顧嘉唯:我一直在堅持的一個夢想,交互類的機器人。其實,機器人的核心構件無外乎三種:物理層面的移動(依賴輪或足)、任務的操作執行(依賴手臂和身體)、以及意圖理解後的交互(頭和腦)。最終,這些都歸結到交互本身——讓一個設備有一個界面,有一個「臉」來與你互動,本質上就是交互的核心所在。

這個路徑上關鍵在於找到一個有效的數據積累方式。

張鵬:創業者應該選擇什麼領域?

顧嘉唯:今天佔據空間交互這一層的數據閉環是競爭的關鍵,數據構建速度是影響未來空間智能、AI 陪伴軟硬件等諸多領域的最關鍵的因素。創業公司的核心競爭力、護城河都取決於此。

靈宇宙是基於大模型對意圖理解的升維,通過傳感器收集 life streaming data 全天候場景數據,實現空間交互,重新定義「萬物有靈」,構建機器人的靈魂,在 Personal AI 和 Ambient AI 結合的領域,通過軟件定義硬件,探索 AI 產品的發展潛力。關係算法和空間交互,也是我認爲通往 Persona AI 必經的路徑。

要實現這一點,核心問題就是數據集的構建。通過垂直人羣收集空間交互的數據,就像特斯拉通過大量司機真實駕駛數據構建 FSD(完全自動駕駛)系統一樣。特斯拉的優勢在於不依賴高精度地圖,而我們靈宇宙則試圖通過相似的路徑,爲 Personal AI 構建閉環數據集,尤其針對那些最原生的 AI 交互智能終端使用者。

從策略上來說,如果我還在大廠裡,可能會選擇眼鏡或耳機這樣的超級品類較量,但作爲創業者,我的選擇會更加謹慎,一些看似邊緣甚至雞肋的領域,恰恰有足夠的市場空間,能夠保障初創公司真正做到位。越細分的市場,越能解決明確的特定價值,越容易取得成功。

現在市面上大多數通用人形機器人公司還在努力掙扎於 TPF 階段,都沒有真正迎來的 PMF 時刻,但創業那麼多年的經驗告訴我,一旦跨越 PMF 只要是生意必然會面臨複雜競爭格局中如何定位找到自己的 7 Powers 實現可持續發展。

我之前一直在做連接內容和交互的產品,創業選擇做內容型產品的好處其實是,不太會像那些純工具類的產品大多會被巨頭清出局。像監控攝像頭、智能音箱這類產品,就容易在大公司的平臺生態中被卷得無路可走。但如果產品有足夠深的內容厚度,它就能在一定程度上界定它的受衆範圍,創造出屬於自己的生存空間。所以對於創業公司來說,選擇這些賽道反而更有優勢,因爲它不會被輕易取代。

在大模型出現之前,我們談交互和內容的關係時,總覺得交互是輔助的,想靠它來提升內容的體驗,真的挺難的。雖然我們有技術優勢,能創造更好的交互方式,但因爲內容生產投入佔的比重大,交互撬動的效果並不好。

不過,現在情況不一樣了。大語言模型及相關技術帶來的 AIGC 技術進步其實在悄悄改變着交互和內容的平衡,讓我們這些深耕交互技術的公司看到了新的機會。

我們堅持「先數據後 AI」的原則,結合我們 Luka 盧卡品牌過往近千萬臺產品在市場上已經收集了百億參數用戶交互行爲數據,爲後續的模型優化打下了堅實的基礎。

張鵬:今天AI硬件要去往前走,即使只是在一個相對邊緣的場景中,但如果真的交付了足夠的價值,即使不是行業的「白馬騎士」,至少是爲用戶解決問題的存在,而且解決的問題比過去的方式更好了,只要能夠在這些細微的場景中創造價值,創業團隊就可以沿着這條路徑往前走。

那未來在像耳機、眼鏡這種顯然可能會成爲某種交互入口的領域,會不會有新的補貼大戰?

顧嘉唯:除非未來出現像當年智能音箱那樣的激烈競爭,並且所有大廠都把它視爲「明牌」,否則很難看到再次出現大規模的補貼大戰。

當時智能音箱至少被認爲是明顯的「明牌」。但如今硬件產品並沒有出現同樣的「明牌」路徑,市場更多樣化了。

另外,補貼的本質是互聯網流量變現的方式。現在的大型模型則採用不同的商業模式,更加註重成本控制。在這種情況下,單純依靠補貼很難產生根基效應的複利。

回頭來看,怎麼定義創業公司創造出獨有的稀缺性能力?我認爲關鍵在於找到一個有效的數據積累方式,這些數據源其實就是我們靈宇宙今天在覈心投入的地方,希望能夠通過空間交互來完成更多樣的交互視角的數據閉環,然後來構建一條類似於通往 Robotaxi 路徑過程早期特斯拉 FSD 的「南坡」路徑。同時明確所擅長的、能夠深入理解並持續鑽研的垂直人羣的需求,才能來構建一款以人爲核心 AI 產品的核心軸線。

今天空間交互的數據閉環建設,尤其是高速建設是競爭的關鍵。只有行業競爭到了這一層面的階段,纔有可能還會出現補貼大戰。

*頭圖來源:Ola Friend

本文爲極客公園原創文章,轉載請聯繫極客君微信 geekparkGO

極客一問

你希望 AI 耳機有哪些功能?

出小米明晚7點發佈會,su7 Ultra量產版上線。

點贊關注極客公園視頻號,