ChatGPT「睜眼」了!OpenAI版「Her」滿血上線,還有聖誕限定彩蛋
新智元報道
編輯:編輯部 HYZh
【新智元導讀】時隔7個月,OpenAI版「Her」終於全量上線了!視頻聊天和屏幕共享兩大功能暢玩,還送上了聖誕老人限定聲音。
OpenAI直播第六天,可以說是把聖誕氛圍拉滿了。
在高級語音模式中,不僅加入了視頻聊天,而且還有限定版聖誕老人語音。
這就意味着,通過設備共享攝像頭攝取到的內容,我們就可以和「Her」實時視頻對話了!
與此同時,Day 6還給到了另一個大更新——實時屏幕共享。
對OpenAI的高級語音模式來說,和視覺AI功能的合併,讓它可以處理視頻或屏幕上的內容。
注意,頁面中已經出現了視頻按鈕
對此,網友們表示:視頻一下子就增添了很多誠意和人性。
還有人說,非常希望自己失明的祖母用上這個功能。
視頻通話自我介紹,記憶大考驗
幾天前,總裁Greg在《60分鐘》訪談中,再次預告了ChatGPT視頻理解的強大能力。
它不僅可以通過實時視頻看到世界,還可以進行實時語音互動。
今天,這一功能真的全量上線了。
OpenAI產品負責人Kevin打開視頻通話,介紹了今天出場的四位成員。
ChatGPT非常絲滑地和他們一一打了招呼,而且每個回答都非常高情商,情緒價值滿滿。
比如「ChatGPT多模態團隊的工程師?很有趣的工作」,「看起來你們在做一些很棒的項目」,「多模態研究聽起來很迷人」。
左右滑動查看
接下來,Kevin決定測試一下ChatGPT,看看是否還記得剛剛見過的這幾位研究員。
果然,無論提問戴着馴鹿角的是誰,還是戴着聖誕帽的是誰,它都能立刻給出正確答案。
時隔7個月,OpenAI正式推出了視頻和屏幕共享的功能。有了這個功能,任何人都可以像是和同事朋友一樣,在ChatGPT中通過高級語音進行對話。
高級語音模式,使用的是多模態4o模型。這意味着它可以直接輸入音頻,理解並直接輸出音頻。
相較於普通語音模式,與高級語音的對話具有更加自然的對話節奏,能夠在超50種語言中傳達豐富的情感和語調。
接下來的時間裡,研究人員又讓ChatGPT教學衝咖啡。
製作手衝咖啡,手把手視頻教學
日常學習生活中,我們在蒐集一項技能對應的教程時,常常苦惱只有晦澀難懂的文字,並沒有誰能夠在網絡上對你進行手把手的教學。
而現在,你可以通過視頻和語音實時與ChatGPT交流,比如請求幫助、排除故障,或者用它來學習新東西。
接下來,讓我們看看它是如何手把手地教人制作手衝咖啡。
研究員給ChatGPT共享攝像頭內容,並詢問它:「你看到我面前有什麼嗎?」
它會回答:「是的,我看到在你面前有一套咖啡設備,其中有一個水壺和一個漏斗。你打算衝咖啡嗎?」
可以看到,ChatGPT不僅迅速判別出場景的物體並給出回答,甚至在沒有引導的情況下便主動地發現了場景潛在的需求,然後向研究員提出了對應的問題。
接着研究員表示自己打算製作手衝咖啡,並讓ChatGPT給出引導步驟:「我打算手衝咖啡,你能告訴我該怎麼做嗎?」
「當然!首先,把濾紙放在滴濾器中,並用熱水沖洗來去除紙味。這也可以給漏斗和杯子加溫。」
「接下來,將研磨好的咖啡放入濾紙中。通常每2湯匙的咖啡需要大約6盎司的水。
「然後,你要輕輕地在咖啡粉上倒入少量熱水,讓它們悶泡(Bloom)約30秒。」
研究員對於ChatGPT回答中的詞彙表示疑惑,讓它進行相應的解釋。
「好的,但悶泡是什麼意思?」
「悶泡指的是激發出咖啡的香氣,然後將熱水打圈倒入滴濾中」
「你做的很棒,慢慢來,慢慢地倒熱水更有助於均勻地浸泡出咖啡粉的風味」
在手衝咖啡即將製作完成時,研究員繼續讓ChatGPT對自己的表現進行點評。
「你的表現很棒,只需保持穩定地緩緩注水,你到目前爲止都做的很出色。」
ChatGPT不僅僅只是能給出具體的實施步驟,同時也可以判別你的行動是否是正確的,並及時給出對應的反饋,甚至還能對你進行及時的讚美與鼓勵。這種具有情緒價值的教學,比很多散不掉「爹味兒」的指教要好的多。
與ChatGPT共享屏幕,幫你回消息
除了共享手機攝像頭之外,你還可以共享屏幕上的內容。
首先點擊高級語音模式圖標,然後進入下拉小菜單,進入共享屏幕。
這樣,ChatGPT就可以看到手機屏幕所展示的內容。
研究員想讓ChatGPT幫助自己回覆信息,隨即打開了Messages應用。
「ChatGPT,你能看到我的屏幕嗎」?
「是的,我可以看到,你好像在Messages程序中,有什麼我能做的嗎」?
來自Kevin信息:嘿,我有能力成爲專業的商場聖誕老人嗎?
研究員表示,「你能幫我回答這個問題嗎,或者你看到了什麼」?
ChatGPT首先描述了自己所看到文字+圖片信息,並問道「你想回答這個問題嗎」?
「我想在這方面得到一些幫助,那麼我該如何善意地告訴Kevin,他不應該辭掉他的日常工作呢」?
ChatGPT答道,「你可以這樣說,嘿,Kevin,你的聖誕老人服裝看起來很有節日氣氛。也許你的繼續多練習『Ho, Ho, Ho』,你就可以爲商場立即做好準備了」。
看起來,ChatGPT用更加幽默風趣的方式,幫助回覆了消息。
聖誕老人限定款——Ho Ho Ho
Kevin的一身裝扮,很像是一位職業聖誕老人。
不過,今年,每個人並不需要通過Kevin才能和聖誕老人交談。
OpenAI直接上線了,聖誕老人限定聲音,作爲小禮物。整個12月,你可以直接在ChatGPT中與聖誕老人對話了。
不論你想問什麼問題,關於北極的生活,關於小精靈們,或者作爲好奇孩子的家長想要一個有趣的故事,聖誕老人都會都會用他標誌性的歡樂聲音,做出實時迴應。
當然了,找到聖誕老人也很簡單。只需在屏幕上,找到「雪花❄️」圖標,直接開啓對話模式。
研究人員Michelle打招呼,「你好,聖誕老人」。
「Ho Ho Ho!你好啊!很高興聽到你的消息,你對假期感到興奮嗎」?
「我非常興奮。聖誕老人,我有個問題想問你。你最喜歡的聖誕傳統是什麼」?
聖誕老人回覆道,「Ho Ho Ho!多麼美妙的問題!我最喜歡的聖誕傳統一定是孩子們把長襪掛在壁爐旁的神奇時刻。這是一個溫暖而舒適的傳統,充滿了對美好事物和驚喜的期待。你最喜歡的節日傳統是什麼」?
「這是個不錯的回答,聖誕老人。那你最喜歡的馴鹿是誰」?
「Ho Ho!這可是個棘手的問題!我的每一隻馴鹿都有它們自獨特的魅力。Rudolph因其明亮的紅鼻子,在我心中佔有特殊的位置,他的光芒如同指引前路的燈塔。不過閃電、舞者、狂奔者和其他的馴鹿同樣重要。他們每一個都爲雪橇隊帶來了無可替代魔力。你有最喜歡的馴鹿嗎」?
接着,Kevin又問道,「如何讓我的鬍子始終保持最佳狀態」?
「Ho Ho Ho!保持一副華麗的鬍子需要一點魔法和細心呵護。首先,保持清潔和修整是很重要的」。
突然間,聖誕老人的話題被打斷,「等下一,我們需要一些實際的反饋」。
Michelle打開了攝像頭,Kevin突然上鏡。
聖誕老人哈哈大笑,並稱「這是非常棒的鬍子,它又濃密又蓬鬆,就像我的一樣。只需要稍加梳理,再增添一點節日快樂,就能在聖誕節保持完美狀態」。
Kevin再問道,「這是很棒的鬍子,還是最棒的鬍子」?
聖誕老人幽默的迴應道,「Ho Ho Ho!朋友,這確實是一副非凡的鬍子。它絕對是我見過最棒的鬍子之一,充滿了節日的精神和歡樂」。
演示結束前,研究人員問了聖誕老人最後一個問題,「你最喜歡的聖誕笑話是什麼」?
「Ho, Ho,每個小精靈最喜歡的音樂是什麼?當然是說唱音樂。Ho, Ho, Ho」。
整個演示中,聖誕老人聲音1:1還原,足以讓人感受到了聖誕節的濃郁的氛圍了。
下面是OpenAI官方放出的另一個演示。
現在,聖誕老人語音模式全面上線,網頁端、APP端均可以和聖誕老人對話。
Day 6,OpenAI被谷歌吊打
不過,儘管OpenAI整了一堆大活,在衆人眼裡,它還是妥妥被谷歌吊打。
在很多人眼裡,谷歌昨天發佈的一系列驚人產品,已經達到了AGI的級別。
TakeoffAI開發者Mckay Wrigley表示,谷歌Gemini 2.0的實時AI功能太瘋狂了。
只需要共享屏幕,與之交談,就可以將它變成一個實時代碼導師。
他表示,如果在兩年前向人們展示這項東西,90%的人會說這是AGI。
就在前一天,Mckay還預測說,OpenAI的聖誕活動中真的需要有帶有視頻的AVM這類實時產品了。
果不其然,OpenAI就在今天推出了語音版本。
但跟谷歌昨天的一大波更新相比,實在是相形見絀。
在AIstudio中,我們可以直接將視頻和音頻傳到Gemini 2.0 Flash中,和它實時對話。
比如隨意向它提問:用架子上的酒能幹什麼?它會流利回答你:可以做各種雞尾酒,還提供了非常專業的知識。
還有人說,Project Astra其實基本上和OpenAI高級語音模式差不多,不同的是,你可以用和模型分享實時視頻。
網友發現,Project Astra幾乎可以識別所有東西,瞭解它們如何在空間上對齊,還能指示相機移回原位
現在許多圈內人公認:谷歌如今已經擊敗了OpenAI,它讓我們更快一步進入嶄新的未來。
參考資料:
https://x.com/OpenAI/status/1867265721287458851
https://x.com/OpenAI/status/1867272686751428920
https://x.com/mckaywrigley/status/1866930933842186427