超越GPT-4V,蘋果多模態大模型上新!

新智元報道

編輯:flynne

【新智元導讀】蘋果開發的多模態模型Ferret-UI增強了對屏幕的理解和交互,在引用、基礎和推理方面表現出了卓越的性能,這些增強功能的出現預示着巨大的進步。

一句話Siri就能幫忙打開美團外賣下訂單的日子看來不遠啦!

4月8日,蘋果發佈了其最新的多模態大語言模型(MLLM )——Ferret-UI,能夠更有效地理解和與屏幕信息進行交互,在所有基本UI任務上都超過了GPT-4V!

論文地址:https://arxiv.org/pdf/2404.05719.pdf

雖然蘋果前段時間經歷了泰坦項目的沉沒,但看目前的形式,這是又要開卷的節奏呀~

不少人十分期待,這項技術如果在蘋果的Siri上,Siri豈不是要變得聰明絕頂了!

衆所周知,通用域多模態大型語言模型(MLLM )在理解和有效交互的能力方面往往不足。

而Ferret-UI被稱之爲是一種新的MLLM,專爲理解移動UI屏幕而量身定製,具備指向、定位和推理等多種能力。

Ferret-UI能夠通過靈活的輸入格式(點、框、塗鴉)和基礎任務(例如:查找小部件、查找圖標、查找文本、小部件列表)在移動用戶界面屏幕上執行引用任務(例如:小部件分類、圖標識別、OCR) )。

Ferret-UI的一個關鍵特點是「任何分辨率」(anyres),該技術通過放大細節來解決UI屏幕中小型對象的識別問題,從而提高模型對UI元素的理解精度。

這些基本任務爲模型提供了豐富的視覺和空間知識,使其能夠在粗略和精細級別上區分 UI 類型, 例如區分各種圖標或文本元素。

具體來說,Ferret-UI 不僅能夠在詳細描述和感知對話中討論視覺元素, 還能在交互對話中提出目標導向的動作並通過函數推理來推斷屏幕的整體功能。

網友直呼:泰褲辣!

雖然Ferret-UI-base緊密遵循Ferret的架構,但Ferret-UI-anyres融入了額外的細粒度圖像功能。

特別是,預先訓練的圖像編碼器和投影層可以爲整個屏幕生成圖像特徵,對於基於原始圖像長寬比獲得的每個子圖像,生成附加圖像特徵。

爲了增強模型的推理能力, 研究人員編譯了用於高級任務的數據集,包括詳細描述、 感知/交互對話和函數推理。

在基礎任務性能的比較上, Ferret-UI展現出了對UI屏幕的出色理解能力以及執行開放式指令的能力,表現可謂亮眼!

掌握應用程序屏幕並使AI像人類一樣進行交互,蘋果未來或許將改變MLLM的遊戲規則!

論文細節

方法

Ferret-UI建立在Ferret的基礎上。

Ferret是一種MLLM,擅長在形狀和細節各異的自然圖像中進行空間參照和定位。

它可以解釋區域或對象並與之交互,無論這些區域或對象被指定爲任何自由形狀(點、方框等)。

它包含一個預先訓練好的視覺編碼器和一個純解碼器語言模型,並採用一種獨特的混合表示技術,將指定區域轉換爲適合LLM處理的格式。

爲了向Ferret灌輸UI專業知識,他們對Ferret-UI進行了兩個擴展:

與之前需要外部檢測模塊或屏幕視圖文件的MLLM不同, Ferret-UI 是自給自足的。

它將原始屏幕像素作爲模型輸入,這種方法不僅促進了高級單屏交互,還爲新應用程序鋪平道路,例如:提高可訪問性。

數據集

他們對iPhone和安卓設備的屏幕進行了研究。

對於安卓屏幕,研究人員使用RICO數據集的一個子集,具體來說,他們考慮了Spotlight中的任務,其數據是公開的,包括 screen2words、widgetcaptions 和 taperception。

對於iPhone屏幕,研究人員使用AMP數據集,它涵蓋了廣泛的應用程序。

在收集 Android 和 iPhone 屏幕後,他們使用預先訓練好的基於像素的UI檢測模型進一步從屏幕收集細粒度元素注 釋。

對於每個檢測到的用戶界面元素,輸出結果都包括用戶界面類型(按鈕、文本、圖標、圖片等)、相應的邊界框,以及由Apple Vision Framework識別的顯示在其上的文本(如果有的話)。

任務制定

首先從現有的Spotlight任務中獲取screen2words、widgetcaptions和taperception,並將它們格式化爲會話QA 對。

對於每個訓練示例,他們都會對相應任務的提示進行採樣,並將其與原始源圖像和真實答案配對。

基礎任務數據生成

除了Spotlight任務之外,他們將referring任務定義爲輸入中帶有邊界框的任務,而基礎任務則是輸出中帶有邊界框的任務。

對於每個任務,他們還使用GPT-3.5 Turbo來擴展基本提示以引入任務問題的變體。

數據生成的詳細信息如下圖所示。

高級任務數據生成

爲了將推理能力融入到該模型中,他們使用LLaVA方法,並用GPT-4收集另外4種格式的數據。

首先對檢測輸出中的邊界框座標進行標準化,然後將檢測、提示和可選的一次性示例發送到GPT-4。

爲了詳細描述和功能推理,他們將生成的響應與預選的提示配對來訓練Ferret-UI。

下圖說明了高級任務的訓練數據生成過程。

以上數據的生成主要爲4個任務,分別是:詳細描述、對話感知、對話交互和功能推理。

其中,他們擴展了詳細描述和函數推理的基本提示,將它們與GPT-4響應配對,作爲模型訓練中的輸入數據。

對於對話任務,他們爲GPT-4提供了一個上下文示例,以更好地遵循其輸出中的邊界框格式。

實驗結果

初級任務的性能細分如下表所示。

可以看到,與Spotlight相比,Ferret-UI在S2W和 WiC方面表現出了優越的性能,儘管Spotlight使用了80M網頁截圖和269M手機截圖進行預訓練。Ferret-UI性能雖然低於TaP,但仍然具有競爭力。

高級任務性能的結果如下表所示。

儘管Ferret-UI的訓練數據 集中缺少Android特定數據,但它在兩個平臺的高級任務上都表現出了值得稱讚的性能。

這表明用戶界面知識在不同操作系統之間具有顯著的可轉移性。

消融研究

研究發現,當僅使用高級任務數據,兩個平臺的性能均爲64%。添加iPhone或Android基本任務 後,iPhone上高級任務的性能持續提高5%。

同樣,從iPhone添加基本任務可將Android在高級任務上的性能提高約4%,而合併Android基本任務可將這一性能提高9%。

包含iPhone和Android基本任務後,iPhone 和 Android 高級任務的性能分別進一步提高了3%和5%,超出了單組基本任務所帶來的改進。

這些觀察結果支持他們的假設,即:基本任務爲模型提供了增強的視覺和空間理解,從而促進了高級任務。

爲了探索不同數據配置對Spotlight Tasks性能的影響,他們特別研究了添加初級任務數據是否能提高模型性能,因爲這些任務的目的是爲了提高對屏幕的視覺和空間理解能力。

如下表所示,添加基本任務數據(無論是僅來自Android、iPhone還是兩者的組合)都不會顯著改變三個Spotlight任務的性能。

在分析Ferret-UI 的參照功能時,他們特別關注OCR和小部件分類預測,如下圖所示。

OCR分析揭示了三個值得注意的觀察結果:

1. 模型預測相鄰文本而不是目標區域中的文本

2. 該模型表現出預測實際單詞的傾向,而不僅僅是破譯屏幕上顯示的字符。

3. Ferret-UI展示了準確預測部分被截斷的文本的能力,即使在OCR模型返回不正確文本的情況下也是如此。

參考資料:

https://arxiv.org/abs/2404.05719