讓ChatGPT脫穎而出的秘密武器
OpenAI的GPT系列模型在數據集、模型構建、用戶互動以及其他關鍵優勢方面均表現出色,超越了Google、Meta等公司的大型模型。(圖/路透社)
在開發人工智慧的領域裡,使用深度學習的公司很多;而使用大型語言模型(LLM)來開發AI的公司也不只OpenAI一家。ChatGPT的脫穎而出,還因爲運用了另外兩種特別的學習機制和架構,而得以實現更高效的平行訓練:一個是基於自注意力的Transformer架構;另一個則是被稱爲MaskedSelf-Attention
的技術。
自注意力機制的一個重要特性,是它允許模型在一次操作中處理所有的輸入元素,這與前面提到的循環神經網絡(RNN)和長短期記憶(LSTM)的序列化處理方式形成對比。在RNN或LSTM中,模型必須逐步處理序列中的每個元素,並依賴於前步的狀態生成下一步的狀態。這使得RNN和LSTM難以有效地利用現代GPU(圖形處理器)的平行處理能力,並且在處理長序列時,會出現梯度消失-也就是導致遠距離的資訊在傳遞過程中權重被稀釋或被遺忘-的問題。
相反,Transformer架構下的GPT,可以同時處理所有的輸入元素,不需要依賴前一步的狀態來生成下一步的狀態,而得以充分利用現代GPU的計算能力,從而大幅度提升訓練速度和運算效率。而MaskedSelf-Attention機制則確保了模型在生成每個新元素時,只能使用到該元素之前的信息,這符合真實世界中的生成序列的情況,同時也保證了模型在訓練過程中的正確性。
除此之外,GPT的優勢有:
●數據集規模:GPT模型的運作,依賴於龐大且多元化的數據集,這是它超越其他模型的關鍵要素之一。GPT系列模型所取得的訓練數據,源於各式網路來源,如維基百科、各類書籍、網路頁面等,包含了各領域的豐富知識。同時,OpenAI對於資料進行嚴謹的清理與篩選,確保模型在訓練過程中能夠吸收高品質的知識,所以可以提升生成內容的精確度與信賴度。
●跨語言能力:GPT模型在多語言處理方面具有很強的能力,能夠理解和生成不同語言的文本,滿足全球範圍用戶的需求。相比其他模型,GPT在跨語言任務上表現更爲出色,如翻譯、跨語言摘要等。
●靈活的微調:GPT於微調策略上的卓越表現,正是超越其他語言模型的核心因素。在預訓練的基礎上,進行具有針對性的精細校準,讓GPT能迅速適應各式NLP任務,例如文本分類、情感分析等。
●知名投資者的支持:OpenAI得到衆多知名投資者的支持,如前期的ElonMusk及後期大舉投注的BillGates,這些投資者的背景和聲譽,爲GPT帶來背書與額外的品牌價值。此外,這些投資者的資源和網絡,也爲GPT的市場行銷與形象推廣提供有力的支持。
●迅速聚集大量用戶:GPT模型在短時間內吸引大量用戶,迅速擴大了市場規模。這得益於其出色的自然語言生成能力,使得GPT在各種場景下的應用更爲廣泛,在極短時間內達到一億用戶的門檻。
綜上所述,OpenAI的GPT系列模型在數據集、模型構建、用戶互動以及其他關鍵優勢方面均表現出色,超越了Google、Meta等公司的大型模型。這些優勢,使GPT其他的生成式人工智慧模型,同時包含文字、圖像、音樂、影像的處理,在許多應
用場景中展現出驚人的性能。不過,這場新AI戰爭纔剛剛開始,勝負仍然在未定之天。
(本文摘自《新AI與新人類》/大塊文化)
【作者簡介】
蘇經天
聯譜顧問股份有限公司創辦人、國鼎生物科技總經理、國光生物科技策略長、和鑫生技開發總經理、聯亞生技開發商務發展副總經理。
臺灣大學EMBA高階公共管理組企管碩士,霍華休斯醫學研究院、約翰霍普金斯醫學院神經科學研究所博士後研究,紐約州立大學石溪分校博士,康乃爾大學醫學院生物化學研究所博士班,臺灣大學化學系學士。
並曾任科技部審查委員、國家衞生研究院智財、技轉及育成中心評鑑委員、IBM, Research Center for Bioinformatics, Regional顧問、52 Club會長、臺灣生物發展協會秘書長。
畢生致力於系統化地解決複雜系統的問題,例如(與中央研究院資訊所合作)開發生物資訊模組、知識管理系統、科學文獻評估系統。近期試圖將閱讀書籍所萃取出的抽象概念產出AIGC,經由52 Club的平臺,協助忙碌的現代人仍能有效益地學習。
LinkingPros (高階創新醫藥從業人員的交流園地)
臉書 https://www.facebook.com/linkingpros
網頁 linkingpros.com
52 Club (複雜世界閃亮羽毛撿拾者的樂園)
https://www.facebook.com/52Club2022
《新AI與新人類》/大塊文化