智見丨對話浙江大學AI研究所所長吳飛:AI不是惡魔
出品|本站科技《智見訪談》
訪談|楊霞清
撰文|趙芙瑤
編輯|丁廣勝
繼工業革命後,GPT及其GPT所引發的AIGC能否成爲下一個人類社會變革的新奇點?
一批又一批的AIGC工具正在不斷迸發出超乎尋常的能力,GPT-4可以聯網並安裝插件後可以一站式成爲人們的私人助理;谷歌Bard幫程序員寫完代碼後同時能助力其與國外同事無語言障礙共同進行代碼調試;微軟New Bing讓搜索引擎變身無所不知的“哆啦A夢”;Midjourney和Stable Diffusion的作圖能力令人歎爲觀止...AI正在以幾何式的速度塔上了特快列車。
如何看AIGC發展的趨勢,AI安全問題該如何規避,中國的大模型在國外的差距在哪方面?日前,本站科技《智見》欄目訪談了浙江大學上海高等研究院常務副院長、浙江大學人工智能研究所所長吳飛。吳飛認爲,這波以生成式人工智能模型爲基礎的AIGC之所以取得了突破在於將“數據是燃料、模型是引擎和算力是加速器”進行了完美結合,產生了令人驚歎概率式內容合成能力。但是這一技術創新被稱爲現象級人工智能產品,即大衆可以看到其成果,但解釋其背後的機理仍然困難。所謂“我見、我相信,但我不理解”。
目前,對於AI的發展大多存在兩種較爲對立觀點:第一種是機器作爲人類的助手與人類共生共進化,另一種是機器逐漸取代人類,使人類成爲機器的奴役對象。吳飛認同第一種觀點,他認爲第二種擔憂在科幻電影中就曾展現過。但總體而言,機器產生意識和涌現情感在技術手段上而言,這一目標實現相距甚遠。
談及人工智能的監管,吳飛認爲,2016年制定的《新一代人工智能發展規劃》中就提及到了人工智能的監管,特別是數據隱私保護和大數據濫用等方面。
以下是本站科技訪談吳飛教授訪談實錄:
談AI演進:ChatGPT具有現象級“涌現”能力
本站科技:您如何看待今年以來AIGC和ChatGPT的爆火?
吳飛:人工智能的發展歷程可以追溯到1955年,彼時,它的目標是通過戰勝各領域頂尖專家來展示其能力。人工智能當時在圍棋、國際象棋等方面表現出色。過去,只有像IBM、微軟、本站、騰訊等大型科技公司才能接觸人工智能,普通民衆對其瞭解有限。
然而,如今ChatGPT的爆火,讓普通民衆也可以使用人工智能,無需掌握複雜的計算機系統編程,只需通過自然語言交互就能完成諸如寫代碼、寫文章或旅行規劃等任務。ChatGPT讓人們感到離人工智能的距離越來越近。
ChatGPT之所以能生成完整的句子,是因爲模型中引入注意力機制,從海量語料中學習單詞和單詞之間的共現關聯概率,形成單詞概率相聯圖譜,於是在這個單詞圖譜上就可以實現內容合成。例如,合成"浙江大學的校訓是求是創新"這一句子時,模型通過概率判斷句子中前一個單詞與後一個單詞概率最大,於是在得到前一個單詞時,接着生成後一個單詞,這個句子中的單詞就通過概率遊走方式被產生,實現了連詞成句和連詞成篇的效果。這樣生成的內容通常具有合情合理性,因爲“存在即合理”,其合成的結果來源於對現實世界數據的信息壓縮和信息解壓。
本站科技:人工智能有60多年曆史了,今年的AIGC浪潮和之前的人工智能浪潮有什麼不同?有哪些突破和創新?
吳飛:這波人工智能的進步主要是工程層面上的持續艱苦創新,通過將海量的數據、龐大的模型和計算系統整合在一起。這種工程創新在以往是沒有人能夠實現的,例如如何對上萬張GPU/CPU之間的數據和指令通信進行同步和異步的協同。這種工程性的創新使得人工智能可以展現出現象級的能力,即大衆可以看到其成果,但解釋其背後的機理仍然困難。
而人工智能的突破則在於將數據、模型和算力相結合,產生了令人驚歎的能力。然而,我們對於其爲何具備如此強大的能力仍然知之甚少,這反映了我們知識體系的侷限性。正如普朗克所說, “科學是內在的整體,被分解爲單獨的部門不是取決於事物的本質,而是取決於人類認識能力的侷限性。實際上存在着由物理學到化學、通過生物學和人類學到社會科學的鏈條,這是一個任何一處都不能被打斷的鏈條。”對大模型涌現能力的不瞭解,恰恰說明了我們對複雜科學所構成的科學宏偉藍圖的不瞭解。
目前,我們對於人工智能的強大能力仍然沒有完全的認識,無法從科學研究的模型和方法論上進行充分解釋。雖然我們可以將其視爲一個概率網絡,通過單詞之間的概率流程實現連貫性,但我們仍無法解釋爲何ChatGPT在參數規模達到千億級時,它具備涌現能力,而在百億級時卻沒有。類似地,人類大腦擁有數百億個神經元,但我們對於意識、情感和疼痛等產生的機理仍然不清楚。
ChatGPT的快速進展使得我們難以跟上其變化的步伐。它通過不斷學習大規模的數據實現了日新月異的發展速度,與人類相比,它不斷進化而不受限制。此外,它同步利用用戶的反饋和日活躍用戶(約10億人)的互動來改進自身算法。
儘管我們尚未能夠對AI產生的能力進行準確的數學模型解讀,但這並不意味着AI是可怕的惡魔,我們對於人工智能產生的能力仍需深入研究和理解。
談AI安全和合規:機器尚未產生意識與情感
本站科技:AI安全性目前已經是最熱門的話題之一。馬斯克以及千名科學家共同簽署了叫停更高級別AI訓練的文件,您認爲AI的進化未來是否會超出了人的控制?
吳飛:人們對GPT的發展表示擔憂,主要是因爲它具備了多模態的能力。包括馬斯克在內的一些科學家,要求對其進行安全限制,甚至暫停進一步研發更高級別的AI。是因爲他們擔心,隨着GPT-4具備自我意識和更快速的發展,它可能會超出人類的控制範圍。
相較於我認同AI應該作爲人類的助手並與我們共存共進化的觀點。《人類簡史》作者尤瓦爾·赫拉利等科學家則認爲機器文明會取代人類文明。他們擔心GPT-4目前輸出的內容完全是基於現有信息重新生成的,它可能會摧毀人類長期積累的文明,使下一代或下下一代接受的文化主要由機器創作。
馬斯克提出了四個暫停GPT訓練的理由,一是機器錯誤信息的擴散:擔心機器生成的錯誤信息在互聯網上不斷擴散,並且可能僞裝成真實信息;二是自動化取代人類工作:擔心機器會完全自動化人類的所有工作,對就業帶來威脅;三是產生非人類思維:擔心機器可能產生超越人類的思維方式,引發不可預測的結果;四是威脅人類文明存在:擔心機器發展到一定程度會代替人類文明,摧毀人類的文化積累。
對於這四點,我認爲馬斯克的觀點更像是一種長遠的預警和未雨綢繆的思考,而非具體的行動建議。其中後三點可能在未來幾十年內並不會成爲現實,因爲機器出現意識是非常困難的。
因此,對於AI的發展存在兩種觀點:一種是機器作爲人類的助手與我們共生共進化,另一種是機器逐漸取代人類,使人類成爲機器的奴役對象。這種擔憂在科幻電影中就曾展現過。總體而言,機器產生意識和情感與人類的幻想相距甚遠。
本站科技:您認爲人工智能是否需要嚴格的監管與控制?具體應從哪方面入手?
吳飛:2016年,在制定《新一代人工智能發展規劃》時,大家就一致認爲要解決社會對人工智能的關切和憂慮,特別是涉及到數據隱私保護和大數據濫用等問題。
比如規劃強調要解決大數據殺熟等問題,保護個人數據隱私,並制定相應的政策和措施;要建立高效治理體系,確保人工智能的發展在法律、倫理和社會責任的框架下進行;要提供一種有效的方式來管理人工智能的發展和應用,確保其符合國家利益、社會穩定和公衆利益。
要提倡制定相關政策和法規,以規範人工智能技術的研發、應用和運營,同時加強監管和監督機制;要鼓勵國際合作和跨部門協調,共同應對人工智能的挑戰和問題,推動全球人工智能領域的發展和合作。
我認爲這個思路是正確的,人工智能的監管可以從以上幾個方面入手。
談AI行業應用:傳統應試教育受到衝擊
本站科技:您認爲AIGC首先會衝擊哪些行業?如何看待AIGC對於教育行業的賦能?教師與學生的角色有了哪些轉變?
吳飛:不可否認,人工智能對教育領域產生了衝擊,例如使用GPT來完成作業、論文等任務,這對傳統的應試教育方式構成了挑戰。
我認爲在教育行業,培養創造能力和創新能力比獲取特定知識更爲重要。我很認同教育家培根關於教育的觀點:將學校學習和閱讀視爲兩種教育手段。教師角色在變化,他們應該不僅僅傳授知識,還需教導學生如何獲取知識、要結合理論分析和哲學思辨的教育方式,讓學生利用已有的知識解決問題,並對學生進行批判性思維和分析能力的培養。
此外,學生同樣應該具備提問的能力,要能夠進行問題驅動的學習和思考。比如學生在學習中應該追溯知識的原點和歷史發展,瞭解知識體系的形成過程,同時在不同知識領域的邊界交叉處尋找聯繫和啓發。
近期有大學生使用ChatGPT生成本科畢業論文,其語言內容雖然表面上滴水不漏,但觀點空洞;有大學生將搜索引擎搜到的例子發給GPT,GPT生成的語言將不同地點和概念進行了關聯,但缺乏與實體世界的具體連接。
由此可見,ChatGPT在教育中的應用需要考慮到其產生的內容是否正確、錯誤以及有不完善之處。若想讓人工智能生成更好的內容,需要提高問問題的能力,就像是讓GPT具備更好的知識圖譜和單詞之間的關聯,以形成連貫的篇章。
本站科技:您認爲AIGC將會先取代哪些職業?
吳飛:人工智能(如ChatGPT)可以在法律案件中提供相關的法律法條和案例信息,因爲法律法條和案例都是公開的。這種能力可以幫助律師進行案件研究和輔助決策。但是,我一直認爲這不是取代人類,而是成爲人類的幫手,提高工作效率。
在教育領域,教師的作用不僅僅是傳授知識,而是多維度的培養學生。教育需要互動和身體力行,而不僅僅是依賴人工智能生成的合成內容。優秀的教師能夠更緊密地連接單詞和知識,培養學生的綜合能力。
人工智能對新聞業的影響是幫助記者節省精力,AI可以去撰寫簡單的快訊,讓記者有更多的精力去專注於更深度和高質量的報道。AI的發展使得我們能夠更好地釋放創造力。AI暫時不會取代記者,但會讓他們進化,提高深度報道的能力。
人工智能可以提供大量的數據支持,但真正理解和應用這些數據需要長期的行業積累和思考。
談AI大模型與國外差距:自研AI芯片可彌補算力短板
本站科技:在ChatGPT的技術路線中,數據、算法、算力等方面存在哪些技術壁壘?中國科技企業的AI大模型何時能達到GPT 3.5的水平?
吳飛:在AI大模型領域,許多國內公司和創業者都在努力,希望迎頭趕上GPT 3.5或者GPT4的水平。衡量與這些模型的差距是一個悖論,因爲缺乏明確的標準來評判。
數據、算法和算力是影響差距的因素。同時,用戶反饋會對模型的進化起着重要作用。開放和積累越早,獲取的用戶反饋越多,模型的能力就會隨之增強。畢竟在機器學習中,人類的反饋被認爲是至關重要的,它可以幫助模型進行學習和改進。
首先,對於算力方面,美國的GPU芯片如英偉達的A100或H100,以及谷歌的TPU(Tensor Processing Unit),具備較高的算力,但目前無法供應給中國市場。這導致中國在算力方面存在短板。
其次,大型模型的訓練需要大量的數據支持,例如像GPT-3和GPT-3.5這樣的模型,英文數據通常是全球範圍內可獲得的,但中文數據可能更多地偏向在中國市場收集。同時可以利用互聯網上的開源數據,如維基百科等,中國在中文數據方面可能具有優勢,因爲中國的科學家和工程師對中文更瞭解,並且中文的語義和隱喻更深入。
本站科技:面對巨大的差距,中國應該如何奮起直追,補足短板?
吳飛:由於大家衆所周知的原因,一些先進的GPU芯片如A100和TPU無法在中國市場銷售,這進一步加劇了中國的算力短缺。
針對這個問題,中國一些互聯網企業或專業芯片公司正在研製GPU芯片。
大模型不僅爲類ChatGPT產品提供機會,而且可以爲各種應用提供增值。例如,大模型的能力可以與應用的數據和功能結合,使得每個應用都能受益於人工智能算法和模型的力量。這可能帶來許多機會,如GPT時代的美團,就可以利用人工智能算法來優化數據和服務,讓外賣送得更快,讓配送時間更合理。
總結來說,我們在GPU算力芯片方面存在差距,數據的可用性對算力有重要影響。中國正努力彌補算力短板,包括自主研發人工智能芯片,大型模型的發展同時爲各種應用提供了機會。
本站科技:目前許多高校開設了人工智能與數據分析等AI相關專業,在AI人才培養方面,浙江大學有哪些嘗試和實踐?
吳飛:浙江大學於2018年開始批准人工智能本科專業,並於2019年自設人工智能交叉學科。
浙江大學擁有三位一體的人才培養思路:採取教材、課程和平臺相結合的方式進行人才培養。浙江大學編寫了新的人工智能教材,包括《人工智能導論:模型與算法》、《可視化導論》和《智能產品設計》等,並且在愛課程(中國大學MOOC)建成慕課。
此外,浙江大學建立了“智海”人工智能科教平臺,與企業合作,該平臺會爲新一代人工智能教材提供算法實訓,讓學習者體會人工智能具能、使能和賦能,從算法層面對人工智能技術“知其意,悟其理,守其則,踐其行”。通過實訓平臺搭建,將理論知識轉化成賦能應用,促進人工智能人才培養與國家、行業和企業需求結合更加緊密結合。
浙江大學同時與企業如百度、華爲、阿里巴巴和商湯等合作,在平臺中培養學生,使用國產的人工智能編程框架和芯片,鼓勵學生掌握國產技術。在浙江大學與阿里的合作中,通過合作項目將大模型壓縮爲輕量級模型,以適應移動端應用。
我們同樣鼓勵非人工智能專業學生的參與,浙江大學設立了針對非計算機專業學生的輔修專業,以培養非人工智能專業學生對人工智能的應用能力,推動人工智能在各行業的發展。