直播預告 | 開源Talk:大語言模型與視覺語言模型越獄行爲及防禦機制的回顧與展望

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區將打造成huggingface之外最活躍的中立開放的AI開源社區。歡迎《》以及《》。wisemodel社區上升級了,兩步完成模型部署和,並。

AI安全說 第1期

嘉賓在線解讀✔️

在線實時Q&A✔️

直播主題

大語言模型與視覺語言模型

越獄行爲及防禦機制的回顧與展望

直播嘉賓

張沛炎

香港科技大學在讀博士生

金海波

伊利諾伊大學厄巴納-香檳分校在讀博士生

2024年08月31日(週六)

10:00-11:00

觀看方式

始智AI-wisemodel社區 視頻號

wisemodel社區 B站直播間

報告介紹

人工智能通過大語言模型(LLM)和視覺語言模型(VLM)的發展迅速進步,在多個技術領域帶來了顯著的提升。雖然這些模型增強了自然語言處理和視覺交互任務的能力,但它們的廣泛應用也引發了關於安全性和倫理對齊的重要問題。

本次 talk 將廣泛回顧這一新興領域,重點探討繞過 LLM 和 VLM 倫理和操作邊界的刻意行爲,即所謂的“越獄”行爲,以及由此引發的防禦機制的發展。我們將越獄行爲分爲七種不同類型,並詳細闡述應對這些漏洞的防禦策略。

通過這一全面的分析,我們識別了當前的研究空白,並提出了未來研究的方向,以加強 LLM 和 VLM 的安全框架。我們的研究結果強調了從越獄策略和防禦解決方案兩方面進行整合的必要性,以促進下一代語言模型的穩健、安全和可靠的發展環境。

嘉賓介紹

張沛炎

香港科技大學博士生

張沛炎是香港科技大學在讀博士生。自2022年8月起,他作爲訪問學者在伊利諾伊大學香檳分校(UIUC)Haohan Wang教授的研究團隊工作。在此期間,他的研究重點是爲智能信息系統開發值得信賴的機器學習方法,譬如隱私保護的推薦系統以及機器學習模型的安全性研究,並在ICLR, KDD, WWW, SIGIR, WSDM 等頂級國際會議上發表了多篇高水平論文。目前,他致力於大語言模型越獄行爲的研究,探索自然且可信的解決方案,以保障大語言模型的安全性和可靠性。

金海波

伊利諾伊大學厄巴納-香檳分校博士生

金海波,伊利諾伊大學厄巴納-香檳分校(UIUC)在讀博士生,其導師是Haohan Wang教授。他的研究主要聚焦於深度學習與網絡安全、圖像與模式識別以及大模型漏洞挖掘等交叉學科領域,特別是針對以深度學習模型爲核心的人工智能技術安全問題展開了深入研究。他專注於對抗攻防和可信人工智能的理論與技術研究,並在包括IEEE TDSC、ECCV、ICSE等頂級國際會議和期刊上發表了多篇高水平論文。目前,他致力於大語言模型(LLM)“越獄”行爲的挖掘與防禦技術的研究,力圖爲人工智能技術的安全應用提供更加可靠的保障。

歡迎持續關注wisemodel開源社區,如果你也願意到wisemodel平臺來分享,歡迎聯繫wisemodel運營助手(文末可掃碼添加)

----- END -----

wisemodel相關

系統升級

系列模型:

關於wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志願者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發佈到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社羣,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成爲影響力日益擴大的中立開放的AI開源社區,爲了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、後端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關於AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關於wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看