☰

漫談聯邦學習

本文作者：數秦科技首席科學家&VP 崔偉博士

“聯邦學習” 是什麼？有什麼用？

大家可能知道，我們目前常用的人工智能應用（例如人臉識別、語音識別、圖像識別、智能推薦等）已經相當成熟，它們通常都依賴於大量的訓練樣本。也就是說，已知一個X（“樣本”），要判別它是否具備Y（“特徵”），我們需要大量已知的X、Y來反覆訓練我們的模型（這個過程叫做“學習”）。

很多企業、組織，通過各種方式採集到了這樣的數據樣本，在內部進行訓練，不斷優化自己的模型（常見的如神經網絡）。樣本越多，預測就可能越精確，這是很多互聯網公司都非常熱衷於獲取用戶數據的原因。

但是在很多時候，這些數據樣本是分散在多個地方，由不同機構持有的。

譬如一家銀行，希望分析自己客戶的貸款能力，它希望和保險公司（有客戶的保險數據）、互聯網公司（有客戶的上網行爲數據）等合作，匯聚更多的樣本和特徵信息，這樣自己的模型就會更加精確。但是，因爲法律規定和商業競爭的要求，這些保險公司、互聯網公司顯然不希望把自己的數據交出去（這就叫做“數據孤島”），但是它們可能也都希望通過彙總更多的數據來優化自己的模型。

這時候怎麼辦呢？

“聯邦學習”（Federated Learning, FL）就是爲了解決這個問題，即讓互相不信任的各方，可以把樣本和特徵匯聚到一起，共同獲得更好的預測模型。或者說白了，就是大家聯起手來學習。

“聯邦學習” 是怎麼實現的？

“聯邦學習”主要分爲三種，下面概要講講它們的實現方法。

1、橫向聯邦學習

如果是幾家業務類似的機構進行合作，也就是它們需要學習、預測的特徵是類似的，但是用戶、樣本是不同的，例如一個地區的不同銀行之間，他們各有各的客戶，但是需要分析的數據特徵都是存款額度、貸款額度等，那麼它們之間的合作，就叫做“橫向聯邦學習”（HFL）。

它的實現方法如下圖所示，簡單來說就是五個步驟：1)每個參與方從中央聚合器下載最新模型，然後在本地計算模型參數（又稱“梯度”）；2)每個參與方將經過加密的梯度信息發送到位於聚合器；3)聚合器進行聚合操作（“安全聚合”，常見算法爲FedAvg），更新模型；4)聚合器把綜合更新後的模型分發到各個參與方；5)參與方更新自己的模型。6)經過若干次迭代，直到模型精確度（“損失函數”）達到設定值，模型就大功告成。

你看，就是這麼簡單。通過這種方式，實現了幾個目的：1）雖然每家的數據量有限，但是通過聚合，實現了數據樣本的共享。2）每家看不到別家的數據；聚合器也看不到各家的樣本數據；3）因爲聚合器有可能被攻擊（“DLG攻擊”），所以客戶端發給聚合器的梯度信息需要用同態加密（即加密後操作可以還原爲樣本操作，這個以後細說）或者差分隱私（例如加一個隨機數）的方法進行加密。

這就叫做“數據可用不可見，數據不跑模型跑”。

這種方式適用於同類機構之間的合作，例如銀行之間聯合建立風控模型，醫院之間聯合開發診斷模型，政府部門之間聯合開發政務管理模型等。

2、縱向聯邦學習

另外一種情況，則是組織的客戶羣體是類似的，但是特徵並不相同。譬如有一家銀行和一家保險公司同在一個城市，它們的客戶羣體很多是重合的，但是銀行的數據是用戶的資產信息，而保險公司的數據是用戶的保險信息，如果它們想要在不互相披露數據的情況下，聯合開發一個風控模型。這時候採用的方法叫做“縱向聯邦學習”（VFL）。

縱向聯邦學習主要分爲兩步：1) 對齊不同參與方的相同用戶樣本（“加密實體對齊”）；2）對這些樣本進行加密的模型訓練（即下圖中右側部分）。

這裡面最難的部分，是如何在雙方都看不到對方用戶的情況下，實現“對齊”，即找到共同的用戶。這裡的算法是非對稱加密的RSA算法和哈希機制的結合。

訓練步驟爲：1）協調方負責分發公鑰，私鑰不發，這樣只有C可以解密（關於公私鑰機制，以後也會單獨寫篇文章）。2) A、B將對齊後的樣本進行同態加密和交互，分別計算各自的梯度和損失值。3）A、B算好以後，發給C（這時會加上掩碼或者噪聲，避免C泄密）。4）C進行解密，再發回給A、B。A、B解除掩碼，更新自己的模型。

這種方式適用於客戶羣體類似的不同機構之間的合作，例如一個城市的銀行和保險公司之間，醫院和保險公司之間等等。

3、聯邦遷移學習（FTL）

遷移學習是機器學習中的一種特殊門類，即用戶樣本和特徵都不同，類似於騎摩托車和自行車完全不同，我們希望通過學習，將騎自行車的技能遷移到騎摩托車上。

聯邦遷移學習針對的是兩家機構之間，樣本數據不同，特徵也不同的情況，例如兩個城市的銀行和保險公司。它們如何想要合作開發一個風控模型，就需要採用聯邦遷移學習。

聯邦遷移學習的架構類似於縱向聯邦學習，但是採用的梯度計算方法、損失函數、交換結果有所不同。這個領域目前相對較不成熟，不贅述。

“聯邦學習” 可以用於哪些領域？

根據上面的介紹可以知道，它可以起到下列作用：1）金融機構可以結合多方數據，建立更加全面的風控模型，對貸款人的信用進行評估；2）醫療機構可以整合不同醫院的數據，開發疾病檢測模型、影像分析模型或者疫情防控模型；3）監管機構可以通過組合不同部門、機構的數據，對洗錢、欺詐等行爲建立更加精確的預警模型。

“聯邦學習” 和隱私計算是什麼關係？

“隱私計算”是指在處理、分析數據的過程中保持數據的不透明、不泄露。聯邦學習是隱私計算的一種實現方法，另外還有多方安全計算（MPC)、差分隱私等方法。

“聯邦學習”有哪些優點和缺點？

優點：

在保障數據不出客戶端的情況下，兼顧分佈式計算和聯合計算的優勢。

各方只需要在本地進行訓練，數據體量不增加，算力成本壓力小。

缺點：

安全性的代價是性能。與不需要加密的分佈式機器學習相比，聯邦學習的性能顯然要低得多。

聯邦學習默認各個參與方是可信的，雖然採取了一些防範措施，但是仍然難以有效防範惡意參與方或者“誠實但是好奇”的參與方，引入虛假數據或者有害數據。

聯邦學習的各個參與方的計算能力不同，網絡連接不穩定，數據機構差異大等，而過程中又需要進行大量的互相通信，因而通信效率很容易成爲性能瓶頸。

這些不足，也正是各個院校、企業的計算機研發人員正在努力優化的方向。這些方面的成果可謂層出不窮，如Google方案、微衆銀行FATE方案、PATE方法、SecureBooster等等，都試圖在安全性、訓練性能、網絡效率等方面取得一定的平衡和突破。

*以上僅代表作者個人觀點

漫談聯邦學習

相關資訊