環(huán)球觀速訊丨對話微眾銀行楊強：聯(lián)邦學習的問題何解、前景何方

時間：2022-11-23 16:02:32

數(shù)據(jù)安全、隱私保護、數(shù)據(jù)孤島是AI時代遇到的普遍難題。

在人工智能的發(fā)展道路上，除了算法、算力的要求，“喂養(yǎng)”人工智能模型需要海量、多維數(shù)據(jù)進行模型訓練。在此過程中，數(shù)據(jù)安全、個人數(shù)據(jù)隱私等風險事件頻發(fā)，數(shù)據(jù)孤島現(xiàn)象頻現(xiàn)。隱私與數(shù)據(jù)保護越發(fā)得到重視，相關(guān)的法律法規(guī)日漸嚴格和完善。

在此背景下，“聯(lián)邦學習”為以上問題的解決提供了一個可行方案。

【資料圖】

所謂“聯(lián)邦學習”，其基本思想是建立一個共有模型，各個參與者的身份和地位相同，通過加密機制下的參數(shù)交換方式，實現(xiàn)不同企業(yè)、不同部門所擁有的數(shù)據(jù)不交換、不移動。在不違反數(shù)據(jù)隱私保護法律法規(guī)的前提下，模型利用全量數(shù)據(jù)進行訓練和模型優(yōu)化，從而得到最優(yōu)模型結(jié)果。

香港科技大學計算機與工程系講座教授和前系主任、中國人工智能學會（CAAI）榮譽副理事長、微眾銀行首席人工智能官楊強教授曾以羊與草為喻，形容聯(lián)邦學習的思路所在。

假設(shè)用一只羊來類比機器學習模型，我們希望羊吃了草以后能夠長大。過去的做法是，把草買到一起來建立模型。羊不動，但是草被購買到中心。相當于用簡單粗暴的辦法來獲取數(shù)據(jù)，形成大數(shù)據(jù)，來建立模型。

但我們希望能夠保護各自的隱私，所以讓草不動，讓羊動。也就是說，我們帶著模型到不同的草場去訪問，那么久而久之羊就長大了——這個就是聯(lián)邦學習的新思路，就是讓草不出草場，本地主人無法知道羊吃了哪些草，但是羊還是長大了。

“聯(lián)邦學習”在解決數(shù)據(jù)共享和數(shù)據(jù)隱私保護領(lǐng)域展現(xiàn)出強大的吸引力。到目前為止，聯(lián)邦學習已在金融、廣告營銷等方面獲得落地。

比如，互聯(lián)網(wǎng)平臺推送“千人千面”式的營銷信息時，其背后的推薦模型就需要大量用到用戶的特征數(shù)據(jù)。但單一企業(yè)只擁有用戶的一部分特征數(shù)據(jù)，如果可以接入更多其他互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)或者是投放廣告主關(guān)于用戶的數(shù)據(jù)，那么將大幅提升廣告推薦的效果，既能提升點擊率也可以提升廣告主的ROI，聯(lián)邦學習的出現(xiàn)就很好的解決了這個問題。

金融領(lǐng)域同樣如此，單個金融機構(gòu)掌握的用戶信息較少，除了個人征信系統(tǒng)之外，各平臺數(shù)據(jù)之間彼此是不互通的。聯(lián)邦學習的出現(xiàn)同樣讓各大金融機構(gòu)之間可以聯(lián)合建模，對于用戶的資質(zhì)進行全面客觀的評價，降低貸款的違約率和資產(chǎn)的不良率。

不過在現(xiàn)實中，“聯(lián)邦學習”商業(yè)應(yīng)用仍然面臨一些問題，且其在技術(shù)研究中也仍然存在一些難點有待突破。

比如，如何在效率、性能與安全性之間取得平衡是一個難題。目前“聯(lián)邦學習”系統(tǒng)嚴格保護用戶本地數(shù)據(jù)不外泄，只傳輸模型更新，而且即使是模型更新，也會對模型進行加密后再傳輸。對于更復雜的加密系統(tǒng)，就意味著回傳也需要更多的資源和實踐去解密。效率、性能與安全性之間有此存在沖突。

再如，“聯(lián)邦學習”面臨著的“數(shù)據(jù)下毒”的威脅。聯(lián)邦學習的分布式特點以及安全聚合機制往往讓數(shù)據(jù)造假變得更容易，更難被發(fā)現(xiàn)和舉證。每一方都有可能通過構(gòu)造“數(shù)據(jù)下毒”來控制整個模型的訓練結(jié)果。

經(jīng)過數(shù)年發(fā)展，“聯(lián)邦學習”究竟在技術(shù)和商業(yè)應(yīng)用層面有何發(fā)展？

對此，鈦媒體App近日專訪了楊強教授，楊強是國內(nèi)聯(lián)邦學習領(lǐng)域的知名學者。2018年，楊強帶領(lǐng)的微眾銀行AI團隊在國內(nèi)國內(nèi)引進了并延展了聯(lián)邦學習（Federated Learning）概念，在國際首次系統(tǒng)性提出聯(lián)邦學習理論。2019年，微眾銀行AI團隊開源了首個工業(yè)級聯(lián)邦學習技術(shù)框架FATE，同年6月捐獻給Linux基金會。

不久前，楊強教授的團隊與上海交通大學、中山大學等機構(gòu)聯(lián)合撰寫的三篇論文被IJCAI 2022、TPAMI 2022、ACM TIST等國際人工智能頂級學術(shù)期刊和頂級學術(shù)會議收錄發(fā)表。三篇論文分別為：《聯(lián)邦學習中隱私與模型性能沒有免費午餐定理》、《FedCG: 聯(lián)邦生成對抗網(wǎng)絡(luò)保護隱私保障性能》、《FedIPR：聯(lián)邦學習模型所屬權(quán)驗證》。

在楊強教授的回答中，有三點觀點值得關(guān)注。首先，在聯(lián)邦學習的隱私保護、模型性能、算法效率三者需要平衡，且可以平衡，目前楊強教授的團隊已經(jīng)找到了一條在更好的隱私保護能力的同時，讓模型性能上也具有競爭力的一條道路。

其次，長遠來看，隨著社會數(shù)智化的發(fā)展、數(shù)據(jù)要素的流通、數(shù)據(jù)交易所的落地，數(shù)據(jù)的定價、數(shù)據(jù)知識產(chǎn)權(quán)的認證，數(shù)據(jù)安全隱私的保護等環(huán)節(jié)都離不開聯(lián)邦學習，這也是聯(lián)邦學習發(fā)展的最大機遇。

第三，讓技術(shù)和法律法規(guī)結(jié)合起來是一大挑戰(zhàn)。關(guān)鍵是要讓整個聯(lián)邦學習決策過程變得可解釋、透明，并且可監(jiān)管、可問詢、可追蹤。

以下是鈦媒體App與楊強教授的采訪實錄，經(jīng)編輯后發(fā)布：

解讀三篇論文：從理論到實踐，再到規(guī)模化和工程化

問：近期發(fā)表的3篇論文，分別是從信息論、聯(lián)邦學習效率提升以及模型版權(quán)驗證切入，為什么會選擇這3個角度作為研究的切入？背后有怎樣的研究路徑和規(guī)劃？

楊強：計算機學科的發(fā)展往往是先有理論再有實踐，然后進一步發(fā)展理論，我們現(xiàn)在處于第三步，那么這一步的理論要解決的問題是什么？

首先，我們要注意聯(lián)合建模的安全性（這個是大家特別關(guān)心的）和聯(lián)合建模的可用性。如果只是一個極端安全的模型，沒有人能用，這東西也沒用。模型質(zhì)量要好、準確率高，同時訓練速度要快，要安全，需要這三點的平衡。

基于這三點的平衡，我們就要做下面幾件事，第一件事，是要證明這其中確實是需要做平衡的。因此，我們發(fā)布的文章《聯(lián)邦學習中隱私與模型性能沒有免費午餐定理》闡述，聯(lián)邦學習的隱私和模型性能是沒有免費午餐。兩者必須要做出權(quán)衡和取舍。

第二，在聯(lián)邦學習的安全和效率之間，有沒有可能很聰明地發(fā)明一些算法，能夠?qū)崿F(xiàn)安全性和模型的效能，以及準確率的同時提升。我們發(fā)表《FedCG：聯(lián)邦條件對抗生成網(wǎng)絡(luò)》闡述了，我們可以在每一個參與方都建立一個它的鏡像模型，然后讓這些鏡像模型之間互相溝通，這樣就大大的降低了隱私泄露的可能性，同時我們建模效率和效果都大為提升。

關(guān)于最后一篇文章，聯(lián)邦學習不僅僅是一個訓練、一個模型，而是從數(shù)據(jù)的收集、選擇，模型的訓練，到模型的治理，直至模型和別人進行交換。在這種情況下，我們就提出了“全生命周期的聯(lián)邦學習的模型治理”。

具體來說，模型治理其實和數(shù)據(jù)治理一樣重要。未來的世界我們看到是一個數(shù)字化的世界，而數(shù)字都是以模型的形式出現(xiàn)。但是，每個模型是誰做出來的，誰用過，誰從誰那買的，這個模型有什么危險性，有什么特別性等等，這些問題我們都叫模型的所屬權(quán)驗證。而在模型里面加入水印實現(xiàn)歸屬權(quán)的驗證，目前在業(yè)界我們是第一個做出來。

我們基于這3個不同的角度，從理論到實踐，到規(guī)模化，到工程化生命周期管理，應(yīng)該說是一個全面的概括。這是“可信聯(lián)邦學習”的一個里程碑。

行業(yè)應(yīng)用及商業(yè)前景

問：從目前的應(yīng)用，到未來可以預見的一些場景，聯(lián)邦學習會產(chǎn)生哪幾方面的影響？在與行業(yè)結(jié)合的過程中，還有什么問題需要注意？

楊強：越來越多的行業(yè)在提數(shù)字化和智能化，聯(lián)合起來就是數(shù)智化。數(shù)智化的過程，離不開一個觀念，就是數(shù)據(jù)要素的流通，數(shù)據(jù)從一個地方流到另外一個地方，通過數(shù)據(jù)交易所進行交易。所以需要對數(shù)據(jù)進行定價，數(shù)據(jù)的知識產(chǎn)權(quán)要有認證，數(shù)據(jù)的安全隱私要有保護，這些要求是未來金融的一些重要的特征，而所有這些都離不開聯(lián)邦學習，聯(lián)邦學習實現(xiàn)這些目標的一個有力工具。

未來要注意的一個重要方面，就是如何有機地讓技術(shù)和法律法規(guī)結(jié)合起來。現(xiàn)在有數(shù)據(jù)安全法，還有很多金融行業(yè)的一些規(guī)章制度，其中有一部分是可以用技術(shù)來實現(xiàn)的，但是有一部分是需要有法律和監(jiān)管來實現(xiàn)的，這兩方面的有機結(jié)合，我們現(xiàn)在正在嘗試。我們要做到這種無縫的對接，能夠既有技術(shù)的保證，又有法律和規(guī)章的保證，同時又需要讓整個決策過程變得可解釋，透明，并且可監(jiān)管、可問詢、可追蹤，這些都是我們所面臨的一些挑戰(zhàn)。

問：從商業(yè)化的角度來看，聯(lián)邦學習未來的商業(yè)潛力是怎樣的？

楊強：其實他們就像任何技術(shù)一樣，是需要滿足自然的發(fā)展規(guī)律的，比方說一個技術(shù)的出現(xiàn)，先適用在一些案例上，取得了成功，于是各方都想積極地參與試用，會發(fā)現(xiàn)一些挑戰(zhàn)，會有一些新的解決方案，讓這些技術(shù)進行升級，這樣最后能夠成熟到大家都普遍使用，所以聯(lián)邦學習和剛才所說的這些技術(shù)，也是一樣的，要滿足這樣的規(guī)律的。

這其中的市場空間應(yīng)該是很廣泛的，在我個人看來，未來的計算，一定是數(shù)據(jù)和模型的計算。為了保護數(shù)據(jù)安全和用戶隱私，在我們管道里跑的不應(yīng)該是原始數(shù)據(jù)，應(yīng)該是由數(shù)據(jù)產(chǎn)生的模型，而模型的交流組合、更新迭代，認證審計，這些都需要我們整個人工智能行業(yè)和大數(shù)據(jù)行業(yè)的升級迭代，都離不開聯(lián)邦學習。（作者｜蔡鵬程）

關(guān)鍵詞：微眾銀行

延伸閱讀:

火速變現(xiàn) 微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權(quán) 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環(huán)球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業(yè) 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現(xiàn)在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業(yè)務(wù)場景融合價值潛力大 2023-03-29

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責任。
除來源署名為網(wǎng)絡(luò)消費網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文