AAAI 2022大獎出爐！中科院德州撲克程序AlphaHoldem獲卓越論文獎

時間：2022-02-28 21:07:10

近日，人工智能國際頂會 AAAI 2022 正在召開，大會論文獎也陸續公布。AI科技評論獲知，中國科學院自動化所的興軍亮教授團隊獲得 AAAI 2022 的卓越論文獎（Distinguished Paper）！

AAAI 的英文全稱是“Association for the Advance of Artificial Intelligence”（美國人工智能協會）。該協會是人工智能領域的主要學術組織之一，具有一定的學術權威性。

興軍亮團隊此次獲獎的工作是他們所開發的輕量型德州撲克 AI 程序——AlphaHoldem。據介紹，該系統的決策速度較 DeepStack 的速度提升超1000倍，與高水平德州撲克選手對抗的結果表明其已經達到了人類專業玩家水平。

論文名稱：《AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning》

作者團隊：趙恩民，閆仁業，李金秋，李凱，興軍亮

1德州撲克AI的意義

與圍棋任務相比，德州撲克是一項更能考驗基于信息不完備導致對手不確定的智能博弈技術。

德州撲克是國際上最為流行的撲克游戲，由于最早起源于20世紀初美國德克薩斯州而得名。

德州撲克的規則是使用去掉王牌的一副撲克牌，共52張牌，至少2人參與，至多22人，一般參與人數為兩人和十人之間。

游戲開始時，首先為每個玩家發兩張私有牌作為各自的“底牌”，隨后將五張公共牌依次按三張、一張、一張朝上發出。在發完兩張私有牌、三張共有牌、第四張公共牌、第五張公共牌后玩家都可以多次無限制押注，這四輪押注分別稱為“翻牌前”、“翻牌”、“轉牌”、“河牌”。圖1展示了一場德州撲克游戲的完整流程示意。

圖1：兩人無限注德州撲克一次游戲過程示意

經過四輪押注之后，若仍不能分出勝負，游戲進入“攤牌”階段，所有玩家亮出各自底牌并與公共牌組合成五張牌，成牌最大者獲勝。圖2給出了德州撲克不同組合的牌型解釋和大小。

圖2：德州撲克不同牌型大小說明和比較

德州撲克博弈的問題復雜度很大，兩人無限注德州撲克的決策空間復雜度超過10的161次方；其次，德州撲克博弈過程屬于典型的回合制動態博弈過程，游戲參與者每一步決策都依賴于上一步的決策結果，同時對后面的決策步驟產生影響；

另外，德州撲克博弈屬于典型的不完美信息博弈，博弈過程中玩家各自底牌信息不公開使得每個玩家信息都不完備，玩家在每一步決策時都要充分考慮對手的各種可能情況，這就涉及到對手行為與心理建模、欺詐與反欺詐等諸多問題。

研究者認為，由于德州撲克游戲規則又非常簡單且邊界確定，特別適合作為一個虛擬實驗環境對博弈的相關基礎理論方法和核心技術算法進行深入探究。

近年來，國際研究者在德州撲克這一大規模不完美信息博弈問題的優化求解中也取得了長足進步。

比如，之前加拿大阿爾伯特大學和美國卡內基梅隆大學的研究者就設計出 AI 程序 DeepStack 和 Libratus，并先后在兩人無限注德州撲克中均戰勝了人類專業選手，隨后卡內基梅隆大學設計的 Pluribus 又在六人無限注德州撲克中戰勝了人類專業選手。

但目前主流德州撲克AI背后的核心思想是利用反事實遺憾最小化（Counterfactual Regret Minimization, CFR）算法逼近納什均衡策略。

具體來說，首先利用抽象（Abstraction）技術[3][7]壓縮德撲的狀態和動作空間，從而減小博弈樹的規模，然后在縮減過的博弈樹上進行CFR算法迭代。

這些方法嚴重依賴于人類專家知識進行博弈樹抽象，并且CFR算法需要對博弈樹的狀態結點進行不斷地采樣遍歷和迭代優化，即使經過模型縮減后仍需要耗費大量的計算和存儲資源。

例如，DeepStack使用了153萬的CPU時以及1.3萬的GPU時訓練最終AI，在對局階段需要一個GPU進行1000次CFR的迭代過程，平均每個動作的計算需耗時3秒。Libratus消耗了大于300萬的CPU時生成初始策略，每次決策需要搜索4秒以上。

這樣大量的計算和存儲資源的消耗嚴重阻礙了德撲AI的進一步研究和發展；同時，CFR框架很難直接拓展到多人德撲環境中，增加玩家數量將導致博弈樹規模呈指數增長。另外，博弈樹抽象不僅需要大量的領域知識而且會不可避免地丟失一些對決策起到至關作用的信息。

2AlphaHoldem是何方神圣？

這個問題也吸引了很多中國研究者，中科院自動化所的興軍亮教授團隊便是其中之一。去年12月，他領導的博弈學習研究組針對德州撲克任務，提出了一種高水平、輕量化的兩人無限注德州撲克AI程序——AlphaHoldem。

不同于已有的基于CFR算法的德州撲克AI，中科院博弈學習研究組所提出的架構是基于端到端的深度強化學習算法（如圖4所示）。

圖4：端到端學習德州撲克AI學習框架

根據團隊介紹，AlphaHoldem采用Actor-Critic學習框架，其輸入是卡牌和動作的編碼，然后通過偽孿生網絡（結構相同參數不共享）提取特征，并將一種改進的深度強化學習算法與一種新型的自博弈學習算法相結合，在不借助任何領域知識的情況下，直接從牌面信息端到端地學習候選動作進行決策。

他們還指出，AlphaHoldem的成功得益于其采用了一種高效的狀態編碼來完整地描述當前及歷史狀態信息、一種基于Trinal-Clip PPO損失的深度強化學習算法來大幅提高訓練過程的穩定性和收斂速度、以及一種新型的Best-K自博弈方式來有效地緩解德撲博弈中存在的策略克制問題。

AlphaHoldem 使用了1臺包含8塊GPU卡的服務器，經過三天的自博弈學習后，戰勝了Slumbot和DeepStack。

每次決策時，AlphaHoldem都僅用了不到3毫秒，比DeepStack速度提升超過了1000倍。同時，AlphaHoldem與四位高水平德州撲克選手對抗1萬局的結果表明其已經達到了人類專業玩家水平。

3團隊部分成員介紹

趙恩民，論文一作。中國科學院自動化研究所模式識別與智能系統專業博士四年級研究生，2018年于清華大學獲得工學學士學位。研究方向為計算機撲克和深度強化學習。

興軍亮，中國科學院自動化研究所研究員、博士生導師、特聘青年骨干，中國科學院大學崗位教授，中國科學院人工智能創新研究院創新專家組專家。興教授2012年畢業于清華大學計算機科學與技術系，獲工學博士學位。

此外，他還是美國電器與電子工程學會（IEEE）高級會員、美國《科學》雜志中國官方公眾號特邀評論員、中國計算機學會（CCF）高級會員、計算機視覺專委會委員。

他的主要研究領域為計算機視覺和計算機博弈。目前已在包括頂級國際期刊如TPAMI、IJCV、AI以及頂級國際會議上如ICCV、CVPR、AAAI、IJCAI上發表論文100多篇，谷歌學術引用超過10000次，出版計算機視覺譯著2部，參與撰寫深度學習領域著作1部、人工智能領域著作1部。

曾獲清華大學計算機系“學術新秀”、“谷歌學者”、多次頂級國際和國內會議最佳論文獎等榮譽和獎勵，以及十余次在人臉識別、車輛識別、視頻識別等國際和國內挑戰賽中獲獎。

目前作為項目和課題負責人承擔多項國家重點項目，研發的視覺感知相關技術在國家廣電總局、華為、微軟等得到了多次驗證應用和落地推廣，取得了良好的經濟效益和社會價值。

近年來主要圍繞深度強化學習相關的智能感知和決策問題，研發了多款針對不同游戲的博弈決策AI，其中研發的星際爭霸AI曾獲2017年IEEE CIG星際爭霸AI第2名，研發的德州撲克AI程序AlphaHoldem勝率超過了目前公開的最好德州撲克AI程序DeepStack，速度提升超過1000倍。開放了學界首個大規模不完美信息博弈平臺OpenHoldem。

關鍵詞： AAAI 2022大獎出爐中科院德州撲克程序Alp

延伸閱讀:

新型機器人奔跑速度達到每秒70倍體長由聚合物和形狀記憶合金等柔性材料制成 2022-09-15
年年換新手機和三年換一次成本相差無幾? 別被騙了 2022-09-14
國產GPU添新玩家AMD出身帶領團隊設計量產兩個業界第一 2022-09-07
全國高校商業精英挑戰賽戰略合作簽約儀式加快校企合作 2022-09-06
二手平臺淘顯卡開箱另有玄機老黃清存貨的新手段? 2022-09-05
AMD下個月將升級到5nm 改用三星14nm處理器 2022-08-26
Instagram：計劃推出一系列安全和家長控制功能 2022-08-26
亞馬遜也想模仿TikTok？開始在App內測試短視頻功能 2022-08-18

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

墅智人生·理享生活 | COLMO攜EVOLUTI...
學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環球報道:[今日關注] 南昌男科醫院男科...
環球報道:[今日關注] 南昌男科醫院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監會立案！此前剛遭上交所紀律處分！-...
證監會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩豐一年定開債券發...
基金分紅：方正富邦穩豐一年定開債券發...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮江中國獨角獸企業數量全國排...
世界滾動:鎮江中國獨角獸企業數量全國排...
世界播報:新疆挖掘南疆特色產業潛力
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養權怎么判
頭條焦點：離婚二審撫養權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環球速讀：瘋狂！散戶大買15億，美股空...
環球速讀：瘋狂！散戶大買15億，美股空...
世界動態:首屆京津冀生態產業創新發展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區服務
港交所紐約辦事處開幕　提升北美地區服務
韓媒：韓國環境部已批準“薩德”基地環...
看圖學習｜中華優秀傳統文化是中華民族...
看圖學習｜中華優秀傳統文化是中華民族...
當前觀察：郴電國際郴州分公司營業班獲...
當前觀察：郴電國際郴州分公司營業班獲...
天天新動態：三亞22日10時起發放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監察機關統籌用好基層監督力量精...
紀檢監察機關統籌用好基層監督力量精...
總投資約36億元，惠州新材料產業園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發行熱度持續上升多家龍頭企業扎堆...
GDR發行熱度持續上升多家龍頭企業扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區別_近親屬|當前看點
近親屬和親屬的區別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發者選項在哪里能打開？oppo手機

熱文

環球報道:[今日關注] 南昌男科醫院男科收費高嗎排名公開
證監會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩豐一年定開債券發起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優秀的演員！|每日熱文