AI又對奧數下手，刷題刷出“模考”最好成績

來源：鳳凰網

時間：2022-02-04 15:20:07

AI 在最不擅長的數學方面，這次大幅刷新了最好成績。

其中關鍵角色是 OpenAI 給 Lean 做的一個定理證明器。

聽起來有點耳熟？沒錯，就是去年參加國際數學奧林匹克競賽（IMO）的“非人”選手 Lean~

自從 2013 年微軟研究院推出 Lean 以來，就一直嘗試讓 AI 在數學命題證明這方面取得進展。

而這次也確實得到了回報，OpenAI 新做的這個定理證明器讓它學會了解決一部分有難度的高中奧數題，包括美國的數學競賽 AMC12、AIME 甚至是國際奧數競賽中的題。

它首先會用語言模型將數學問題轉化為另一種形式，列出隱藏的條件和已知信息，然后來推理求證。

雖然在剛開始效果并不明顯，只能證明幾個命題。但是在不斷地搜索新的證明，經過八次迭代之后，在 miniF2F 測試中，成功地把分數從 29.3% 刷到了 41.2%。

我們來看看這 AI 是怎么在奧數題上施展拳腳的。

AI如何做奧數題

先來看一個簡單的問題熱熱身：

對于所有大于等于 9 的整數 n，證明下圖中的式子是一個完全平方數。

按照普通人的思考方式，可以先把式中分子提出一個 n 的階乘，與分母約去。

然后分子化簡為（n+1）²。這在形式上就是一個完全平方數，問題得證。

那AI是怎么做的呢？

它首先從文本中提取了條件和已知信息，例如 n 是整數、n 大于等于 9。

接下來，它把需要證明的問題換了一種說法，改為：

存在一個整數 x，使 x²和原式相等。

然后在解題的過程中，完全由模型直接生成了一個數學項“n+1”作為一個解：use n+1。接下來再去驗證這個解是否成立。

如果沒有語言模型，這是不可能做到的。

這么看來這模型能耐了，還有了一些數學想法，再拿一道國際奧賽的改編題來考考它：

設 a、b、c 是一個三角形的三條邊，證明 a²（b+c-a）+b²（c+a-b）+c²（a+b-c）≤3abc。

同樣地，AI 還是先把條件都列出來。不過這次還列出了與三角形有關的隱藏條件：

a、b、c 都是大于 0 的實數，并且有任意兩邊之和大于第三邊。

然后模型還自創了一個方法，列出了（b-a）、（c-b）、（c-a），看起來好像不明所以。

但是如果把目標式子展開，你就會發現這三項正是舒爾不等式的幾個對稱項：

根據舒爾不等式，對所有非負實數 x、y、z 和正數 t，都有：

當 t=1 時，這和奧數題中的形式完全一樣，命題得證。

這么看來，AI 這水平著實不簡單啊，要構造出這種效果可絕非易事。

對奧數下手的難點

讓 AI 來做奧數，確實比學生自己磕高數題難多了。

這第一個難點就是，模型不是從有限的選項中做選擇。要是像下圍棋那樣，格點就那么多，選擇空間有限，還好說一點。

但是做奧數，模型要從一組復雜的無限策略中做選擇，期間還要生成一些數學中的術語，例如“存在”、“任意”等。

針對這個難點，OpenAI 通過在搜索證明方法時從語言模型中采樣來解決。

而第二點就是模型缺乏自我對抗和博弈。做奧數題和雙人游戲不同，它不是和另一個玩家比賽，而是要證明一個數學命題。

這樣一來在雙人游戲上成功的算法就不能遷移過來。

為了解決這個問題，研究人員提供了一套不同難度“教輔資料”，用來輔助描述問題而不需要證明。

當這些輔助的描述難度越來越大時，模型就能解決越來越難的問題。

不過這兩個難點，反倒可以成為它的優勢。

一方面，因為這類數學命題的證明就是需要推理，需要無限的創造力和洞察力。

另一方面，這種輔助描述式的方法也有助于 AI 自動推理的發展。

說不好，將來深度學習模型還能征服奧數這座高山。

關鍵詞：數學模型 ai 奧數奧數題命題難點整數式子定理

延伸閱讀:

火速變現微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業務場景融合價值潛力大 2023-03-29

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環球報道:[今日關注] 南昌男科醫院男科...
環球報道:[今日關注] 南昌男科醫院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監會立案！此前剛遭上交所紀律處分！-...
證監會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩豐一年定開債券發...
基金分紅：方正富邦穩豐一年定開債券發...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮江中國獨角獸企業數量全國排...
世界滾動:鎮江中國獨角獸企業數量全國排...
世界播報:新疆挖掘南疆特色產業潛力
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養權怎么判
頭條焦點：離婚二審撫養權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環球速讀：瘋狂！散戶大買15億，美股空...
環球速讀：瘋狂！散戶大買15億，美股空...
世界動態:首屆京津冀生態產業創新發展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區服務
港交所紐約辦事處開幕　提升北美地區服務
韓媒：韓國環境部已批準“薩德”基地環...
看圖學習｜中華優秀傳統文化是中華民族...
看圖學習｜中華優秀傳統文化是中華民族...
當前觀察：郴電國際郴州分公司營業班獲...
當前觀察：郴電國際郴州分公司營業班獲...
天天新動態：三亞22日10時起發放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監察機關統籌用好基層監督力量精...
紀檢監察機關統籌用好基層監督力量精...
總投資約36億元，惠州新材料產業園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發行熱度持續上升多家龍頭企業扎堆...
GDR發行熱度持續上升多家龍頭企業扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區別_近親屬|當前看點
近親屬和親屬的區別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...
焦點熱訊:華中科技大學地址在哪個城市_...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發者選項在哪里能打開？oppo手機

熱文

環球報道:[今日關注] 南昌男科醫院男科收費高嗎排名公開
證監會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩豐一年定開債券發起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優秀的演員！|每日熱文