北大光華彭一杰團隊論文榮獲IJOC杰出論文獎

?智能總結(jié)國際運籌學(xué)與管理科學(xué)學(xué)會旗下期刊IJOC公布2024年度杰出論文獲獎名單,北大光華彭一杰等完成的論文入選。該論文創(chuàng)新引入多排序選擇問題框架,提出AOAT策略,提升搜索效率與決策準(zhǔn)確性,為強化學(xué)習(xí)算法提供新思路,研究獲國家自然科學(xué)基金資助。
近日,國際管理科學(xué)與運籌學(xué)領(lǐng)域的頂級期刊之一、國際運籌學(xué)與管理科學(xué)學(xué)會(INFORMS)旗下權(quán)威期刊INFORMS Journal on Computing(IJOC)公布了2024年度Meritorious Papers(杰出論文)獲獎名單。由北京大學(xué)光華管理學(xué)院副教授彭一杰與美國佐治亞理工大學(xué)工業(yè)與系統(tǒng)工程系博士生劉嘯天、北京大學(xué)光華管理學(xué)院博士后張公伯、博士生周睿涵共同完成的論文“An Efficient Node Selection Policy for Monte Carlo Tree Search with Neural Networks”(《基于神經(jīng)網(wǎng)絡(luò)的蒙特卡洛樹搜索高效節(jié)點選擇策略》)成功入選,成為IJOC此獎項2024年度唯一獲獎?wù)撐?/strong>。該獎項旨在表彰在運籌學(xué)與計算科學(xué)領(lǐng)域具有突出理論創(chuàng)新與實踐價值的頂尖研究成果。


論文簡介
近年來,在供應(yīng)鏈管理、制造業(yè)和機器人控制等各個領(lǐng)域出現(xiàn)了大規(guī)模決策問題。通常,這些問題的挑戰(zhàn)在于在大的動作空間中識別最優(yōu)動作,這對于大多數(shù)傳統(tǒng)的基于解搜索的方法來說是難以計算的。作為一種基于仿真的算法,蒙特卡羅樹搜索(MCTS)因其在計成本可控的情況下的漸進最優(yōu)性而越來越受到人們的歡迎。
在此基礎(chǔ)上,AlphaGo的成功引發(fā)了一種新的趨勢,即在MCTS中加入用神經(jīng)網(wǎng)絡(luò) (Neural Networks, NN) 構(gòu)建的價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò) (NN-MCTS)。

NN-MCTS
此論文創(chuàng)新性地將多排序選擇(R&S)問題框架引入MCTS,提出漸進最優(yōu)樹分配策略(AOAT),顯著提升了搜索效率與決策準(zhǔn)確性。AOAT有效地分配有限的搜索資源,以最大化正確選擇最佳動作的概率。NN-MCTS中的價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)分別通過提供先驗知識和指導(dǎo)最終動作的選擇提高AOAT策略的性能。在兩個棋盤游戲和OpenAI任務(wù)上的數(shù)值實驗表明,該方法優(yōu)于AlphaGo Zero和MuZero中廣泛使用的UCT策略。此外,此研究同時反映了將R&S方法應(yīng)用于NN-MCTS中實現(xiàn)節(jié)點選擇的潛力,進而為開發(fā)更高效的基于搜索的強化學(xué)習(xí)算法提供了新的思路和方向。

在井字棋下的實驗結(jié)果:
基于AOAT的節(jié)點選擇策略優(yōu)于UCT

在五子棋下的實驗結(jié)果

在強化學(xué)習(xí)任務(wù)CartPole下的實驗結(jié)果
這項研究揭示了將動態(tài)仿真資源分配策略擴展為MCTS中節(jié)點選擇策略的潛力,該研究得到國家自然科學(xué)基金杰出青年科學(xué)基金、原創(chuàng)探索項目的資助。應(yīng)用這種新的蒙特卡洛樹搜索方法來解決大規(guī)模決策問題值得進一步深入研究。
教授簡介

彭一杰,北京大學(xué)光華管理學(xué)院副教授,博士生導(dǎo)師。北京大學(xué)人工智能研究院、國家健康醫(yī)療大數(shù)據(jù)研究院兼職研究員。本科畢業(yè)于武漢大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,從復(fù)旦大學(xué)管理學(xué)院獲博士學(xué)位。在美國馬里蘭大學(xué)和喬治梅森大學(xué)分別從事過博士后與助理教授工作。主要研究方向包括仿真建模與優(yōu)化、金融工程與風(fēng)險管理、人工智能、健康醫(yī)療等。主持國家自然科學(xué)基金委優(yōu)秀青年科學(xué)基金、原創(chuàng)探索計劃、杰出青年科學(xué)基金等。在Operations Research,INFORMS Journal on Computing和IEEE Transactions on Automatic Control等高質(zhì)量期刊上發(fā)表學(xué)術(shù)論文,曾獲INFORMS Outstanding Simulation Publication Award。目前擔(dān)任Asia-Pacific Journal of Operational Research副主編、《系統(tǒng)管理學(xué)報》領(lǐng)域主編,全國工業(yè)統(tǒng)計學(xué)教學(xué)研究會金融科技與大數(shù)據(jù)分會副理事長,北京運籌學(xué)會副秘書長,中國運籌學(xué)會金融工程與金融風(fēng)險管理分會常務(wù)理事,管理科學(xué)與工程協(xié)會理事。
(本文轉(zhuǎn)載自北京大學(xué)光華管理學(xué)院 ,如有侵權(quán)請電話聯(lián)系13810995524)
* 文章為作者獨立觀點,不代表MBAChina立場。采編部郵箱:news@mbachina.com,歡迎交流與合作。
備考交流
- 【MBAChina 官方社群矩陣】
- 涵蓋 199管理類聯(lián)考備考 · 復(fù)試調(diào)劑 · 博士申請 · 中外合辦學(xué) 四大板塊。
- ??2027 MBA/MPA/MEM/MPAcc /EMBA聯(lián)考備考群
- ??2026 管理類聯(lián)考復(fù)試調(diào)劑群
- ??博士項目交流群
- ??中外合作辦學(xué)項目群
- ?? 添加微信:MBAChina001
- 備注【報考項目】,邀請您加入專屬交流群

掃碼關(guān)注我們
- 獲取報考資訊
- 了解院?;顒?/li>
- 學(xué)習(xí)備考干貨
- 研究上岸攻略
最新動態(tài)
推薦項目
活動日歷
- 01月
- 02月
- 03月
- 04月
- 05月
- 06月
- 07月
- 08月
- 09月
- 10月
- 11月
- 12月
- 06/01 6月1日直播預(yù)告:香港理工大學(xué)SPEED學(xué)院_全新碩士課程專場!26fall入學(xué)!
- 06/03 6月3日活動報名 | 北大光華-凱洛格國際EMBA項目Coffee Chat@上海
- 06/03 【活動報名】中國科學(xué)技術(shù)大學(xué)科技商學(xué)院專題講座重磅開啟!
- 06/04 6月4日 席位鎖定中 | 香港中文大學(xué)(深圳)MBM2027級招生說明會
- 06/06 長春理工大學(xué)2027級工商管理碩士(MBA)考生見面會
- 06/06 重磅!上財?shù)嗡呓?027級全日制金融碩士“新興金融探索日”活動通知
- 06/06 深圳場 | 清華-康奈爾雙學(xué)位金融MBA公開課暨2027級招生說明會報名中!
- 06/06 上海 | 紫荊課堂暨2027級清華MBA招生咨詢會報名開啟!
- 06/06 浪潮已至|南科大科創(chuàng)MBA 2027級招生啟動大會來了
- 06/06 活動報名 | “迅策科技”校友企業(yè)參訪暨清華五道口金融EMBA深圳招生說明會
熱門資訊
掃碼關(guān)注 MBAChina
掃碼關(guān)注
EMBA







