在面臨多種選擇時,如何平衡短期收益與長期潛力?點奶茶提神還是買書充電?選哪種新藥進行臨床試驗?這些看似無關(guān)的場景背后,其實都隱藏著一個數(shù)學(xué)難題——“多臂老虎機問題”。西交利物浦大學(xué)數(shù)學(xué)物理學(xué)院金融與精算數(shù)學(xué)系劉克勤博士的最新研究,為這一經(jīng)典問題提供了高效解法,相關(guān)成果發(fā)表于管理科學(xué)和運籌學(xué)領(lǐng)域頂級期刊《Management Science》。
從老虎機到生活選擇:什么是“利用”與“探索”困境?
想象你面前有多個老虎機,每個拉桿的回報率未知。若你反復(fù)拉動當前收益最高的拉桿(利用),可能錯過其他更高回報的選項;但如果不斷嘗試新拉桿(探索),短期收益又會降低。這種兩難被稱為“利用-探索困境”,廣泛存在于醫(yī)療試驗、廣告推薦、無人機調(diào)度等領(lǐng)域。劉克勤博士解釋道:“人類決策常陷入這種權(quán)衡。比如醫(yī)生需在已知有效藥物和新藥試驗間取舍,電商平臺要在熱門商品推廣和潛力新品測試間平衡。我們的目標是找到最優(yōu)策略,讓長期平均回報最大化。”
突破“維度災(zāi)難”:用靈活策略簡化復(fù)雜計算
傳統(tǒng)方法在處理多選項、多狀態(tài)的復(fù)雜決策時,常遭遇“維度災(zāi)難”——選項越多,計算量呈指數(shù)級增長,導(dǎo)致系統(tǒng)“卡死”。例如,10個選項可能產(chǎn)生數(shù)百萬種狀態(tài)組合,傳統(tǒng)算法難以應(yīng)對。
劉克勤博士提出“松弛可索引性”概念,核心思想是放寬策略的嚴格性?!熬拖裾硪鹿駮r,不必精確計算每件衣服的搭配,而是按季節(jié)和用途分類,快速找到最優(yōu)組合。”他通過動態(tài)調(diào)整優(yōu)先級,將復(fù)雜問題拆解為可管理的子任務(wù),大幅降低計算成本。
從硅谷工程師到學(xué)術(shù)先鋒
劉克勤博士于2010年在加州大學(xué)戴維斯分校獲得博士學(xué)位,隨后完成2年博士后研究,之后成為一名軟件工程師。他曾在硅谷工作8年,深諳實際系統(tǒng)的復(fù)雜性;重返學(xué)術(shù)界后,將工業(yè)經(jīng)驗與數(shù)學(xué)理論結(jié)合,最終攻克這一難題。其算法已在動態(tài)定價、無人機控制等場景展現(xiàn)潛力,未來或應(yīng)用于更廣泛的智能決策系統(tǒng)。 “這項研究不僅是理論創(chuàng)新,更是為現(xiàn)實中的‘選擇困難癥’提供數(shù)學(xué)解藥?!眲⒖饲诳偨Y(jié)道,“無論是個人生活還是企業(yè)管理,優(yōu)化決策的邏輯本質(zhì)相通——在已知與未知間找到平衡點。”
劉克勤博士獨作論文《部分可觀測不休止多臂老虎機問題的松弛可指標化與指標策略》(Relaxed Indexability and Index Policy for Partially Observable Restless Bandits)在管理科學(xué)、運籌學(xué)領(lǐng)域頂級期刊《Management Science》正式線上發(fā)表。該期刊在UTD24排名中位列管理和運籌學(xué)領(lǐng)域全球第一,標志著此項研究具有重要學(xué)術(shù)價值。
作為數(shù)學(xué)與人工智能交叉領(lǐng)域的專家,劉克勤博士在高水平期刊已發(fā)表40余篇論文,其研究成果被引用超2600次。2025年1月,他榮獲了“2024年SIP國際領(lǐng)軍人才(青年類)獎”。(通訊員:劉沁茹 寇博)