智能決策是邁向通用人工智能的必經(jīng)之路。2016年,圍棋智能體AlphaGo戰(zhàn)勝韓國(guó)棋手李世石,智能決策引起人們的廣泛關(guān)注;2022年底,ChatGPT火爆全球,凸顯出大模型的價(jià)值?梢灶A(yù)見,神經(jīng)網(wǎng)絡(luò)大模型將進(jìn)一步推動(dòng)智能決策在自主學(xué)習(xí)和應(yīng)用范圍上的突破。本書圍繞智能決策領(lǐng)域涉及的基本方法與技術(shù)展開介紹,主要內(nèi)容包括:智能決策與智能體的基本概念,智能體所處環(huán)境的分類與建模,確定環(huán)境下智能體的搜索推理決策方法,不確定環(huán)境下決策策略強(qiáng)化學(xué)習(xí)方法、博弈學(xué)習(xí)方法,復(fù)雜策略的深層神經(jīng)網(wǎng)絡(luò)建模與應(yīng)用,以及網(wǎng)格世界游戲、“雅達(dá)利”游戲、圍棋對(duì)弈、“星際爭(zhēng)霸”即時(shí)戰(zhàn)略對(duì)抗游戲、陸戰(zhàn)對(duì)抗等實(shí)例下智能體的決策策略生成技術(shù)和部分Python代碼實(shí)現(xiàn)。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
1. 第二屆全軍"先知.兵圣"人機(jī)對(duì)抗挑戰(zhàn)賽--先知分隊(duì)級(jí)智能體第二名, 2020年(本書依托)。
2. 基于魯棒水印的數(shù)字媒體安全管理系統(tǒng),軍隊(duì)科技進(jìn)步獎(jiǎng)二等獎(jiǎng),2014年,排名第2。
目錄
前言
第1章 智能決策概述 1
1.1 智能決策的內(nèi)涵 1
1.1.1 基本概念 1
1.1.2 兩個(gè)關(guān)鍵問(wèn)題 2
1.1.3 虛擬環(huán)境 3
1.2 當(dāng)前成果與技術(shù)流派 6
1.2.1 當(dāng)前成果 6
1.2.2 三大流派 9
1.3 未來(lái)應(yīng)用與發(fā)展方向 10
1.3.1 為復(fù)雜體系提供輔助決策 10
1.3.2 為無(wú)人系統(tǒng)提升自主能力 12
第2章 基本理論與模型 14
2.1 決策的基本理論 14
2.1.1 人類決策的一般過(guò)程 14
2.1.2 決策的認(rèn)知心理學(xué)描述 16
2.2 智能體模型理論 18
2.2.1 智能體的基本概念 18
2.2.2 與一般決策的不同 20
2.3 知識(shí)與環(huán)境描述 21
2.3.1 知識(shí)表示 21
2.3.2 環(huán)境描述方法 22
2.3.3 環(huán)境與智能體分類 23
第3章 確定環(huán)境下的搜索推理決策方法 27
3.1 智能體的描述與分析 27
3.1.1 智能體的決策問(wèn)題 27
3.1.2 問(wèn)題的形式化 28
3.1.3 問(wèn)題蘊(yùn)含的知識(shí) 29
3.2 搜索推理決策方法 31
3.2.1 智能體的決策 31
3.2.2 搜索算法基礎(chǔ) 32
3.2.3 無(wú)信息搜索策略 36
3.2.4 啟發(fā)式搜索策略 41
3.3 自動(dòng)規(guī)劃與知識(shí)描述 42
3.3.1 集合論描述 42
3.3.2 經(jīng)典規(guī)劃描述 47
3.3.3 時(shí)態(tài)規(guī)劃模型 52
第4章 不確定環(huán)境下的決策策略生成方法 54
4.1 不確定環(huán)境下的基本決策方法 54
4.1.1 隨機(jī)不確定環(huán)境下的最大期望效用決策 54
4.1.2 博弈不確定環(huán)境下的純策略決策 56
4.1.3 博弈不確定環(huán)境下的混合策略決策 64
4.2 決策策略的強(qiáng)化學(xué)習(xí)算法 68
4.2.1 強(qiáng)化學(xué)習(xí)的基本概念 68
4.2.2 有模型的強(qiáng)化學(xué)習(xí) 70
4.2.3 無(wú)模型的強(qiáng)化學(xué)習(xí) 75
第5章 神經(jīng)網(wǎng)絡(luò)與決策策略建模 87
5.1 神經(jīng)網(wǎng)絡(luò)的基本概念 87
5.1.1 神經(jīng)網(wǎng)絡(luò)的定義 87
5.1.2 神經(jīng)元模型 89
5.2 全連接反向傳播與監(jiān)督學(xué)習(xí) 91
5.2.1 反向傳播算法 91
5.2.2 前饋多層神經(jīng)網(wǎng)絡(luò) 96
5.2.3 監(jiān)督學(xué)習(xí)下的損失函數(shù) 97
5.2.4 參數(shù)初始化與參數(shù)更新方法 100
5.3 卷積神經(jīng)網(wǎng)絡(luò)及其反向傳播 106
5.3.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 106
5.3.2 卷積神經(jīng)網(wǎng)絡(luò)中的反向傳播 114
5.4 神經(jīng)網(wǎng)絡(luò)在決策策略建模中的應(yīng)用 117
5.4.1 擬合狀態(tài)價(jià)值函數(shù)與直接生成動(dòng)作 117
5.4.2 策略網(wǎng)絡(luò)的訓(xùn)練 119
5.4.3 Actor-Critic方法 121
第6章 簡(jiǎn)單游戲中的智能決策技術(shù) 124
6.1 OpenAI Gym與虛擬環(huán)境 124
6.2 表格Q學(xué)習(xí)與網(wǎng)格世界游戲決策 125
6.2.1 游戲環(huán)境與Q學(xué)習(xí)實(shí)現(xiàn) 125
6.2.2 湖面溜冰游戲決策 128
6.3 DQN與打磚塊游戲決策 129
6.3.1 打磚塊游戲環(huán)境 129
6.3.2 DQN算法過(guò)程 130
6.3.3 DQN核心代碼 136
6.3.4 打磚塊游戲智能體的實(shí)現(xiàn) 142
第7章 完全信息下的棋類智能決策技術(shù) 149
7.1 AlphaZero算法原理 149
7.1.1 基本思路 149
7.1.2 蒙特卡羅樹搜索基礎(chǔ) 151
7.1.3 自我博弈與神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 156
7.2 棋盤游戲環(huán)境實(shí)現(xiàn) 160
7.2.1 N子棋走子 160
7.2.2 棋盤環(huán)境 164
7.3 AlphaZero算法實(shí)現(xiàn) 170
7.3.1 自我博弈實(shí)現(xiàn) 170
7.3.2 蒙特卡羅樹搜索 174
7.3.3 策略價(jià)值網(wǎng)絡(luò) 176
7.3.4 訓(xùn)練與決策 183
第8章 不完全信息下的對(duì)抗策略的博弈學(xué)習(xí) 193
8.1 博弈學(xué)習(xí)算法 193
8.1.1 博弈學(xué)習(xí)的基本概念 193
8.1.2 博弈及其策略的形式化描述 194
8.1.3 博弈學(xué)習(xí)動(dòng)力學(xué)及學(xué)習(xí)算法 196
8.2 “星際爭(zhēng)霸”游戲?qū)箚?wèn)題分析 200
8.2.1 “星際爭(zhēng)霸”游戲環(huán)境 200
8.2.2 決策問(wèn)題分析 206
8.3 AlphaStar中的決策神經(jīng)網(wǎng)絡(luò)和博弈學(xué)習(xí)技術(shù) 207
8.3.1 動(dòng)作體系與狀態(tài)觀測(cè)量 207
8.3.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)概況與監(jiān)督學(xué)習(xí) 209
8.3.3 神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)的基本方法 212
8.3.4 加權(quán)虛擬自我博弈與聯(lián)盟學(xué)習(xí) 214
第9章 戰(zhàn)術(shù)級(jí)陸戰(zhàn)對(duì)抗策略的智能生成 216
9.1 陸戰(zhàn)人機(jī)對(duì)抗環(huán)境 216
9.1.1 陸戰(zhàn)對(duì)抗場(chǎng)景 216
9.1.2 廟算平臺(tái)的環(huán)境接口 218
9.2 智能體的基本框架 219
9.2.1 智能體對(duì)棋子的控制 219
9.2.2 高層動(dòng)作的實(shí)施邏輯 222
9.3 基于先驗(yàn)收益的目標(biāo)點(diǎn)位選擇的初始策略 223
9.3.1 目標(biāo)點(diǎn)位選擇問(wèn)題分析 223
9.3.2 博弈模型構(gòu)建 224
9.3.3 收益值計(jì)算與混合策略求解 225
9.4 目標(biāo)點(diǎn)位選擇策略的博弈學(xué)習(xí) 232
9.4.1 博弈學(xué)習(xí)架構(gòu)設(shè)計(jì) 232
9.4.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì) 234
9.4.3 神經(jīng)網(wǎng)絡(luò)參數(shù)博弈學(xué)習(xí) 238
參考文獻(xiàn) 244
附錄A 神經(jīng)網(wǎng)絡(luò)的使用 246
A.1 PyTorch框架下神經(jīng)網(wǎng)絡(luò)的使用 246
A.2 TensorFlow Keras框架下神經(jīng)網(wǎng)絡(luò)的使用 248
附錄B 廟算平臺(tái)接口 251
B.1 態(tài)勢(shì)接口 251
B.2 機(jī)動(dòng)動(dòng)作接口 256