隨著人工智能技術的廣泛應用,網(wǎng)絡智能化近年來受到廣泛的關注,已經(jīng)成為下一代移動通信與未來網(wǎng)絡的重要技術。阿爾法圍棋(AlphaGo)之后,深度強化學習不斷推陳出新,為網(wǎng)絡中的決策問題提供了有效的潛在解決方案。本書系統(tǒng)介紹了網(wǎng)絡智能化中深度強化學習的基本理論、算法及應用場景。全書共8章,針對互聯(lián)網(wǎng)、移動通信網(wǎng)、邊緣網(wǎng)絡、數(shù)據(jù)中心等典型網(wǎng)絡,闡述了網(wǎng)絡管理、網(wǎng)絡控制、任務調(diào)度等決策需求,深入論述了深度強化學習的模型構建與應用技術。第1章介紹了網(wǎng)絡智能的需求與挑戰(zhàn);第2章介紹了先進的深度強化學習模型與方法;第3~6章論述了無線接入優(yōu)化、網(wǎng)絡管理、網(wǎng)絡控制與任務調(diào)度等普遍網(wǎng)絡管控任務中,深度強化學習技術的應用方法;第7章和第8章論述了深度強化學習在流媒體控制以及自組織網(wǎng)絡等典型場景中的新研究進展。
本書可為高等院校計算機和通信相關專業(yè)的本科生、研究生提供參考,也可供對網(wǎng)絡智能化與深度強化學習領域感興趣的研究人員和工程技術人員參考。
1.專家力作,內(nèi)容嚴謹。作者來自于北京郵電大學網(wǎng)絡與交換技術國家重點實驗室網(wǎng)絡智能研究中心,長期從事網(wǎng)絡智能化、深度學習、深度強化學習、邊緣智能等方向的前沿研究工作,發(fā)表高水平國際前沿論文70余篇。
2.內(nèi)容豐富,知識系統(tǒng)。網(wǎng)絡智能化已在學術界和工業(yè)界均得到廣泛關注,本書內(nèi)容屬于移動通信網(wǎng)以及未來網(wǎng)絡的重要方向。本書系統(tǒng)介紹了網(wǎng)絡智能化中深度強化學習的基本理論、算法及應用場景。
3.總結前沿成果,注重實踐應用。本書將前沿學術成果以系統(tǒng)、模型、方法的角度進行闡述,關注網(wǎng)絡問題場景以及深度強化學習方法的原理,便于讀者深入了解深度強化學習方法在網(wǎng)絡智能中的應用。
戚琦,博士,網(wǎng)絡與交換國家重點實驗室副教授、碩士生導師、博士生導師。長期從事業(yè)務網(wǎng)絡智能化和移動云計算方向的科研工作,近年來重點關注深度強化學習、分布式機器學習、聯(lián)邦學習、輕量化神經(jīng)網(wǎng)絡等方面的前沿研究,取得了知識定義網(wǎng)絡、邊緣智能、手部姿態(tài)估計、草圖檢索等一系列研究成果。發(fā)表高水平學術論文70余篇,SCI索引期刊論文40余篇。先后主持2項國家自然科學基金目,1項北京市自然科學基金,3項基地自主科研項目,以及多項企事業(yè)單位合作項目,作為主研人承擔重點研發(fā)計劃、創(chuàng)新團隊、創(chuàng)新群體、973等多個國家及省部級重大項目。
第 1章 網(wǎng)絡智能概述 1
1.1 概述 2
1.1.1 網(wǎng)絡架構的持續(xù)演進 2
1.1.2 網(wǎng)絡管理與控制的挑戰(zhàn) 3
1.1.3 網(wǎng)絡智能的興起 4
1.2 網(wǎng)絡智能的基礎 7
1.2.1 大數(shù)據(jù) 7
1.2.2 算力支持 7
1.2.3 集中式控制 9
1.3 網(wǎng)絡智能的現(xiàn)狀 10
1.3.1 意圖網(wǎng)絡 10
1.3.2 自動駕駛網(wǎng)絡 12
1.3.3 知識定義網(wǎng)絡 14
1.3.4 標準化工作 17
1.4 網(wǎng)絡智能的實現(xiàn)途徑 18
1.4.1 監(jiān)督學習 18
1.4.2 無監(jiān)督學習 20
1.4.3 強化學習 21
1.5 網(wǎng)絡智能的愿景與挑戰(zhàn) 22
1.5.1 網(wǎng)絡智能的愿景 22
1.5.2 網(wǎng)絡智能的挑戰(zhàn) 24
參考文獻 25
第 2章 深度強化學習方法 29
2.1 強化學習方法概述 30
2.1.1 馬爾可夫決策過程 30
2.1.2 多臂賭博機 32
2.1.3 蒙特卡洛樹搜索與時間差分方法 33
2.1.4 值迭代與策略迭代 35
2.2 深度強化學習 37
2.2.1 深度Q網(wǎng)絡 38
2.2.2 策略梯度方法 40
2.2.3 策略梯度單調(diào)提升優(yōu)化算法 44
2.2.4 最大熵算法 50
2.3 多智能體強化學習 52
2.3.1 獨立強化學習及其涌現(xiàn)行為分析 53
2.3.2 多智能體通信 55
2.3.3 多智能體合作機制 56
2.3.4 多智能體建模與策略推斷 59
2.4 分層強化學習 61
2.5 遷移強化學習 64
2.5.1 遷移強化學習框架 65
2.5.2 根據(jù)遷移設置的分類 66
2.5.3 根據(jù)遷移知識類型的分類 67
2.5.4 根據(jù)遷移目標的分類 68
2.6 多任務強化學習 69
2.6.1 多任務學習基本概念 69
2.6.2 多任務強化學習 70
2.6.3 基于多任務學習的遷移強化學習 71
2.7 逆強化學習 73
2.8 分布式強化學習 75
參考文獻 77
第3章 基于強化學習的無線接入優(yōu)化 81
3.1 多信道無線接入 81
3.1.1 多信道無線接入概述 82
3.1.2 基于DRL的動態(tài)多信道無線接入 83
3.1.3 異構無線網(wǎng)絡的多信道接入 87
3.2 異構無線網(wǎng)絡的調(diào)制和編碼 91
3.2.1 調(diào)制和編碼問題概述 91
3.2.2 基于DRL的調(diào)制和編碼 93
3.3 基站自適應能量控制 99
3.3.1 基站自適應能量控制內(nèi)容概述 99
3.3.2 基站自適應能量控制問題引入 100
3.3.3 基于DRL的自適應能量控制 100
參考文獻 105
第4章 基于強化學習的網(wǎng)絡管理 108
4.1 智能服務編排 108
4.1.1 NFV的資源配置 108
4.1.2 服務功能鏈映射 110
4.1.3 服務功能鏈選路 117
4.1.4 無線網(wǎng)絡VNF的資源編排 122
4.2 智能網(wǎng)絡切片 124
4.2.1 網(wǎng)絡切片的需求與概念 124
4.2.2 網(wǎng)絡切片的資源管理 127
4.2.3 無線接入網(wǎng)切片 128
4.2.4 核心網(wǎng)切片 133
參考文獻 136
第5章 基于強化學習的網(wǎng)絡控制 141
5.1 智能路由控制 141
5.1.1 時間相關QoS的路由控制 143
5.1.2 邊緣網(wǎng)絡路由控制 147
5.1.3 帶緩存的DCN路由控制 151
5.2 智能擁塞控制 158
5.2.1 多路徑TCP控制 160
5.2.2 智能擁塞控制模型Aurora 164
5.3 智能流量調(diào)度 167
5.3.1 流量工程概述 168
5.3.2 智能流量調(diào)度 169
5.3.3 分布式流量調(diào)度 170
參考文獻 172
第6章 基于強化學習的任務調(diào)度 175
6.1 并行計算的任務調(diào)度 175
6.1.1 問題定義 176
6.1.2 基于RL的并行任務調(diào)度方法 177
6.1.3 基于DRL的并行任務調(diào)度方法 178
6.2 基于有向無環(huán)圖的任務調(diào)度 182
6.2.1 分布式系統(tǒng)任務模型 182
6.2.2 邊緣計算任務調(diào)度 183
6.2.3 云計算的任務調(diào)度 185
6.2.4 數(shù)據(jù)處理集群的任務調(diào)度 188
6.3 混合任務調(diào)度 192
6.3.1 多類型任務調(diào)度 192
6.3.2 任務調(diào)度相關的聯(lián)合優(yōu)化 195
參考文獻 198
第7章 基于強化學習的流媒體控制 200
7.1 超低時延的流媒體傳輸 201
7.1.1 超低時延的流媒體傳輸框架 201
7.1.2 碼率自適應算法 204
7.1.3 基于強化學習的超低時延傳輸算法 206
7.2 個性化的流媒體傳輸 210
7.2.1 個性化用戶體驗 210
7.2.2 基于強化學習的個性化QoE設計 212
7.3 新場景下的流媒體傳輸展望 214
參考文獻 215
第8章 基于強化學習的自組織網(wǎng)絡 218
8.1 網(wǎng)聯(lián)自動駕駛 218
8.1.1 車載通信任務 218
8.1.2 車載資源分配 221
8.2 無人機網(wǎng)絡概述 226
8.2.1 無人機通信資源調(diào)度 227
8.2.2 無人機公平效率覆蓋 231
8.2.3 無人機傳感數(shù)據(jù)收集 235
參考文獻 238
名詞索引 241