推薦系統(tǒng)技術(shù)原理與實(shí)踐
定 價(jià):79.8 元
- 作者:文亮
- 出版時(shí)間:2023/6/1
- ISBN:9787115609809
- 出 版 社:人民郵電出版社
- 中圖法分類:TP393
- 頁碼:222
- 紙張:
- 版次:01
- 開本:16開
本書系統(tǒng)介紹推薦系統(tǒng)的技術(shù)理論和實(shí)踐。首先介紹推薦系統(tǒng)的基礎(chǔ)知識(shí);然后介紹推薦系統(tǒng)常用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型;接著重點(diǎn)介紹推薦系統(tǒng)的4層級(jí)聯(lián)架構(gòu),包括召回、粗排、精排和重排,以及谷歌、阿里巴巴等大型互聯(lián)網(wǎng)公司在4層級(jí)聯(lián)架構(gòu)中的模型設(shè)計(jì)和實(shí)現(xiàn)原理;緊接其后介紹多目標(biāo)排序在推薦系統(tǒng)中的應(yīng)用,具體介紹阿里巴巴、谷歌等大型互聯(lián)網(wǎng)公司的實(shí)踐;最后從不同角度審視推薦系統(tǒng),介紹公平性問題、知識(shí)蒸餾、冷啟動(dòng)等各種前沿實(shí)踐。本書基于一線研發(fā)人員的視角向讀者分享推薦系統(tǒng)的實(shí)踐經(jīng)驗(yàn),所有模型結(jié)構(gòu)和前沿實(shí)踐都在業(yè)務(wù)場(chǎng)景中落地。
本書適合推薦系統(tǒng)領(lǐng)域的從業(yè)者、高?蒲腥藛T、高校計(jì)算機(jī)專業(yè)學(xué)生,以及對(duì)推薦系統(tǒng)感興趣的產(chǎn)品研發(fā)人員和運(yùn)營(yíng)人員閱讀。
1.集機(jī)器學(xué)習(xí)和深度學(xué)習(xí)于一身,由360資深算法專家撰寫,讓你輕松掌握推薦系統(tǒng)的核心技術(shù)。
2.推薦系統(tǒng)技術(shù)已經(jīng)正式步入深度學(xué)習(xí)時(shí)代;谝痪研發(fā)人員的視角,系統(tǒng)介紹推薦系統(tǒng)的技術(shù)理論和實(shí)踐。
3.覆蓋推薦系統(tǒng)召回、粗排、精排和重排全鏈路,本書從多個(gè)角度審視推薦系統(tǒng)中的公平性問題、知識(shí)蒸餾、冷啟動(dòng)等前沿實(shí)踐,是推薦系統(tǒng)領(lǐng)域?qū)嵺`者不容錯(cuò)過的指南。
4.以業(yè)界實(shí)踐為基礎(chǔ),介紹推薦系統(tǒng)的核心技術(shù)。通過谷歌、阿里巴巴等大型互聯(lián)網(wǎng)公司在4層級(jí)聯(lián)架構(gòu)中的模型設(shè)計(jì)和實(shí)現(xiàn)原理,快速了解業(yè)內(nèi)主流解決方案,搭建屬于自己的實(shí)用知識(shí)體系。
文亮,奇虎360公司資深算法專家, 碩士畢業(yè)于電子科技大學(xué)信息與軟件工程學(xué)院。主要研究方向有推薦系統(tǒng)、深度學(xué)習(xí)和信息安全,曾發(fā)表5篇相關(guān)領(lǐng)域的學(xué)術(shù)論文,其中3篇被EI收錄 。他擁有超過5年的機(jī)器學(xué)習(xí)與推薦系統(tǒng)實(shí)踐經(jīng)驗(yàn),作為奇虎360推薦場(chǎng)景的核心研發(fā)人員,主導(dǎo)深度學(xué)習(xí)在奇虎360信息流推薦場(chǎng)景的落地工作。
第 1章 推薦系統(tǒng)簡(jiǎn)介 1
1.1 什么是推薦系統(tǒng) 1
1.2 推薦系統(tǒng)的作用和意義 2
1.3 推薦系統(tǒng)的技術(shù)架構(gòu) 3
1.4 推薦系統(tǒng)的召回階段 5
1.5 推薦系統(tǒng)的粗排階段 5
1.6 推薦系統(tǒng)的精排階段 5
1.7 推薦系統(tǒng)的重排階段 6
1.8 小結(jié) 6
第 2章 推薦系統(tǒng)算法基礎(chǔ) 7
2.1 LR--應(yīng)用極廣的機(jī)器學(xué)習(xí)模型 7
2.1.1 LR的數(shù)學(xué)原理 7
2.1.2 LR的訓(xùn)練方法 9
2.1.3 LR的訓(xùn)練優(yōu)化 12
2.1.4 LR的優(yōu)勢(shì)和局限性 13
2.2 MLP--極簡(jiǎn)單的深度學(xué)習(xí)模型 13
2.2.1 MLP的模型結(jié)構(gòu) 15
2.2.2 MLP的訓(xùn)練方法 16
2.2.3 MLP的優(yōu)勢(shì)和局限性 16
2.3 機(jī)器學(xué)習(xí)常用的優(yōu)化算法 17
2.3.1 隨機(jī)梯度下降法 17
2.3.2 小批量隨機(jī)梯度下降法 18
2.3.3 FTRL在線學(xué)習(xí)算法 18
2.4 深度學(xué)習(xí)常用的優(yōu)化算法 18
2.4.1 深度學(xué)習(xí)的優(yōu)化挑戰(zhàn) 18
2.4.2 AdaGrad算法 19
2.4.3 RMSProp算法 20
2.4.4 AdaDelta 算法 21
2.4.5 Adam 算法 21
2.5 深度學(xué)習(xí)常用的激活函數(shù).22
2.5.1 引入激活函數(shù)的目的 22
2.5.2 sigmoid 激活函數(shù) 23
2.5.3 ReLU 激活函數(shù) 25
2.5.4 Leaky ReLU 激活函數(shù)25
2.5.5 PReLU 激活函數(shù) 26
2.5.6 阿里巴巴的 Dice 激活函數(shù) 26
2.5.7 RReLU 激活函數(shù) 27
2.6 欠擬合和過擬合 28
2.6.1 欠擬合和過擬合的原因與解決方案 28
2.6.2 處理欠擬合的特定技術(shù) 29
2.6.3 處理過擬合的特定技術(shù) 30
2.7 深度學(xué)習(xí)中模型參數(shù)的初始化 31
2.7.1 權(quán)重和超參數(shù)的初始化 31
2.7.2 權(quán)重初始化案例-連續(xù)點(diǎn)擊概率模型 31
2.8 小結(jié) 33
第3 章 召回技術(shù)演進(jìn) 35
3.1 召回層的作用和意義 36
3.2 召回模型的演進(jìn) 37
3.3 傳統(tǒng)召回算法 38
3.3.1 基于協(xié)同過濾的召回算法 38
3.3.2 基于矩陣分解的召回算法 41
3.3.3 傳統(tǒng)召回算法小結(jié) 42
3.4 Embedding 模型化召回的基本框架 42
3.4.1 Embedding 的產(chǎn)生 43
3.4.2 Embedding 的發(fā)展 44
3.4.3 基于 Embedding 的召回框架 44
3.5 基于內(nèi)容語義的 i2i 召回 46
3.5.1 物品 Embedding 生成 46
3.5.2 Word2vec-經(jīng)典的詞向量方法 46
3.5.3 FastText-字符級(jí)別n-gram 方法 54
3.5.4 BERT-動(dòng)態(tài)詞向量方法 55
3.5.5 語言模型擴(kuò)展為序列模型 58
3.5.6 內(nèi)容語義召回小結(jié) 59
3.6 基于 Graph Embedding 的i2i 召回 60
3.6.1 DeepWalk-隨機(jī)游走圖表征 61
3.6.2 EGES-阿里巴巴的Graph Embedding 方法 61
3.6.3 Node2vec-優(yōu)化圖結(jié)構(gòu)的Graph Embedding 方法 63
3.6.4 GCN-基于譜域的圖神經(jīng)網(wǎng)絡(luò) 65
3.6.5 GraphSAGE-基于空間域的圖神經(jīng)網(wǎng)絡(luò) 68
3.6.6 Graph Embedding 小結(jié) 70
3.7 基于深度學(xué)習(xí)的 u2i 召回 70
3.7.1 DSSM-經(jīng)典的雙塔模型 70
3.7.2 YouTube 的深度學(xué)習(xí)召回算法 71
3.7.3 基于用戶長(zhǎng)短興趣的Embedding 召回 73
3.7.4 深度學(xué)習(xí) u2i 召回小結(jié) 78
3.8 小結(jié) 78
第4 章 粗排技術(shù)演進(jìn) 80
4.1 粗排的發(fā)展 81
4.2 粗排的前深度學(xué)習(xí)時(shí)代 81
4.3 粗排的深度學(xué)習(xí)時(shí)代 82
4.3.1 向量?jī)?nèi)積模型 82
4.3.2 向量版 WDL 模型--向量?jī)?nèi)積模型的改進(jìn) 83
4.4 粗排的最新進(jìn)展 84
4.4.1 阿里巴巴的粗排模型 COLD 84
4.4.2 知識(shí)蒸餾 85
4.5 粗排的未來展望 90
4.6 小結(jié)90
第5 章 精排技術(shù)演進(jìn) 91
5.1 精排模型的演化關(guān)系 92
5.2 傳統(tǒng)機(jī)器學(xué)習(xí)推薦模型 94
5.2.1 FM 模型-稀疏數(shù)據(jù)下的特征交叉94
5.2.2 FFM-特征域感知 FM 模型 97
5.2.3 GBDT+LR-Facebook 的特征交叉模型 98
5.2.4 MLR-阿里巴巴的經(jīng)典 CTR 預(yù)估模型 100
5.3 精排的深度學(xué)習(xí)時(shí)代 103
5.3.1 WDL-谷歌的經(jīng)典 CTR預(yù)估模型 103
5.3.2 DCN-深度交叉網(wǎng)絡(luò) 105
5.3.3 DCN-v2-谷歌的改進(jìn)版DCN 模型 107
5.3.4 DIN-基于注意力機(jī)制的用戶動(dòng)態(tài)興趣表達(dá) 109
5.3.5 DIEN-使用序列模型對(duì)用戶興趣建模 112
5.3.6 BST-使用 Transformer 對(duì)用戶行為序列建模 116
5.3.7 DSIN-基于會(huì)話的興趣演化模型 117
5.3.8 MIMN-多通道用戶興趣網(wǎng)絡(luò) 121
5.3.9 SIM-基于搜索的超長(zhǎng)用戶行為序列建模 126
5.3.10 CAN-特征交叉新路線 135
5.4 小結(jié) 139
第6 章 重排技術(shù)演進(jìn) 141
6.1 重排的作用 142
6.2 基于規(guī)則的多樣性重排 143
6.3 基于行列式點(diǎn)過程的重排 143
6.4 深度學(xué)習(xí)在重排中的應(yīng)用 145
6.5 強(qiáng)化學(xué)習(xí)在重排中的應(yīng)用 147
6.6 小結(jié) 149
第7 章 多目標(biāo)排序在推薦系統(tǒng)中的應(yīng)用.150
7.1 推薦系統(tǒng)的優(yōu)化目標(biāo) 151
7.2 多目標(biāo)排序模型的演化關(guān)系 152
7.3 通過樣本權(quán)重進(jìn)行多目標(biāo)優(yōu)化 154
7.4 多目標(biāo)排序模型 155
7.4.1 共享底層參數(shù)的多塔結(jié)構(gòu) 155
7.4.2 MOE-替換共享底層參數(shù)的門控網(wǎng)絡(luò) 158
7.4.3 MMOE-改進(jìn) MOE 的多門混合專家系統(tǒng) 159
7.4.4 PLE-改進(jìn) MMOE 解決“蹺蹺板”現(xiàn)象 160
7.4.5 ESMM-根據(jù)目標(biāo)依賴關(guān)系建模 167
7.4.6 ESM2-改進(jìn) ESMM 解決數(shù)據(jù)稀疏性問題 170
7.4.7 DBMTL-用貝葉斯網(wǎng)絡(luò)對(duì)目標(biāo)依賴關(guān)系建模 172
7.5 多目標(biāo)融合優(yōu)化 174
7.5.1 基于 UWL 聯(lián)合概率分布的多目標(biāo)融合 174
7.5.2 帕累托多目標(biāo)融合 176
7.6 多目標(biāo)模型訓(xùn)練方式 177
7.6.1 聯(lián)合訓(xùn)練 177
7.6.2 交替訓(xùn)練 178
7.7 小結(jié) 178
第8 章 推薦系統(tǒng)的前沿實(shí)踐 180
8.1 推薦系統(tǒng)的應(yīng)用場(chǎng)景 181
8.2 推薦系統(tǒng)的公平性問題 182
8.2.1 公平性策略-消除位置偏置和資源曝光偏置 182
8.2.2 YouTube 消除位置偏置實(shí)踐 187
8.2.3 華為消除位置偏置實(shí)踐--PAL 模型 188
8.2.4 360 消除用戶組偏差實(shí)踐--語料采樣 189
8.2.5 360 多場(chǎng)景融合實(shí)踐--偏置建模消除用戶組偏差 191
8.2.6 360 實(shí)踐--PID 建模消除資源曝光偏置 192
8.3 多場(chǎng)景融合實(shí)踐 194
8.3.1 360 多場(chǎng)景融合實(shí)踐--將場(chǎng)景信息作為特征加入模型 195
8.3.2 360 多場(chǎng)景融合實(shí)踐--多塔結(jié)構(gòu)學(xué)習(xí)各個(gè)場(chǎng)景 195
8.3.3 阿里巴巴多場(chǎng)景融合實(shí)踐--STAR 模型多場(chǎng)景融合 196
8.4 知識(shí)蒸餾在推薦系統(tǒng)中的應(yīng)用 200
8.4.1 知識(shí)蒸餾的背景 200
8.4.2 阿里巴巴廣告知識(shí)蒸餾實(shí)踐 201
8.4.3 阿里巴巴淘寶推薦知識(shí)蒸餾實(shí)踐 203
8.4.4 愛奇藝知識(shí)蒸餾實(shí)踐 205
8.5 推薦系統(tǒng)的冷啟動(dòng)問題 206
8.5.1 基于規(guī)則的冷啟動(dòng)過程 207
8.5.2 引入輔助信息優(yōu)化 Embedding冷啟動(dòng) 207
8.5.3 元學(xué)習(xí)優(yōu)化 Embedding冷啟動(dòng) 208
8.6 深度學(xué)習(xí)模型的特征選擇 216
8.6.1 基于 L2 的特征選擇 216
8.6.2 基于 SE Block 的特征選擇 216
8.7 推薦系統(tǒng)的其他問題 218
8.7.1 基于 Look-alike 解決推薦系統(tǒng)長(zhǎng)尾問題 218
8.7.2 正負(fù)樣本不平衡實(shí)踐--Focal loss 221
8.7.3 深度學(xué)習(xí)推薦系統(tǒng)的預(yù)訓(xùn)練實(shí)踐 222
8.8 小結(jié) 222