本書以手勢識別技術(shù)理論與應(yīng)用為主題,系統(tǒng)地介紹了該領(lǐng)域常用的數(shù)據(jù)集,以及基于手工特征、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種、多模態(tài)數(shù)據(jù)融合與注意力機制等實現(xiàn)的手勢識別算法。此外,本書還結(jié)合作者的開發(fā)經(jīng)驗,介紹了手勢識別在真實場景中的應(yīng)用,旨在使讀者在了解相關(guān)技術(shù)的同時提升實際應(yīng)用能力。
本書既適合從事計算機視覺和人工智能領(lǐng)域研究的技術(shù)人員閱讀,也可以作為高等院校相關(guān)專業(yè)師生的參考教材。
從人類誕生開始, 手勢作為人類的一種交流方式就已經(jīng)形成。手勢作為語言的補充,為人們的交流帶來了便利。近些年來,隨著人工智能技術(shù)的不斷發(fā)展,學(xué)術(shù)界和工業(yè)界涌現(xiàn)出一大批手勢識別算法,有效推動了該領(lǐng)域的發(fā)展。與此同時,隨著人們對人機交互友好性和便利性要求的不斷提升,手勢作為人類認(rèn)知和感受世界的最基礎(chǔ)、最自然的交互方式之一,自然也成為了未來人機交互方式的一個重要發(fā)展方向。因此,研究在真實場景中的手勢識別技術(shù)對提升人機交互技術(shù)的可用性有著重要的現(xiàn)實意義。
近二十年來,國內(nèi)外學(xué)者在人體動作/手勢識別領(lǐng)域取得了豐富的研究成果,特別是近年來深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展催生了大量實現(xiàn)方法簡單、性能優(yōu)良的算法。然而,目前系統(tǒng)介紹手勢識別技術(shù)理論和應(yīng)用的書籍非常少,這使得不少初學(xué)者難得其要,不便開展研究,同樣也不利于推動手勢識別這一領(lǐng)域整體研究的普及和發(fā)展。鑒于此,作者結(jié)合自己多年來在手勢識別技術(shù)及應(yīng)用領(lǐng)域的研究經(jīng)驗和國內(nèi)外學(xué)者的最新研究成果,編著了本書。
本書主要從基于計算機視覺的手勢識別方法入手,重點討論了現(xiàn)有的各類手勢識別技術(shù)理論及相關(guān)的研究成果。全書首先以手勢識別技術(shù)的發(fā)展歷程為線索,系統(tǒng)介紹了基于傳統(tǒng)的手工特征、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種、多模態(tài)數(shù)據(jù)融合及注意力機制的手勢識別方法;隨后結(jié)合作者在研究手勢識別及其應(yīng)用過程中的經(jīng)驗,介紹了三個基于手勢識別的人機交互案例;最后介紹了未來手勢識別問題的新的研究方向和應(yīng)用場景。
本書共9章。第1章介紹了手勢識別的基本概念及發(fā)展,包括手勢識別的概念、現(xiàn)有手勢識別方法的分類與發(fā)展情況,以及當(dāng)前手勢識別領(lǐng)域存在的主要問題;第2章著眼于手勢識別領(lǐng)域常用的數(shù)據(jù)集,從靜態(tài)和動態(tài)手勢識別這兩類問題入手,分別介紹了相關(guān)數(shù)據(jù)集,并對這些數(shù)據(jù)集的提出時間、模態(tài)類型、數(shù)據(jù)量等內(nèi)容進行了比較和分析;第3章主要關(guān)注基于傳統(tǒng)的手工特征的手勢識別方法,以手勢識別過程中的不同步驟為依據(jù),分別介紹了手部區(qū)域分割、手勢特征提取和手勢識別的不同方法;第4章從深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展談起,分別介紹了二維和三維卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),以及基于這些網(wǎng)絡(luò)實現(xiàn)手勢識別的各種方法;第5章主要介紹了基于循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種的手勢識別方法,首先說明了循環(huán)神經(jīng)網(wǎng)絡(luò)的概念與內(nèi)涵,包括循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展概述、循環(huán)神經(jīng)網(wǎng)絡(luò)的不同變種、結(jié)合外部存儲單元的記憶網(wǎng)絡(luò)等,隨后介紹了這些網(wǎng)絡(luò)模型是如何應(yīng)用于動態(tài)手勢識別任務(wù)中的;第6章主要關(guān)注基于多模態(tài)數(shù)據(jù)融合的手勢識別方法,首先介紹了深度、紅外、骨骼、 光流、顯著性等不同模態(tài)數(shù)據(jù)的特點及生成方法,隨后介紹了在手勢識別任務(wù)中不同階段實現(xiàn)多模態(tài)數(shù)據(jù)融合的方法及性能差異;第7章的重點是注意力機制在手勢識別中的應(yīng)用,首先介紹了注意力機制的概念,隨后分析了作為手勢識別前處理的注意力機制和基于不同模態(tài)互補性的注意力機制兩種將注意力機制與手勢識別相結(jié)合的方法;第8章結(jié)合作者的開發(fā)經(jīng)驗,以三個應(yīng)用案例為基礎(chǔ)介紹了將手勢識別用于人機交互的框架及技術(shù)細(xì)節(jié);第9章對手勢識別在未來人機交互中應(yīng)用的發(fā)展情況展開探討,介紹了面向人機交互的手勢識別在當(dāng)前研究中遇到的問題及未來可能的研究方向,以及手勢識別未來可以在哪些人機交互應(yīng)用中進一步發(fā)揮作用。
本書內(nèi)容系統(tǒng)、全面、新穎,理論與典型應(yīng)用實例相結(jié)合,既可以作為大學(xué)本科生和研究生的補充教材,也可以作為企業(yè)應(yīng)用手勢識別時的理論指導(dǎo)用書; 既可以作為初次接觸手勢識別技術(shù)者的入門讀物,也可以作為高級研究人員的參考書。本書的讀者對象為圖像處理、計算機應(yīng)用、模式識別等領(lǐng)域的專業(yè)人員和研究人員,以及高等院校相關(guān)專業(yè)的師生。閱讀本書需要讀者具備線性代數(shù)、微分和概率論等基礎(chǔ),并且對于人工智能和機器學(xué)習(xí)的基本知識有所了解。
全書由苗啟廣、李宇楠、劉向增和劉如意共同編寫,其中苗啟廣參與編寫了第1、8、9章,李宇楠參與編寫了第1、2、6、7、9章,劉向增參與編寫了第3、4、5章,劉如意參與編寫了第2、3、8章。本書的編寫還得到了史媛媛、陳繪州、房慧娟、梁思宇、扶小龍和苗凱彬等人的大力幫助,在此一并表示感謝。由于作者水平有限,時間倉促,書中難免會出現(xiàn)一些錯漏之處,懇請讀者批評指正。
作 者
2021年10月
第1章 手勢識別的基本概念及發(fā)展 1
1.1 手勢識別的概念 1
1.1.1 手勢的形成與其在人類社會中的作用 1
1.1.2 手勢與人機交互 3
1.2 手勢識別算法的發(fā)展情況 5
1.2.1 基于手工特征的方法 6
1.2.2 基于概率圖模型的方法 7
1.2.3 基于視覺詞袋的方法 8
1.2.4 基于神經(jīng)網(wǎng)絡(luò)的方法 8
1.3 當(dāng)前手勢識別領(lǐng)域面臨的挑戰(zhàn) 10
1.4 本章小結(jié) 11
參考文獻 11
第2章 手勢識別領(lǐng)域的常用數(shù)據(jù)集 19
2.1 靜態(tài)手勢數(shù)據(jù)集 20
2.2 動態(tài)手勢數(shù)據(jù)集 23
2.3 數(shù)據(jù)集總結(jié) 32
2.4 本章小結(jié) 35
參考文獻 35
第3章 基于手工特征的手勢識別方法 39
3.1 手部區(qū)域分割 39
3.1.1 基于邊緣信息的分割方法 39
3.1.2 基于運動分析的分割技術(shù) 41
3.1.3 基于膚色特征的分割方法 44
3.1.4 小結(jié) 45
3.2 手勢特征提取 45
3.2.1 Haarlike特征 45
3.2.2 LBP特征 49
3.2.3 SIFT特征 50
3.2.4 SURF特征 56
3.2.5 HOG特征 59
3.2.6 HOF特征 62
3.2.7 小結(jié) 63
3.3 手勢識別 63
3.3.1 模板匹配 63
3.3.2 有限狀態(tài)機 64
3.3.3 動態(tài)時間規(guī)整 68
3.4 本章小結(jié) 71
參考文獻 71
第4章 基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別方法 75
4.1 深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展概述 75
4.2 深度卷積神經(jīng)網(wǎng)絡(luò)的基本操作 76
4.2.1 卷積神經(jīng)網(wǎng)絡(luò)的特點 76
4.2.2 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu) 78
4.2.3 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程 81
4.3 二維卷積神經(jīng)網(wǎng)絡(luò)在手勢識別中的應(yīng)用 83
4.3.1 雙流網(wǎng)絡(luò) 83
4.3.2 Temporal Segment Networks 83
4.4 三維卷積神經(jīng)網(wǎng)絡(luò)的基本操作 84
4.4.1 三維卷積 85
4.4.2 三維池化 85
4.5 三維卷積神經(jīng)網(wǎng)絡(luò)在手勢識別中的應(yīng)用 86
4.5.1 C3D網(wǎng)絡(luò) 86
4.5.2 ResC3D網(wǎng)絡(luò) 88
4.5.3 TwoStream Inflated 3D ConvNet網(wǎng)絡(luò) 90
4.6 本章小結(jié) 92
參考文獻 93
第5章 基于循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種的手勢識別方法 96
5.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展概述 96
5.2 循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種 97
5.2.1 RNN的基本結(jié)構(gòu) 97
5.2.2 雙向RNN 98
5.2.3 LSTM 99
5.2.4 GRU 100
5.3 結(jié)合外部存儲單元的記憶網(wǎng)絡(luò) 102
5.3.1 記憶網(wǎng)絡(luò)框架 102
5.3.2 神經(jīng)圖靈機 103
5.4 循環(huán)神經(jīng)網(wǎng)絡(luò)在手勢識別中的應(yīng)用 106
5.4.1 RNN在手勢識別中的應(yīng)用 107
5.4.2 LSTM在手勢識別中的應(yīng)用 108
5.4.3 記憶網(wǎng)絡(luò)和LSTM相結(jié)合在手勢識別中的應(yīng)用 109
5.5 本章小結(jié) 111
參考文獻 111
第6章 基于多模態(tài)數(shù)據(jù)融合的手勢識別方法 113
6.1 多模態(tài)數(shù)據(jù)的生成 113
6.1.1 深度數(shù)據(jù) 113
6.1.2 紅外數(shù)據(jù) 115
6.1.3 骨骼數(shù)據(jù) 117
6.1.4 光流數(shù)據(jù) 121
6.1.5 顯著性數(shù)據(jù) 123
6.2 不同模態(tài)數(shù)據(jù)的融合算法 126
6.2.1 數(shù)據(jù)級融合 127
6.2.2 特征級融合 128
6.2.3 決策級融合 133
6.2.4 其他融合方法 136
6.3 本章小結(jié) 138
參考文獻 138
第7章 手勢識別與注意力機制 143
7.1 注意力機制的概念 143
7.1.1 注意力機制的研究進展 143
7.1.2 人類的視覺注意力 143
7.1.3 注意力機制在計算機視覺中的使用 144
7.2 作為手勢識別前處理的注意力機制 145
7.2.1 光照平衡 145
7.2.2 預(yù)先手部檢測 147
7.3 基于不同模態(tài)數(shù)據(jù)互補性的注意力機制 151
7.4 本章小結(jié) 155
參考文獻 156
第8章 基于手勢識別的人機交互案例 159
8.1 手勢識別案例一:無人機控制 159
8.2 手勢識別案例二:智能家居控制 165
8.3 手勢識別案例三:機器人控制 171
8.4 本章小結(jié) 175
參考文獻 175
第9章 手勢識別在未來人機交互中應(yīng)用的發(fā)展探討 177
9.1 面向人機交互的手勢識別新技術(shù) 177
9.1.1 當(dāng)前手勢識別技術(shù)面臨的問題 177
9.1.2 未來的研究方向 178
9.2 手勢識別在人機交互中的新應(yīng)用 180
9.2.1 智能駕駛 180
9.2.2 智能家居 181
9.2.3 無人機控制 182
9.2.4 機器人控制 183
9.3 本章小結(jié) 184
參考文獻 184