本書從人類個體行為的三類常見形式肢體動作、面部表情、言語話音入手,開展了個體行為的機器捕捉及識別理解的相關研究,闡述了實施行為捕捉的傳感空間、進行行為識別的理論基礎及實現(xiàn)行為識別的智能系統(tǒng)框架,提出了相關的算法策略及模型,并提供了相應的研究結果。在上述研究結果基礎上,根據(jù)對個體行為的機器識別研究結果,提出了人機決策協(xié)同的模型及框架。
本書內容涉及傳感器網(wǎng)絡、數(shù)據(jù)挖掘、模式識別、機器學習等內容,可供機器識別領域的研究者參考。
前 言
人類一直沒有停止對自身的研究和探索。通過對人體行為進行捕捉,探究人體各類動作行為背后的規(guī)律,不僅可以理解各類行為的真實意圖,而且可對人體的行為進行預測,并與相關對象進行舒適自然的交流互動,為其提供優(yōu)質的服務。如通過對服務對象聲音信號進行捕捉,控制外部的設備;或對用戶面部表情進行觀測,推測用戶的情緒狀態(tài),通過播放音樂或調節(jié)燈光等方式對其情緒進行調節(jié);或對用戶的肢體動作進行捕捉,與游戲中的角色進行互動,分析用戶的身體狀態(tài)等。
人類個體的各類行為產生都不是偶然的,是在受其意識支配下產生并完成整個過程的,并具有自發(fā)性和多變性的特點:每個人的行為都由其內在的個性動因驅使形成,外在環(huán)境因素可以影響個體行為的方向與強度,卻不能發(fā)動個體行為;個體行為不僅存在多種表現(xiàn)形式,而且會隨環(huán)境變化或個體追求目標的變化而改變;個體行為的表現(xiàn)是多類外部因素與自身狀態(tài)綜合作用下的結果。個體行為表現(xiàn)形式多樣、動因復雜,對進行人體行為的分析理解帶來了困難,但在紛繁復雜的動因和行為表現(xiàn)中,個體行為也會表現(xiàn)出一定的規(guī)律性,國內外已有許多學者嘗試對個體行為的內在規(guī)律進行探索研究,但個體行為的數(shù)據(jù)集非常龐大,且同一類個體行為對應的外部條件無法再現(xiàn),目前還沒有一套進行個體行為分析識別的成熟完整的理論體系。
雖然利用機器進行個體行為識別的工作煩瑣復雜,但仍然不能減少研究人員對個體行為識別理解的興趣。國內外已有許多學者、機構分別從肢體捕捉、語音識別、語義理解、行為建模、表情理解、習慣建模等多個方面開展個體行為的識別研究,在許多領域取得了良好的結果。例如,在語音識別領域,識別準確率已經(jīng)達到了97.5%;在肢體動作捕捉領域,基于圖像的動作捕捉方法能夠獲得100Hz的刷新率,并能實現(xiàn)對36 類肢體動作行為的準確分類。隨著越來越多的科研人員對人體行為研究感興趣,基于機器的個體行為理解相關研究一定會取得更大的發(fā)展。
綜合目前的進展和成果總結,進行個體行為研究需要完成以下工作:行為數(shù)據(jù)的傳感與采集、數(shù)據(jù)采樣后的分析處理、行為數(shù)據(jù)的特征提取與行為分類模型的選擇。本書根據(jù)作者自身理解,結合已經(jīng)完成的研究經(jīng)歷,對進行個體行為識別研究涉及的傳感方法、理論基礎、軟件框架進行闡述。
個體行為的表現(xiàn)形式主要歸結于以下幾類:肢體動作、聲音語言、面部表情等,而在上述幾類行為中又包含了個體的行為習慣、內在情感等因素,前者是個體行為的外在表現(xiàn),后者則是個體行為的驅動因素。一般地,在個體行為的識別理解過程中,需要通過相關的傳感測量裝置,對個體的語音信號、肢體動作、面部表情等進行測量捕捉,獲得個體行為過程的大量原始數(shù)據(jù),然后,選擇相關的樣本特征和分析模型,獲得對個體行為的內在因素及行為意圖的準確理解。
陳鵬展,博士,副教授,2010年畢業(yè)于華中科技大學,主要研究方向為人體行為識別與協(xié)同控制、復雜網(wǎng)絡集成及智能輔助駕駛,先后主持完成了多項國家級、省部級課題,多項研究成果被轉化并得到廣泛應用,在國內外相關學術期刊上發(fā)表50余篇學術論文,其中已有10余篇被SCI、EI檢索。
目 錄
第1 章 緒論
1.1 個體行為的定義及特征
1.1.1 行為的表現(xiàn)形式
1.1.2 行為的時空特性
1.1.3 行為的層次結構
1.2 個體行為的影響因素
1.2.1 環(huán)境因素
1.2.2 習慣因素
1.2.3 生理狀態(tài)
1.3 人體行為的分類
1.3.1 肢體行為分類
1.3.2 情緒狀態(tài)分類
1.4 行為識別的研究意義與進展
1.4.1 行為識別的應用領域
1.4.2 行為識別的科學價值
1.4.3 行為識別的研究進展
參考文獻
第2 章 個體行為的獲取與監(jiān)測
2.1 視覺獲取方法
2.1.1 有標記視覺獲取
2.1.2 無標記視覺獲取
2.2 可穿戴傳感器獲取
2.2.1 生物傳感器獲取
2.2.2 慣性傳感器獲取
2.3 非穿戴監(jiān)測方法
2.3.1 聲音信號監(jiān)測
2.3.2 電容場信號監(jiān)測
2.3.3 電子標簽監(jiān)測
2.4 行為獲取系統(tǒng)框架
參考文獻
第3 章 行為識別的理論依據(jù)
3.1 行為數(shù)據(jù)的處理
3.1.1 數(shù)據(jù)濾波
3.1.2 數(shù)據(jù)分割
3.2 行為數(shù)據(jù)的特征選擇及提取
3.2.1 主分量分析
3.2.2 獨立分量選擇
3.2.3 核函數(shù)的方法
3.2.4 特征選擇算法
3.3 行為的分類工具
3.3.2 決策樹
3.3.3 卷積神經(jīng)網(wǎng)絡
3.3.4 支持向量機
3.4 識別過程中的信息融合
3.4.1 多數(shù)投票法
3.4.2 貝葉斯理論的分類器融合
3.4.3 基于證據(jù)理論的分類器融合
參考文獻
第4 章 行為識別系統(tǒng)的系統(tǒng)平臺
4.1 行為識別系統(tǒng)的結構
4.2 行為識別系統(tǒng)中的任務分配
4.2.1 視頻讀取與預處理的實現(xiàn)
4.2.2 行為識別系統(tǒng)訓練過程的實現(xiàn)
4.2.3 行為識別系統(tǒng)特征可視化的實現(xiàn)
4.2.4 行為識別系統(tǒng)識別過程的實現(xiàn)
4.3 行為識別的軟件環(huán)境
4.3.1 計算機視覺庫OpenCV
4.3.2 跨平臺用戶界面框架QT
4.3.3 行為識別系統(tǒng)軟件框架
4.4 行為識別系統(tǒng)的系統(tǒng)平臺
4.4.1 微軟Azure machine learning 平臺
4.4.2 谷歌TensorFlow 平臺
參考文獻
第5 章 語言識別及情感分析
5.1 語言中的文字識別
5.1.1 語音信號預處理
5.1.2 語音識別的特征提取
5.1.3 文字識別模型及系統(tǒng)
5.2 基于語言文本的情感識別
5.2.1 文本數(shù)據(jù)信息抽取
5.2.2 文本內容的分類與聚類
5.3 基于語音信號的情感識別
5.3.1 基于改進KNN 算法的語音情感識別
5.3.2 基于微軟Azure 平臺的語音情感識別
參考文獻
第6 章 肢體動作捕捉及行為識別
6.1 手勢捕捉及識別
6.1.1 手勢捕捉的特點
6.1.2 基于視覺的手勢識別
6.1.3 基于慣性傳感的手勢捕捉
6.2 肢體動作捕捉
6.2.1 基于視覺的肢體動作捕捉
6.2.2 基于慣性傳感的肢體動作捕捉
6.3 肢體行為的行為識別
6.3.1 手語識別
6.3.2 肢體動作行為識別
參考文獻
第7 章 面部特征識別與表情理解
7.1 面部的精確定位
7.1.1 膚色混合高斯模型
7.1.2 光線補償
7.1.3 膚色區(qū)域檢測
7.1.4 肌肉紋理
7.1.5 嘴唇定位
7.1.6 眉毛檢測
7.2 面部圖像濾波及歸一化
7.2.1 面部圖像濾波
7.2.2 面部圖像歸一化
7.3 面部表情的疲勞狀態(tài)檢測
7.3.1 疲勞狀態(tài)面部特征
7.3.2 疲勞程度判斷
7.3.3 基于粗糙集理論的疲勞狀態(tài)判斷
7.4 面部表情的情感理解
7.4.1 面部情感類別及標準庫
7.4.2 融合LBP 及LPQ 特征的面部情感識別
參考文獻
第8 章 基于個體行為理解的人機協(xié)同系統(tǒng)
8.1 人機協(xié)同的基本概念
8.1.1 人機協(xié)同的定義
8.1.2 人機協(xié)同的問題
8.1.3 研究現(xiàn)狀與發(fā)展趨勢
8.2 個體行為的習慣建模
8.2.1 行為習慣認知及意義
8.2.2 個體行為習慣挖掘的相關工作
8.2.3 個體行為習慣模式
8.2.4 基于個體行為習慣的人類動力學建模
8.3 人機協(xié)同決策與推理機制
8.3.1 推理的基礎知識
8.3.2 人機推理對比
8.3.3 人機協(xié)同系統(tǒng)的結構特征與推理機制
8.4 人本控制系統(tǒng)架構
8.5 人機協(xié)同系統(tǒng)案例
8.5.1 沃森簡介
8.5.2 沃森的工作機制
8.5.3 沃森醫(yī)生腫瘤專家顧問專家系統(tǒng)
8.5.4 沃森醫(yī)生與人類醫(yī)生共同協(xié)作
參考文獻