本書為普通高等教育“十一五”國家級規(guī)劃教材。本書系統(tǒng)地介紹了多媒體計算機技術的基本原理和多媒體計算機系統(tǒng)的組成,詳述了數(shù)字聲音、圖像和視頻處理中的關鍵技術;簡要介紹了多媒體數(shù)據(jù)的采集與編輯、多媒體文檔的組織與設計、多媒體數(shù)據(jù)存儲與管理、多媒體計算機網(wǎng)絡及多媒體數(shù)據(jù)安全涉及的關鍵技術。在此基礎上,本書對多媒體技術的一些典型應用——數(shù)據(jù)可視化與信息可視化、指紋識別、人臉識別、唇語識別、視頻監(jiān)控與目標跟蹤相關技術以及多媒體即時通信系統(tǒng)等進行了扼要介紹。本書還結合即時通信系統(tǒng)的設計案例以附錄形式給出了一個綜合應用課程設計。本書既可作為高等院校相關課程的教材,也可供從事多媒體應用研究與開發(fā)的工程技術人員參考。
魯宏偉,華中科技大學計算機學院教授,工學博士,主持與某研究院合作項目5項、校教學改革項目1項、其他各類橫向項目10余項。
目 錄
第1章 多媒體計算機技術概述 1
1.1 多媒體計算機技術的基本概念 1
1.1.1 媒體 1
1.1.2 多媒體 2
1.2 多媒體計算機技術的發(fā)展歷史 4
1.3 多媒體計算機技術 5
1.3.1 多媒體的軟件和硬件平臺 6
1.3.2 高速處理器 6
1.3.3 數(shù)據(jù)壓縮及編碼技術 7
1.3.4 多媒體同步 8
1.3.5 多媒體計算機網(wǎng)絡與分布式處理技術 9
1.3.6 信息的組織與管理 9
1.3.7 多媒體數(shù)據(jù)存儲 10
1.3.8 虛擬現(xiàn)實和增強現(xiàn)實技術 10
1.3.9 人機界面設計 12
1.3.10 高速多媒體通信技術 13
1.4 多媒體計算機技術的應用 13
1.5 多媒體計算機技術的發(fā)展趨勢 15
思考與練習1 16
第2章 多媒體計算機系統(tǒng)的組成 17
2.1 概述 17
2.2 計算機I/O接口 18
2.2.1 計算機I/O的變遷史 18
2.2.2 USB接口發(fā)展史 19
2.2.3 顯示器接口 20
2.3 常用I/O設備 22
2.3.1 輸入設備 22
2.3.2 輸出設備 24
2.4 數(shù)字音頻/視頻設備 30
2.4.1 聲卡 31
2.4.2 顯卡 33
2.4.3 視頻采集卡 36
2.4.4 數(shù)碼產(chǎn)品 36
2.5 存儲設備和存儲技術 40
2.5.1 存儲設備 40
2.5.2 存儲技術 43
思考與練習2 45
第3章 圖形、圖像處理技術及其應用 46
3.1 信號處理的基本術語 46
3.1.1 采樣和量化 47
3.1.2 采樣長度的選擇與頻率分辨率 48
3.1.3 離散傅里葉變換 48
3.1.4 小波變換 49
3.2 圖像數(shù)據(jù)壓縮基礎 51
3.2.1 色彩的基本概念 51
3.2.2 彩色空間及其變換 53
3.2.3 圖像數(shù)據(jù)壓縮的可能性 55
3.3 圖像數(shù)據(jù)壓縮算法 56
3.3.1 信息熵編碼 57
3.3.2 詞典編碼 60
3.3.3 預測編碼 61
3.3.4 變換編碼 62
3.3.5 模型編碼 63
3.4 常用圖形、圖像文件 63
3.4.1 BMP文件格式 64
3.4.2 GIF文件格式 68
3.4.3 PNG文件格式 69
3.4.4 JPEG文件格式 70
3.5 二維碼編碼原理及其應用 73
3.5.1 QR碼的基本結構 73
3.5.2 QR碼的編碼過程 74
3.5.3 二維碼應用 75
3.6 動態(tài)圖像壓縮技術和標準 76
3.6.1 MPEG標準概述 76
3.6.2 MPEG-1標準 77
3.6.3 MPEG-2標準 80
3.6.4 MPEG-4標準 82
3.6.5 MPEG-7標準 84
3.7 H.26x標準 85
3.7.1 H.261標準 86
3.7.2 H.263標準 86
3.7.3 H.264標準 88
3.7.4 H.265標準 91
3.8 AVS標準 92
3.8.1 AVS與H.264比較 93
3.8.2 AVS2的特點 94
3.9 Theora和WebM簡介 96
思考與練習3 97
第4章 音頻信號及其處理 98
4.1 音頻編碼基礎 98
4.1.1 音頻信號的特點 98
4.1.2 音頻信號處理的方法 100
4.1.3 音頻文件的存儲格式 101
4.1.4 音頻質(zhì)量的度量 102
4.2 音頻信號壓縮技術 103
4.2.1 脈沖編碼調(diào)制 105
4.2.2 增量調(diào)制 106
4.2.3 DSD編碼 107
4.2.4 自適應脈沖編碼調(diào)制 108
4.2.5 差分脈沖編碼調(diào)制 109
4.2.6 自適應差分脈沖編碼調(diào)制 109
4.2.7 子帶編碼 109
4.3 音頻編碼標準 110
4.3.1 CCITT G系列音頻壓縮標準 110
4.3.2 MP3壓縮標準 112
4.3.3 AAC編碼 112
4.3.4 Ogg Vobis 113
4.3.5 移動平臺常用的音頻編碼 114
4.4 語音合成技術及應用 117
4.4.1 語音合成的基本方法 117
4.4.2 語音合成的三個層次 119
4.4.3 語音合成技術的應用 119
4.5 語音識別技術的發(fā)展及應用 120
4.5.1 語音識別的發(fā)展歷史 120
4.5.2 語音識別技術 121
4.5.3 語音識別系統(tǒng)的類型 123
4.6 聲紋識別技術及其應用 126
思考與練習4 127
第5章 多媒體數(shù)據(jù)采集與編輯 129
5.1 多媒體數(shù)據(jù)采集 129
5.1.1 Windows環(huán)境下聲音數(shù)據(jù)的采集 129
5.1.2 Windows環(huán)境下視頻數(shù)據(jù)的采集 132
5.2 Microsoft DirectX 135
5.2.1 DirectX的特性 136
5.2.2 Microsoft DirectSound簡介 139
5.2.3 Microsoft DirectShow簡介 141
5.2.4 DirectShow應用程序的開發(fā) 144
5.2.5 DirectShow應用示例 145
5.3 多媒體創(chuàng)作工具 147
5.3.1 多媒體創(chuàng)作工具的分類 147
5.3.2 音頻處理軟件 147
5.3.3 圖形、圖像及動畫制作與編輯軟件 148
5.3.4 網(wǎng)絡音頻、視頻文件制作 150
5.4 圖像特效 150
5.4.1 圖像特效的常用手法 151
5.4.2 圖像特效的技術手段 152
5.4.3 圖像特效在人臉美化中的應用 157
5.5 多媒體應用軟件 158
5.6 多媒體播放器 159
思考與練習5 160
第6章 多媒體文檔的組織與設計 161
6.1 超文本和超媒體 161
6.1.1 超文本概述 161
6.1.2 超文本系統(tǒng)的基本特征 162
6.2 HTML簡介 165
6.2.1 HTML的發(fā)展歷史 165
6.2.2 HTML文件結構 166
6.2.3 HTML的標簽和屬性 167
6.2.4 超鏈接 167
6.2.5 HTML的多媒體實現(xiàn) 169
6.3 HTML5 171
6.3.1 HTML5的主要特性 171
6.3.2 HTML5在移動開發(fā)中的應用 175
6.4 XML簡介 176
6.4.1 XML的特點 177
6.4.2 XML與HTML的區(qū)別 177
6.5 SMIL及其應用示例 178
6.5.1 SMIL簡介 178
6.5.2 SMIL的基本語法規(guī)則 178
6.5.3 SMIL應用設計 179
6.5.4 SMIL應用示例 183
6.6 設計超文本的工具 184
6.6.1 JavaScript 184
6.6.2 動態(tài)網(wǎng)頁設計 190
6.6.3 Ajax技術 191
6.6.4 SVG 192
6.6.5 Web 2.0和Web 3.0 192
思考與練習6 194
第7章 多媒體數(shù)據(jù)存儲與管理 195
7.1 多媒體數(shù)據(jù)的特點 195
7.2 多媒體數(shù)據(jù)的管理 196
7.2.1 多媒體數(shù)據(jù)模型 196
7.2.2 多媒體數(shù)據(jù)庫體系結構 198
7.3 多媒體數(shù)據(jù)檢索與查詢 200
7.3.1 查詢方法 200
7.3.2 萬維網(wǎng)文檔的檢索技術 201
7.3.3 基于內(nèi)容的多媒體數(shù)據(jù)檢索 203
7.4 結構化查詢語言SQL 210
7.4.1 SQL簡介 210
7.4.2 SQL的數(shù)據(jù)類型 211
7.4.3 SQL的基本語法 214
7.4.4 多媒體數(shù)據(jù)保存與獲取示例 216
7.5 多媒體數(shù)據(jù)挖掘 218
7.5.1 數(shù)據(jù)挖掘的概念 218
7.5.2 Web挖掘 219
7.5.3 多媒體數(shù)據(jù)挖掘 219
思考與練習7 221
第8章 多媒體計算機網(wǎng)絡 222
8.1 多媒體網(wǎng)絡通信技術 222
8.1.1 三大定律和互聯(lián)網(wǎng)的特性 222
8.1.2 多媒體通信網(wǎng)絡的基本結構和特點 223
8.1.3 計算機網(wǎng)絡概述 224
8.1.4 網(wǎng)絡接入技術 226
8.1.5 短距離無線通信技術 229
8.1.6 移動通信技術及標準 233
8.2 分布式多媒體計算機系統(tǒng) 240
8.2.1 分布式多媒體計算機系統(tǒng)的基本特征 240
8.2.2 分布式多媒體計算機系統(tǒng)服務模型 241
8.2.3 分布式多媒體系統(tǒng)的層次結構 242
8.2.4 網(wǎng)格 243
8.2.5 云計算 244
8.3 P2P網(wǎng)絡 246
8.3.1 P2P技術體系結構與分類 246
8.3.2 P2P網(wǎng)絡的特點 248
8.3.3 P2P技術的應用 248
8.4 無線多媒體傳感器網(wǎng)絡 250
8.4.1 無線傳感器網(wǎng)絡的特點 251
8.4.2 無線傳感器網(wǎng)絡的結構 252
8.4.3 無線傳感器網(wǎng)絡的設計 252
8.4.4 無線多媒體傳感器網(wǎng)絡 253
8.5 物聯(lián)網(wǎng) 254
8.6 流媒體傳輸協(xié)議 257
8.6.1 RTP/RTCP 257
8.6.2 RSVP 259
8.6.3 RTSP 260
思考與練習8 261
第9章 多媒體數(shù)據(jù)安全 262
9.1 多媒體數(shù)據(jù)安全的主要內(nèi)容 262
9.2 基于多媒體數(shù)據(jù)的信息隱藏 263
9.2.1 基于圖像的信息隱藏 264
9.2.2 基于音頻的信息隱藏 266
9.2.3 基于視頻的信息隱藏 269
9.3 多媒體內(nèi)容安全 271
9.3.1 語音數(shù)據(jù)加密 272
9.3.2 視頻數(shù)據(jù)加密 273
9.3.3 VoIP媒體流安全通信 274
9.4 音/視頻版權保護 278
9.4.1 數(shù)字版權管理技術現(xiàn)狀 279
9.4.2 基于設備的密鑰綁定版權保護方法 280
9.5 家庭數(shù)字影院版權保護 282
9.5.1 家庭數(shù)字影院發(fā)行版制版安全機制 282
9.5.2 家庭數(shù)字影院節(jié)目內(nèi)容的授權訪問機制 282
9.5.3 家庭數(shù)字影院放映終端的安全播放機制 283
思考與練習9 284
第10章 多媒體應用 285
10.1 數(shù)據(jù)可視化與信息可視化 285
10.1.1 可視化概述 285
10.1.2 數(shù)據(jù)可視化的圖表類型 286
10.1.3 信息可視化 288
10.1.4 數(shù)據(jù)新聞 289
10.2 圖像識別及其應用 292
10.2.1 圖像識別過程 292
10.2.2 指紋識別 294
10.2.3 人臉識別 297
10.2.4 唇語識別 301
10.3 視頻監(jiān)控與目標跟蹤 303
10.3.1 視頻監(jiān)控系統(tǒng)的原理 303
10.3.2 視頻監(jiān)控系統(tǒng)的發(fā)展方向 304
10.3.3 視頻目標檢測與跟蹤 305
10.3.4 視頻監(jiān)控在平安城市中的應用 306
10.4 即時通信系統(tǒng) 307
10.4.1 即時通信系統(tǒng)的設計要求 307
10.4.2 即時通信的標準 308
10.4.3 即時通信的基本流程 309
10.4.4 即時通信系統(tǒng)的結構 309
10.4.5 Skype系統(tǒng)簡介 310
思考與練習10 311
第11章 多媒體應用系統(tǒng)設計案例 312
11.1 基于Python的數(shù)據(jù)可視化 312
11.1.1 實例一的運行環(huán)境 312
11.1.2 分析方法與過程 313
11.1.3 實例一小結 320
11.2 基于騰訊優(yōu)圖的人工智能應用 320
11.2.1 實例二的運行環(huán)境 320
11.2.2 使用騰訊優(yōu)圖API的過程 320
11.2.3 實例二小結 325
11.3 基于百度AI的人臉檢測微信小程序 325
11.3.1 注冊小程序賬號 325
11.3.2 安裝并運行小程序開發(fā)平臺 325
11.3.3 人臉檢測微信小程序設計 327
11.3.4 實例三小結 333
11.4 智能嬰兒床系統(tǒng)設計 333
11.4.1 設計背景 333
11.4.2 設計過程 333
11.4.3 功能需求 334
11.4.4 所用硬件設備 334
11.4.5 系統(tǒng)開發(fā)環(huán)境 335
11.4.6 系統(tǒng)設計 335
11.4.7 實例四小結 347
11.5 基于人臉識別的智能儲物柜設計 347
11.5.1 OpenCV與人臉識別 347
11.5.2 總體架構 348
11.5.3 開發(fā)平臺 349
11.5.4 儲物柜數(shù)據(jù)結構設計 349
11.5.5 人臉樣本庫設計 350
11.5.6 存柜功能模塊設計 350
11.5.7 界面設計 353
11.5.8 實例五小結 354
11.6 籃球投籃訓練輔助系統(tǒng)設計 354
11.6.1 設計目標 354
11.6.2 處理流程 355
11.6.3 實例六小結 363
11.7 基于Maya的顯示器模型設計 363
11.7.1 模型設計 363
11.7.2 實例七小結 371
附錄A 課程設計 372
A.1 設計內(nèi)容 372
A.2 設計提示 372
參考文獻 374