大數(shù)據(jù)相似查詢關(guān)鍵技術(shù)研究
定 價(jià):49 元
叢書(shū)名:CCF優(yōu)博叢書(shū)
- 作者:孫佶著
- 出版時(shí)間:2023/8/1
- ISBN:9787111727330
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:G254.9
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:32開(kāi)
《大數(shù)據(jù)相似查詢關(guān)鍵技術(shù)研究》由清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系博士、華為數(shù)據(jù)庫(kù)專家孫佶撰寫。全書(shū)首先介紹了相似查詢問(wèn)題的現(xiàn)實(shí)應(yīng)用和價(jià)值,以及面臨的技術(shù)挑戰(zhàn);然后提出一個(gè)相似查詢系統(tǒng),并且介紹了高效相似查詢索引、相似查詢代價(jià)估算及人在回路實(shí)體相似匹配的核心技術(shù)和創(chuàng)新思考。全書(shū)提供了豐富的實(shí)驗(yàn)數(shù)據(jù)和結(jié)果,分析了各種技術(shù)的優(yōu)劣,也為實(shí)際產(chǎn)品的技術(shù)選型提供了重要參考。
《大數(shù)據(jù)相似查詢關(guān)鍵技術(shù)研究》共五章:
第1章緒論,介紹了全書(shū)的研究背景、研究?jī)?nèi)容及主要貢獻(xiàn),并概述了全書(shū)的結(jié)構(gòu)安排。
第2章分布式內(nèi)存相似查詢系統(tǒng)Dima,介紹了分布式內(nèi)存相似查詢系統(tǒng)Dima。
第3章基于學(xué)習(xí)的相似查詢基數(shù)估計(jì),提出了一種基于學(xué)習(xí)的相似查詢技術(shù)估計(jì)技術(shù),使用這種基數(shù)可以幫助相似查詢系統(tǒng)進(jìn)行查詢執(zhí)行計(jì)劃優(yōu)化。
第4章基于相似查詢的數(shù)據(jù)融合規(guī)則生成,介紹了一種基于相似查詢的人在回路實(shí)體融合系統(tǒng)。
第5章總結(jié)與展望,總結(jié)了全書(shū)的主要研究工作,并對(duì)未來(lái)的工作做出展望。
適讀人群 :研究生、科研人員、從業(yè)者等
◆中國(guó)計(jì)算機(jī)領(lǐng)域具有重要突破或重要?jiǎng)?chuàng)新的博士研究生科研成果
◆2021年度CCF優(yōu)秀博士學(xué)位論文獎(jiǎng)
◆緊扣數(shù)據(jù)管理、信息檢索領(lǐng)域研究熱點(diǎn)
◆相似查詢方面的創(chuàng)新性研究成果
◆大數(shù)據(jù)重要應(yīng)用的核心技術(shù)
傳統(tǒng)的數(shù)據(jù)庫(kù)針對(duì)數(shù)據(jù)表的查詢條件主要包括數(shù)值范圍查詢、點(diǎn)查詢及模糊匹配查詢,但是這些查詢只能支持準(zhǔn)確查詢。相似查詢可以根據(jù)指定的相似函數(shù)(比如杰卡德相似度)查詢數(shù)據(jù)集中的數(shù)據(jù),具體包括基于閾值的查詢、TopK查詢兩種,其中每種查詢又包括相似選擇和連接兩種常見(jiàn)算子。由于相似查詢廣泛應(yīng)用于海量相似文本搜索、相似圖片搜索、結(jié)構(gòu)化實(shí)體去重和多源數(shù)據(jù)融合等領(lǐng)域,因此高效的相似查詢是最近國(guó)內(nèi)外研究的重點(diǎn)。
孫佶,華為數(shù)據(jù)庫(kù)專家,于2016年在北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院獲得工學(xué)學(xué)士學(xué)位,并于2021年在清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲得工學(xué)博士學(xué)位。主要研究方向包括基于智能技術(shù)的數(shù)據(jù)庫(kù)系統(tǒng)性能優(yōu)化(AI4Sys)、基于SQL的數(shù)據(jù)庫(kù)內(nèi)大規(guī)模數(shù)據(jù)分析(DB4AI)等。在SIGMOD、VLDB、ICDE等國(guó)際會(huì)議及IEEE TKDE等期刊上發(fā)表論文10余篇,被引500余次,申請(qǐng)專利4項(xiàng),曾獲得SIGMOD Programming Contest優(yōu)勝獎(jiǎng),北京市普通高等學(xué)校優(yōu)秀畢業(yè)生,CCF優(yōu)秀博士學(xué)位論文獎(jiǎng),清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系優(yōu)秀博士學(xué)位論文獎(jiǎng)等。
第1章 緒論
1.1 研究背景 1
1.2 標(biāo)記增強(qiáng)簡(jiǎn)介 5
1.3 研究?jī)?nèi)容 7
1.4 組織結(jié)構(gòu) 9
第2章 標(biāo)記增強(qiáng)研究進(jìn)展
2.1 引言 11
2.2 多標(biāo)記學(xué)習(xí) 14
2.2.1 學(xué)習(xí)任務(wù) 14
2.2.2 學(xué)習(xí)方法 15
2.2.3 評(píng)價(jià)指標(biāo) 22
2.3 標(biāo)記分布學(xué)習(xí) 29
2.3.1 學(xué)習(xí)任務(wù) 31
2.3.2 學(xué)習(xí)方法 33
2.3.3 評(píng)價(jià)指標(biāo) 39
2.4 標(biāo)記增強(qiáng) 40
2.4.1 基于先驗(yàn)知識(shí)的標(biāo)記增強(qiáng) 42
2.4.2 基于模糊方法的標(biāo)記增強(qiáng) 45
2.4.3 基于圖的標(biāo)記增強(qiáng) 48
第3章 標(biāo)記增強(qiáng)理論框架
3.1 引言 52
3.2 標(biāo)記分布內(nèi)在生成機(jī)制 54
3.3 標(biāo)記分布質(zhì)量評(píng)價(jià) 62
3.4 標(biāo)記增強(qiáng)對(duì)分類器泛化性能的提升 66
3.5 實(shí)驗(yàn)結(jié)果與分析 68
3.5.1 標(biāo)記分布恢復(fù)實(shí)驗(yàn) 68
3.5.2 消融實(shí)驗(yàn) 80
3.6 本章小結(jié) 85
第4章 面向標(biāo)記分布學(xué)習(xí)的標(biāo)記增強(qiáng)
4.1 引言 86
4.2 GLLE方法 87
4.2.1 優(yōu)化框架 88
4.2.2 拓?fù)淇臻g結(jié)構(gòu)的引入 89
4.2.3 標(biāo)記相關(guān)性的利用 90
4.2.4 優(yōu)化策略 92
4.3 實(shí)驗(yàn)結(jié)果與分析 94
4.3.1 標(biāo)記分布恢復(fù)實(shí)驗(yàn) 94
4.3.2 標(biāo)記分布學(xué)習(xí)實(shí)驗(yàn) 103
4.3.3 標(biāo)記相關(guān)性驗(yàn)證 107
4.4 本章小結(jié) 109
第5章 標(biāo)記增強(qiáng)在其他學(xué)習(xí)問(wèn)題上的應(yīng)用
5.1 引言 111
5.2 多標(biāo)記學(xué)習(xí) 112
5.2.1 LEMLL方法 113
5.2.2 實(shí)驗(yàn)結(jié)果與分析 118
5.3 偏標(biāo)記學(xué)習(xí) 126
5.3.1 PLLE方法 128
5.3.2 實(shí)驗(yàn)結(jié)果與分析 132
5.4 本章小結(jié) 149
第6章 總結(jié)與展望
6.1 總結(jié) 151
6.2 下一步研究的方向 153