數(shù)據(jù)倉(cāng)庫(kù)與商業(yè)智能寶典
定 價(jià):118 元
叢書(shū)名:大數(shù)據(jù)應(yīng)用與技術(shù)叢書(shū)
- 作者:(美) Ralph Kimball ... [等] 著
- 出版時(shí)間:2017/8/1
- ISBN:9787302475798
- 出 版 社:清華大學(xué)出版社
- 中圖法分類(lèi):TP311.13
- 頁(yè)碼:708
- 紙張:膠版紙
- 版次:2
- 開(kāi)本:16K
本書(shū)內(nèi)容足夠權(quán)威, 從項(xiàng)目規(guī)劃、需求收集到系統(tǒng)架構(gòu)、維度建模、ETL、BI分析等, 涵蓋數(shù)據(jù)倉(cāng)庫(kù)和BI生命周期的各個(gè)核心階段。全書(shū)共15章, 具體內(nèi)容如下: 數(shù)據(jù)倉(cāng)庫(kù)與BI概述、項(xiàng)目前期的準(zhǔn)備工作、項(xiàng)目/程序的規(guī)劃、需求定義、數(shù)據(jù)架構(gòu)、維度建模基礎(chǔ)、維度建模任務(wù)于責(zé)權(quán)劃分、事實(shí)表、維度表、維度模式與考慮事項(xiàng)、ETL與數(shù)據(jù)質(zhì)量、技術(shù)架構(gòu)上的考量、BI應(yīng)用、維護(hù)與成長(zhǎng)性分析、終極工具等。
在《數(shù)據(jù)倉(cāng)庫(kù)與商業(yè)智能寶典(第2版)成功設(shè)計(jì)、部署和維護(hù)DW/BI系統(tǒng)》中,我們以連貫的方式組織了所有這些文章。不過(guò)本書(shū)并不僅僅是過(guò)去的雜志文章和DesignTip一字不變的集合。我們已經(jīng)精簡(jiǎn)了多余的內(nèi)容,確保所有文章都以一致詞匯來(lái)編寫(xiě),并且更新了許多圖片。本書(shū)中的文章都進(jìn)行了重新編輯和改進(jìn)。一些術(shù)語(yǔ)自其被引入以來(lái)已經(jīng)發(fā)生了變化,我們已經(jīng)以追溯的方式使用被廣泛采用的當(dāng)前術(shù)語(yǔ)替換了老的術(shù)語(yǔ)。
●人造鍵現(xiàn)在被稱(chēng)為代理鍵。
●數(shù)據(jù)集市已經(jīng)被替
●數(shù)據(jù)暫存現(xiàn)在被稱(chēng)為提取、轉(zhuǎn)換和加載。
●終端用戶應(yīng)用程序已經(jīng)被商業(yè)智能應(yīng)用程序所替代。
●幫助表現(xiàn)在被稱(chēng)為橋接表。
由于大多數(shù)人都不會(huì)從頭到尾一頁(yè)不漏地閱讀本書(shū),因此我們需要事先介紹一些常用的縮寫(xiě)詞:
●DW/BI是端到端數(shù)據(jù)倉(cāng)庫(kù)/商業(yè)智能系統(tǒng)的英文縮寫(xiě)。這個(gè)縮寫(xiě)對(duì)于簡(jiǎn)約性來(lái)說(shuō)很有用,不過(guò)它也明確地將數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能鏈接為一個(gè)共存體。最后,它反映出從數(shù)據(jù)倉(cāng)庫(kù)本身作為終點(diǎn)到商業(yè)智能(BI)的重心轉(zhuǎn)換推動(dòng)我們所做的一切事情。畢竟,數(shù)據(jù)倉(cāng)庫(kù)是所有形式BI的平臺(tái)。
●本書(shū)中的許多圖片都包含DD(degeneratedimension)、FK(foreignkey)和PK(primarykey)縮寫(xiě),它們分別代表退化維度、外鍵和主鍵。
●ETL的意思是提取、轉(zhuǎn)換和加載,這是獲取數(shù)據(jù)并且讓數(shù)據(jù)準(zhǔn)備好暴露給BI工具的標(biāo)準(zhǔn)范式。
●ER(entity-relationship)指的是實(shí)體關(guān)系。我們會(huì)在探討第三范式(3NF)或者與維度數(shù)據(jù)模型相反的標(biāo)準(zhǔn)化數(shù)據(jù)模型時(shí)頻繁使用ER。
●OLAP代表在線分析處理,通常用于將在多維數(shù)據(jù)庫(kù)或多維數(shù)據(jù)集中捕獲的維度模型與被稱(chēng)為星型模式的關(guān)系型DBMS中的維度模型區(qū)分開(kāi)來(lái)。這些關(guān)系型星型模式有時(shí)也被稱(chēng)為ROLAP。
●SCD(slowlychangingdimension)是漸變維度的縮寫(xiě),指的是所確立的用于處理維度屬性變更的技術(shù)。
KimballGroup的文章和DesignTip歸檔文件一直都是我們網(wǎng)站(www.kimballgroup.com)上瀏覽量最大的;仡20年前Ralph最初于1995年發(fā)表的DBMS雜志文章,這些歸檔文件探究了超過(guò)250個(gè)主題,有時(shí)比我們的書(shū)籍或課程探究的程度還要深。
在《數(shù)據(jù)倉(cāng)庫(kù)與商業(yè)智能寶典(第2版)成功設(shè)計(jì)、部署和維護(hù)DW/BI系統(tǒng)》中,我們以連貫的方式組織了所有這些文章。不過(guò)本書(shū)并不僅僅是過(guò)去的雜志文章和DesignTip一字不變的集合。我們已經(jīng)精簡(jiǎn)了多余的內(nèi)容,確保所有文章都以一致詞匯來(lái)編寫(xiě),并且更新了許多圖片。本書(shū)中的文章都進(jìn)行了重新編輯和改進(jìn)。
經(jīng)過(guò)慎重的討論之后,我們決定更新整本書(shū)中的時(shí)間基準(zhǔn)以及內(nèi)容,以便提供2015的視角,而不是將舊日期或者過(guò)時(shí)的概念留在這些文章中。因此,2007年所寫(xiě)的文章可能會(huì)在一個(gè)示例中使用2015年這一時(shí)間!當(dāng)出現(xiàn)涉及過(guò)去多少年的文章時(shí),我們已經(jīng)將這些時(shí)間基準(zhǔn)更新為相對(duì)于2015年而言。例如,如果一篇2005年的文章最初描述“在過(guò)去5年之間”,那么該文章現(xiàn)在就會(huì)描述為“在過(guò)去15年之間”。在提及關(guān)于我們多年來(lái)的經(jīng)驗(yàn)、售出的圖書(shū)量、編寫(xiě)的文章或者教過(guò)的學(xué)生時(shí),這些也都被更新為2015年的描述。最后,我們偶爾會(huì)將像“調(diào)制解調(diào)器”這樣過(guò)時(shí)技術(shù)的引用變更為更加現(xiàn)代的技術(shù),尤其是“互聯(lián)網(wǎng)”。我們相信,這些變更不會(huì)造成誤導(dǎo)或引起混淆,相反,它們會(huì)讓本書(shū)的閱讀體驗(yàn)變得更好。
本書(shū)讀者對(duì)象和目標(biāo)
本書(shū)的主要讀者是正在交付數(shù)據(jù)倉(cāng)庫(kù)以便為商業(yè)智能提供支持的分析師、設(shè)計(jì)者、建模者或者管理者。本書(shū)中的文章描繪了DW/BI系統(tǒng)開(kāi)發(fā)的整個(gè)生命周期,從最初的業(yè)務(wù)需求收集直到最后的部署。我們相信,這一系列文章會(huì)充當(dāng)DW/BI系統(tǒng)開(kāi)發(fā)過(guò)程中出現(xiàn)的數(shù)以百計(jì)的問(wèn)題和情況具有深度的極佳參考。
這些文章的范圍涵蓋了對(duì)于高度技術(shù)性重點(diǎn)的關(guān)注,在所有情況下,這些文章的基調(diào)都力求提供咨詢(xún)。在過(guò)去的20年中,這些文章在KimballGroup網(wǎng)站上每天都會(huì)被訪問(wèn)數(shù)千次,因此我們確信它們是有用的。通過(guò)組織這些歸檔文件以及系統(tǒng)地編輯這些文章以便確保其一致性和相關(guān)性,為本書(shū)增加了重要價(jià)值。
內(nèi)容預(yù)覽
本書(shū)的內(nèi)容組織對(duì)于《數(shù)據(jù)倉(cāng)庫(kù)生命周期工具箱(第二版)》(Wiley出版社于2008年出版)的讀者來(lái)說(shuō)看起來(lái)會(huì)有些熟悉,因?yàn)槲覀兪歉鶕?jù)對(duì)應(yīng)于數(shù)據(jù)倉(cāng)庫(kù)/商業(yè)智能(DW/BI)實(shí)現(xiàn)的主要里程碑的主題來(lái)組織這些文章的。鑒于“Kimball”一詞差不多就是維度建模的代名詞,所以不足為奇的是,本書(shū)的大部分內(nèi)容都會(huì)專(zhuān)注于該主題。
●第1章:讀本概覽。我們會(huì)以Ralph幾年前為DMReview雜志所寫(xiě)的一系列文章作為本書(shū)的開(kāi)始。這一系列文章以連貫內(nèi)聚的方式簡(jiǎn)潔地封裝了Kimball方法,因此這些文章為本書(shū)提供了絕佳的概述,類(lèi)似于克利夫筆記。
●第2章:深入研究之前。Ralph文章的長(zhǎng)期讀者會(huì)發(fā)現(xiàn),該章充滿了對(duì)于舊日的記憶,因?yàn)檫@些文章中的許多內(nèi)容都具有重要?dú)v史意義。有些讓人驚訝的是,盡管這些文章中的大多數(shù)都寫(xiě)于20世紀(jì)90年代,但其內(nèi)容仍然具有相關(guān)性。
●第3章:項(xiàng)目/程序規(guī)劃。在了解了概述和歷史的經(jīng)驗(yàn)教訓(xùn)之后,第3章會(huì)繼續(xù)推進(jìn)從而啟動(dòng)DW/BI程序和項(xiàng)目。我們會(huì)思考項(xiàng)目團(tuán)隊(duì)和主辦干系人的職責(zé),然后深入研究Kimball生命周期方法。
●第4章:需求定義。要在缺乏業(yè)務(wù)需求的情況下取得DW/BI的成功是很難的。該章將為有效獲得業(yè)務(wù)需求提供具體的建議。它強(qiáng)調(diào)了圍繞業(yè)務(wù)過(guò)程來(lái)組織需求調(diào)研結(jié)果的重要性,并且提供了就恰當(dāng)?shù)暮罄m(xù)步驟達(dá)成組織共識(shí)的策略建議。
●第5章:數(shù)據(jù)架構(gòu)。切實(shí)理解了業(yè)務(wù)需求之后,我們會(huì)將注意力轉(zhuǎn)向數(shù)據(jù)(第11章同樣也會(huì)繼續(xù)關(guān)注數(shù)據(jù))。該章首先會(huì)論證維度建模的正確性。然后會(huì)描述企業(yè)數(shù)據(jù)倉(cāng)庫(kù)總線架構(gòu)、探討敏捷開(kāi)發(fā)方法以便支持?jǐn)?shù)據(jù)倉(cāng)庫(kù),為必不可少的集成和管理工作提供合理化機(jī)制,然后將Kimball架構(gòu)與企業(yè)信息工廠的中樞輻射模型作對(duì)比。
●第6章:維度建;A(chǔ)。該章將介紹維度建模的基礎(chǔ)知識(shí),首先探討事實(shí)與維度的區(qū)別,以及在數(shù)據(jù)倉(cāng)庫(kù)中向下鉆取、橫向鉆取和處理時(shí)間的核心活動(dòng)。我們還會(huì)探究大家熟悉的關(guān)于維度模型的傳言。
●第7章:維度建模任務(wù)和職責(zé)。第6章涵蓋了圍繞維度建模的根本性“內(nèi)容和原因”,專(zhuān)注于“如何、誰(shuí)和何時(shí)”。第7章描述了維度建模過(guò)程和任務(wù),以便組織起一支有效的團(tuán)隊(duì),不管是全新開(kāi)始還是重新考慮已有模型。
●第8章:事實(shí)表核心概念。第8章的主題可以被描述為“僅僅著眼于事實(shí)”。我們首先會(huì)探討事實(shí)表的粒度性和三種基本類(lèi)型,然后將我們的注意力轉(zhuǎn)向事實(shí)表鍵和退化維度。該章將以常用的事實(shí)表模式集錦作為結(jié)尾,其中包括空值、文本和稀疏填充的指標(biāo),以及非常類(lèi)似于維度屬性的事實(shí)。
●第9章:維度表核心概念。在第9章中我們會(huì)將注意力轉(zhuǎn)向維度表,從對(duì)代理鍵和無(wú)處不在的時(shí)間(或日期)維度的探討開(kāi)始。然后將探究角色扮演、雜項(xiàng)和因果性維度模式,隨后將探討對(duì)于漸變維度的全面處理,其中包括四種新的高級(jí)維度類(lèi)型。
●第10章:更多的維度模式和注意事項(xiàng)。第10章將用更豐富的維度表范圍來(lái)補(bǔ)充前一章的內(nèi)容。我們會(huì)描述星型模式和外支架,以及一節(jié)關(guān)于橋接的被大幅更新過(guò)的內(nèi)容,以便應(yīng)對(duì)多值維度屬性和不規(guī)則的多變層次結(jié)構(gòu)。我們會(huì)探討顧客維度中經(jīng)常會(huì)遇到的細(xì)微差別以及國(guó)際化問(wèn)題。該章會(huì)以一系列案例研究作為結(jié)束,其中涵蓋了保險(xiǎn)、航程和網(wǎng)絡(luò)、人力資源、金融、電子商務(wù)、文本搜索以及零售。我們鼓勵(lì)每個(gè)人都仔細(xì)研讀這些描述,因?yàn)檫@些模式和推薦做法超出了行業(yè)或應(yīng)用程序邊界。
●第11章:后臺(tái)ETL和數(shù)據(jù)質(zhì)量。在第11章中,我們要將話題切換到設(shè)計(jì)目標(biāo)維度模型以便填充它。預(yù)先警告:這是篇幅很長(zhǎng)的一章,正如根據(jù)該主題你可以預(yù)見(jiàn)到的一樣。本書(shū)在該章中提供了大量的新素材。我們首先會(huì)描述提取、轉(zhuǎn)換和加載(ETL)數(shù)據(jù)所需的34個(gè)子系統(tǒng),以及使用商業(yè)化ETL工具的優(yōu)缺點(diǎn)。基于此,我們會(huì)深入研究數(shù)據(jù)質(zhì)量的注意事項(xiàng),為構(gòu)建事實(shí)表和維度表提供具體指導(dǎo),并且探討實(shí)時(shí)ETL的影響。
●第12章:技術(shù)架構(gòu)注意事項(xiàng)。直到第12章,我們才開(kāi)始探討圍繞技術(shù)架構(gòu)的問(wèn)題,首先會(huì)介紹面向服務(wù)架構(gòu)(serverorientedarchitecture,SOA)、主數(shù)據(jù)管理(masterdatamanagement,MDM)以及打包分析。關(guān)于大數(shù)據(jù)的新的一節(jié)內(nèi)容刊載了Ralph編寫(xiě)的兩份重要白皮書(shū)。該章的最后幾節(jié)內(nèi)容會(huì)專(zhuān)注于展示服務(wù)器,其中包括聚合導(dǎo)航和在線分析處理(onlineanalyticalprocessing,OLAP)、用戶界面設(shè)計(jì)、元數(shù)據(jù)、基礎(chǔ)設(shè)施和安全性的作用。
●第13章:前臺(tái)商業(yè)智能應(yīng)用程序。在第13章中,我們開(kāi)始介紹DW/BI系統(tǒng)的前臺(tái),其中業(yè)務(wù)用戶會(huì)與數(shù)據(jù)進(jìn)行交互。我們描述了一個(gè)典型業(yè)務(wù)分析的生命周期,從歷史績(jī)效的審查開(kāi)始,但并不會(huì)止步于此。之后我們會(huì)將注意力轉(zhuǎn)向標(biāo)準(zhǔn)化BI報(bào)告,然后深入探究數(shù)據(jù)挖掘和預(yù)測(cè)式分析。該章會(huì)以探究用于業(yè)務(wù)分析的SQL限制作為結(jié)束。
●第14章:維護(hù)和發(fā)展的注意事項(xiàng)。在倒數(shù)第2章中,我們?yōu)槌晒Σ渴餌W/BI系統(tǒng)以及保持其健康以便持續(xù)取得成功提供了建議。
●第15章:最后的思考。該章總結(jié)了來(lái)自每個(gè)KimballGroup原則的關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能的最終觀點(diǎn)。這些見(jiàn)解涵蓋了我們已經(jīng)獲得的最重要的來(lái)之不易的經(jīng)驗(yàn)教訓(xùn),以及所能預(yù)見(jiàn)到的一些未來(lái)數(shù)據(jù)倉(cāng)庫(kù)可能具有的特性。
導(dǎo)航標(biāo)識(shí)
鑒于《數(shù)據(jù)倉(cāng)庫(kù)與商業(yè)智能寶典(第2版)成功設(shè)計(jì)、部署和維護(hù)DW/BI系統(tǒng)》中文章的廣度和深度,我們非常審慎地找出了20多篇文章作為“Kimball經(jīng)典”,因?yàn)樗鼈兒w了非常有效的概念,我們和行業(yè)中的許多人在過(guò)去20年中反復(fù)地引用了這些文章。這些經(jīng)典的文章使用如下特殊圖標(biāo)作為區(qū)分:
我們期望大多數(shù)人以某種隨機(jī)的順序閱讀這些文章,而不是從前到后地閱讀本書(shū)。因此,我們特別強(qiáng)調(diào)此讀本的索引,因?yàn)槲覀兤谕S多讀者會(huì)通過(guò)搜索特定技術(shù)或建模情形的索引來(lái)深入進(jìn)行探究。
術(shù)語(yǔ)說(shuō)明
引以為榮的是,Ralph確立的詞匯表如此經(jīng)久不衰并且被廣泛采用,包括維度、事實(shí)、漸變維度、代理鍵、事實(shí)表粒度、非事實(shí)型事實(shí)表以及退化維度在內(nèi)的Kimball“特征詞”,在整個(gè)行業(yè)中已經(jīng)持續(xù)使用20多年了。不過(guò)盡管我們充滿了善意,但一些術(shù)語(yǔ)自其被引入以來(lái)已經(jīng)發(fā)生了變化。我們已經(jīng)以追溯的方式使用被廣泛采用的當(dāng)前術(shù)語(yǔ)替換了老的術(shù)語(yǔ)。
●人造鍵現(xiàn)在被稱(chēng)為代理鍵。
●數(shù)據(jù)集市已經(jīng)被替換成業(yè)務(wù)過(guò)程維度模型、業(yè)務(wù)過(guò)程主題領(lǐng)域或者主題領(lǐng)域,這取決于上下文。
●數(shù)據(jù)暫存現(xiàn)在被稱(chēng)為提取、轉(zhuǎn)換和加載。
●終端用戶應(yīng)用程序已經(jīng)被商業(yè)智能應(yīng)用程序所替代。
●幫助表現(xiàn)在被稱(chēng)為橋接表。
由于大多數(shù)人都不會(huì)從頭到尾一頁(yè)不漏地閱讀本書(shū),因此我們需要事先介紹一些常用的縮寫(xiě)詞:
●DW/BI是端到端數(shù)據(jù)倉(cāng)庫(kù)/商業(yè)智能系統(tǒng)的英文縮寫(xiě)。這個(gè)縮寫(xiě)對(duì)于簡(jiǎn)約性來(lái)說(shuō)很有用,不過(guò)它也明確地將數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能鏈接為一個(gè)共存體。最后,它反映出從數(shù)據(jù)倉(cāng)庫(kù)本身作為終點(diǎn)到商業(yè)智能(BI)的重心轉(zhuǎn)換推動(dòng)我們所做的一切事情。畢竟,數(shù)據(jù)倉(cāng)庫(kù)是所有形式BI的平臺(tái)。
●本書(shū)中的許多圖片都包含DD(degeneratedimension)、FK(foreignkey)和PK(primarykey)縮寫(xiě),它們分別代表退化維度、外鍵和主鍵。
●ETL的意思是提取、轉(zhuǎn)換和加載,這是獲取數(shù)據(jù)并且讓數(shù)據(jù)準(zhǔn)備好暴露給BI工具的標(biāo)準(zhǔn)范式。
●ER(entity-relationship)指的是實(shí)體關(guān)系。我們會(huì)在探討第三范式(3NF)或者與維度數(shù)據(jù)模型相反的標(biāo)準(zhǔn)化數(shù)據(jù)模型時(shí)頻繁使用ER。
●OLAP代表在線分析處理,通常用于將在多維數(shù)據(jù)庫(kù)或多維數(shù)據(jù)集中捕獲的維度模型與被稱(chēng)為星型模式的關(guān)系型DBMS中的維度模型區(qū)分開(kāi)來(lái)。這些關(guān)系型星型模式有時(shí)也被稱(chēng)為ROLAP。
●SCD(slowlychangingdimension)是漸變維度的縮寫(xiě),指的是所確立的用于處理維度屬性變更的技術(shù)。
RalphKimball創(chuàng)立了KimballGroup。自20世紀(jì)80年代中期開(kāi)始,他就一直是DW/BI行業(yè)關(guān)于維度化方法的思想領(lǐng)袖,并且已經(jīng)培訓(xùn)了超過(guò)20000名IT專(zhuān)家。在任職于Metaphor和創(chuàng)立RedBrickSystems之前,Ralph在施樂(lè)帕克研究中心(XeroxPARC)參與創(chuàng)建了Star工作站。Ralph擁有斯坦福大學(xué)電子工程專(zhuān)業(yè)的博士學(xué)位。
MargyRoss是KimballGroup和DecisionWorksConsulting的董事長(zhǎng)。她從1982年開(kāi)始就專(zhuān)注于數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能。截止現(xiàn)在,Margy已經(jīng)為數(shù)百個(gè)客戶提供過(guò)咨詢(xún)服務(wù),并且向數(shù)萬(wàn)人講解過(guò)DW/BI的實(shí)踐。在任職于Metaphor和聯(lián)合創(chuàng)辦DecisionWorksConsulting之前,她畢業(yè)于美國(guó)西北大學(xué),并且獲得了工業(yè)工程專(zhuān)業(yè)的學(xué)士學(xué)位。