缺失數(shù)據(jù)的多重插補(bǔ):應(yīng)用案例與軟件操作
定 價(jià):38 元
叢書(shū)名:萬(wàn)卷方法/社會(huì)科學(xué)研究方法·前沿與應(yīng)用叢書(shū)
- 作者:嚴(yán)潔 著
- 出版時(shí)間:2017/2/1
- ISBN:9787562496359
- 出 版 社:重慶大學(xué)出版社
- 中圖法分類(lèi):H31
- 頁(yè)碼:300
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:32開(kāi)
簡(jiǎn)單地說(shuō),多重插補(bǔ)就是給每個(gè)缺失單元插補(bǔ)上多個(gè)值。主要包括插補(bǔ)、分析、綜合三大步驟。對(duì)于多重插補(bǔ),通常會(huì)有如下一系列疑問(wèn):
1.一個(gè)缺失的單元為什么可以給出多個(gè)插補(bǔ)值?
2.這些插補(bǔ)值是怎么計(jì)算來(lái)的?
3.既然要插補(bǔ)多個(gè)值,那么需要插補(bǔ)多少個(gè)比較合適?
4.插補(bǔ)后的數(shù)據(jù)集該怎么用?
5.什么情況下可以用多重插補(bǔ)?
6.怎樣借助統(tǒng)計(jì)軟件來(lái)做多重插補(bǔ)?
《缺失數(shù)據(jù)的多重插補(bǔ):應(yīng)用案例與軟件操作》這本書(shū)的主要目的就在于借助實(shí)例來(lái)解答這些問(wèn)題。本書(shū)包括三個(gè)部分,在第一部分主要介紹多重插補(bǔ)的基本原理和方法、步驟;第二部分則借助4篇精心挑選出來(lái)的文章,通過(guò)對(duì)文章的評(píng)析來(lái)進(jìn)一步解答有關(guān)多重插補(bǔ)方法的細(xì)節(jié)問(wèn)題和相應(yīng)的注意事項(xiàng);第三部分則講解和示例如何用SPSS、STATA這兩種統(tǒng)計(jì)軟件來(lái)實(shí)現(xiàn)多重插補(bǔ)。
近些年來(lái),越來(lái)越多的社會(huì)科學(xué)領(lǐng)域?qū)W者應(yīng)用社會(huì)調(diào)查的方法來(lái)探討中國(guó)政治、經(jīng)濟(jì)、社會(huì)發(fā)展過(guò)程中的理論和實(shí)踐問(wèn)題。但是在社會(huì)調(diào)查的數(shù)據(jù)采集過(guò)程中,由于各種原因而無(wú)法獲得某個(gè)樣本的任何一項(xiàng)回答或者無(wú)法獲得樣本對(duì)某個(gè)或某些個(gè)問(wèn)題的回答的情況越來(lái)越多,前者稱為單元無(wú)回答/單元無(wú)應(yīng)答,后者稱為項(xiàng)目無(wú)回答/題目無(wú)應(yīng)答。由無(wú)回答引起的數(shù)據(jù)缺失對(duì)于后期的數(shù)據(jù)分析造成很大的影響,為此,在使用統(tǒng)計(jì)分析方法進(jìn)行描述和推斷之前,需要考慮缺失值的處理問(wèn)題。
對(duì)于缺失值的處理有多種方法,其中多重插補(bǔ)(multiple imputation)是近些年來(lái)廣泛接受的一種方法。
嚴(yán)潔(女),北京大學(xué)政府管理學(xué)院副教授,政治學(xué)定量研究方向博士生導(dǎo)師。主要從事社會(huì)科學(xué)定量研究方法研究。兼任北京大學(xué)中國(guó)國(guó)情研究中心副主任、北京大學(xué)中國(guó)社會(huì)科學(xué)調(diào)查中心執(zhí)行團(tuán)隊(duì)負(fù)責(zé)人。自1995年以來(lái)設(shè)計(jì)并組織實(shí)施了近百項(xiàng)大規(guī)模抽樣調(diào)查。作為主要執(zhí)行者參與了4波《世界價(jià)值觀調(diào)查-中國(guó)》,4波《中國(guó)家庭追蹤調(diào)查》,2波《世界精神健康調(diào)查-中國(guó)》等世界知名大型抽樣調(diào)查。與沈明明教授、PierreF.Landry教授共同創(chuàng)立了“GPS輔助區(qū)域抽樣方法”。在《社會(huì)學(xué)研究》、《社會(huì)》等核心刊物上發(fā)表多篇文章。曾主持國(guó)家自然科學(xué)基金項(xiàng)目“并行數(shù)據(jù)與數(shù)據(jù)質(zhì)量管理”,并作為主要參與者參與了多項(xiàng)國(guó)家社科基金項(xiàng)目。
導(dǎo)言 社會(huì)調(diào)查、無(wú)回答與缺失數(shù)據(jù)
第1章 刪除法和單一插補(bǔ)法
1.1刪除法
1.1.1 列表刪除
1.1.2 成對(duì)刪除
1.2單一插補(bǔ)法
1.2.1 均值插補(bǔ)
1.2.2回歸插補(bǔ)
1.2.3 熱平臺(tái)插補(bǔ)
1.2.4 冷平臺(tái)插補(bǔ)
1.2.5 LOCF與BOCF法
第2章 多重插補(bǔ)法概述
2.1多重插補(bǔ)的基本原理
2.1.1 什么是多重插補(bǔ)?
2.1.2 為什么一個(gè)缺失單元可以有多個(gè)插補(bǔ)值?
2.1.3 缺失類(lèi)型
2.1.4 多重插補(bǔ)的方法
2.1.5 進(jìn)行多少次插補(bǔ)才有效?
2.1.6 多個(gè)插補(bǔ)值怎樣使用?
2.1.7 什么情況下用多重插補(bǔ)?
2.2 多重插補(bǔ)的發(fā)展簡(jiǎn)史
2.2.1 起始階段(1977-1987年)
2.2.2 第二階段(1988-1997年)
2.2.3 第三階段(1998年至今)
第3章 多重插補(bǔ)的方法、步驟
3.1準(zhǔn)備插補(bǔ)變量
3.1.1初步設(shè)定分析模型
3.1.2初選插補(bǔ)模型的變量
3.2檢驗(yàn)和確定插補(bǔ)模型
3.2.1選擇插補(bǔ)方法
3.2.2變量轉(zhuǎn)換
3.2.3多重共線性診斷
3.2.4確定插補(bǔ)次數(shù)
3.2.5執(zhí)行多重插補(bǔ),并診斷插補(bǔ)模型
3.3 多重插補(bǔ)后的統(tǒng)計(jì)分析
3.3.1 插補(bǔ)后進(jìn)行簡(jiǎn)單隨機(jī)抽樣下的統(tǒng)計(jì)分析
3.3.2 插補(bǔ)后進(jìn)行復(fù)雜抽樣下的統(tǒng)計(jì)分析
3.4 小結(jié)
第4章 應(yīng)用案例分析
4.1政治學(xué)應(yīng)用案例
4.2教育學(xué)應(yīng)用案例
4.3經(jīng)濟(jì)學(xué)應(yīng)用案例
4.4管理學(xué)應(yīng)用案例
第5章 使用SPSS、STATA軟件做多重插補(bǔ)
5.1使用SPSS軟件做多重插補(bǔ)
5.2使用STATA軟件做多重插補(bǔ)
5.2.1 多重插補(bǔ)前的準(zhǔn)備工作
5.2.2 多重插補(bǔ)
5.2.3 多重插補(bǔ)后的統(tǒng)計(jì)分析
5.3 SPSS、STATA、SAS、R軟件做多重插補(bǔ)的異同
參考文獻(xiàn)
1.什么是無(wú)回答
無(wú)回答是指在數(shù)據(jù)采集過(guò)程中,由于各種原因而無(wú)法獲得某個(gè)樣本的任何一項(xiàng)回答或者無(wú)法獲得樣本對(duì)某個(gè)或某些個(gè)問(wèn)題的回答的情況,前者稱為單元無(wú)回答(unit nonresponse),后者稱為項(xiàng)目無(wú)回答(item nonresponse)。
單元無(wú)回答包括“無(wú)法接觸到樣本單位(no contact)”,“拒訪(refusal)”,“無(wú)能力回答(incapacity)”等幾種情況。根據(jù)美國(guó)“民意調(diào)查研究協(xié)會(huì)(The American Association for Public Opinion Research)”確定的電話調(diào)查、入戶調(diào)查、郵寄問(wèn)卷調(diào)查回答率的計(jì)算標(biāo)準(zhǔn)中的相關(guān)定義(APPOR,2011):“無(wú)法接觸到樣本”包括這樣一些情況:(a)不能進(jìn)入這個(gè)建筑物;(b)住戶內(nèi)沒(méi)有人;(c)受訪人不在或者找不到。判斷一個(gè)樣本是否屬于“無(wú)法接觸到樣本”,研究者必須確定樣本單位是一個(gè)非空的、有符合資格的受訪人居住的、并且沒(méi)有接觸到的住戶成員是可完成的這三個(gè)必要條件。“拒訪”包括住戶單位或者住戶內(nèi)的成員拒絕訪問(wèn)的情況,有時(shí)也包括采訪中斷的情況!盁o(wú)能力回答”則包括受訪人盡管符合被采訪的資格,而且他/她也愿意接受訪問(wèn),但是由于語(yǔ)言或者身體、精神不適等原因沒(méi)有能力完成訪問(wèn)的情況。
以上這幾種情況占單元無(wú)回答總數(shù)的比例因調(diào)查內(nèi)容和調(diào)查方式而不同。概率抽樣調(diào)查相對(duì)于非概率抽樣調(diào)查會(huì)遇到較多的單元無(wú)回答的情況。在多數(shù)概率抽樣調(diào)查中,“無(wú)能力回答”(例如:身體、語(yǔ)言障礙,不識(shí)字等)的情況相對(duì)較少,“無(wú)法接觸到樣本單位”的情況較多。近些年,在中國(guó)城市范圍內(nèi),如果進(jìn)行以個(gè)人為樣本單位的概率抽樣調(diào)查,并且以居民的戶籍資料為抽樣框的話,那么“無(wú)法接觸到樣本單位”的比例會(huì)比較高,主要原因在于中國(guó)社會(huì)中處于流動(dòng)中的人群正在擴(kuò)大,人戶分離的情況越來(lái)越多。這些人多數(shù)人因無(wú)法聯(lián)系上而成為單元無(wú)回答的樣本。“拒訪”的比例受調(diào)查方式(例如:入戶調(diào)查和電話調(diào)查)、問(wèn)卷內(nèi)容(例如:敏感性問(wèn)題)、調(diào)查地點(diǎn)(例如:城市和農(nóng)村)、采訪員素質(zhì)以及被調(diào)查人群的特征等諸多方面的影響。在抽樣調(diào)查中,如何降低拒訪率一直是調(diào)查者所必須關(guān)注的問(wèn)題。
項(xiàng)目無(wú)回答一般包括“不知道”(don’t know)、“拒絕回答”(refuse to answer)、“沒(méi)有觀點(diǎn)(no opinion)” 、“不適用”(no applicable)、“沒(méi)有答案”(no answer)等多種情況。其中,不知道、拒絕回答、沒(méi)有觀點(diǎn)比較容易理解,都是受訪人給出的直接的答案!安贿m用”通常是因?yàn)閱?wèn)卷中的跳問(wèn)而自動(dòng)賦值的,例如,對(duì)于詢問(wèn)受訪人“是否參加了工會(huì)”這道題,如果是從事農(nóng)業(yè)生產(chǎn)的受訪人,就應(yīng)該屬于不適用回答這道題目的情況,該題目會(huì)被跳過(guò)去,系統(tǒng)自動(dòng)產(chǎn)生的數(shù)值就是代表“不適用”!皼](méi)有答案”通常是指那些應(yīng)該回答而沒(méi)有回答的情況,例如,有可能是訪問(wèn)員漏問(wèn)了,也有可能詢問(wèn)之后忘記記錄答案。
2.什么是缺失值
缺失值(missing value)簡(jiǎn)單地概括就是缺失的觀測(cè)值。缺失值的型態(tài)有兩種(吳明隆,2010),一為系統(tǒng)自定義的缺失值,二為使用者自定義的缺失值。
所謂系統(tǒng)自定義的缺失值,是指本來(lái)就不適用,并且也沒(méi)有采集到觀測(cè)數(shù)據(jù)的情形,在社會(huì)調(diào)查中通常發(fā)生在一些應(yīng)該進(jìn)行跳問(wèn)的題目中,例如,需要詢問(wèn)職級(jí)的時(shí)候,對(duì)于從事農(nóng)業(yè)生產(chǎn)的人,就不再詢問(wèn)職級(jí)了,那么在職級(jí)的變量中,凡是回答從事農(nóng)業(yè)生產(chǎn)的樣本,就會(huì)由系統(tǒng)自定義為缺失值。在本書(shū)中稱之為“不適用”,對(duì)于這種情形導(dǎo)致的缺失值,不用進(jìn)行插補(bǔ)或其他處理,因?yàn)樵诜治龆嘧兞恐g關(guān)系的時(shí)候,這些樣本在某種情況下不適于納入分析,例如,分析職級(jí)對(duì)人們工作滿意度的影響,那些從事農(nóng)業(yè)生產(chǎn)的樣本不應(yīng)該被納入分析。
第二類(lèi)是研究者自定義的缺失值,是指本來(lái)已經(jīng)采集到了數(shù)據(jù),但是這個(gè)數(shù)據(jù)根據(jù)研究者的判斷被定義為缺失值。例如,在一次調(diào)查中,對(duì)于職業(yè)變量,受訪人回答“不知道”,研究者根據(jù)一些條件最終將其定義為缺失值;也有一種情況是合理的一些值,但是研究者認(rèn)為這些值屬于特異個(gè)案,不滿足其研究需求,也會(huì)將其定義為缺失值,例如,在詢問(wèn)受訪人個(gè)人一個(gè)月的文化消費(fèi)時(shí),如果有1個(gè)樣本回答“20萬(wàn)元”,研究者可能就會(huì)將其定義為缺失值。
對(duì)于那些需要研究者來(lái)自定義的缺失值,研究者首先要進(jìn)行判斷工作。即,哪些值應(yīng)該或需要被定義為缺失值。這些值里面,最常見(jiàn)的就是項(xiàng)目無(wú)回答。在項(xiàng)目無(wú)回答中,“沒(méi)有答案”通常是由于訪員漏問(wèn)、漏記或者造成的,一般情況下都屬于“缺失值”。
但是“不知道”、“拒絕回答”、“沒(méi)有觀點(diǎn)”則需要根據(jù)題目本身的含義、研究者的測(cè)量目標(biāo)和受訪人的實(shí)際情況而定,很難簡(jiǎn)單地制定統(tǒng)一的判定標(biāo)準(zhǔn)。例如,當(dāng)詢問(wèn)受訪人是否滿意現(xiàn)在的生活時(shí),受訪人應(yīng)該有能力或者有信息幫助他能夠回答,如果選擇了“沒(méi)有觀點(diǎn)”,則可以視為“缺失值”。但是當(dāng)問(wèn)到受訪人對(duì)于“政府應(yīng)該規(guī)定個(gè)人收入的最高限額”這種說(shuō)法的態(tài)度時(shí),如果選擇了“沒(méi)有觀點(diǎn)”,則可以視為有效回答,因?yàn)樗峁┝擞行У男畔,可能真的是沒(méi)有任何觀點(diǎn)。
對(duì)于知識(shí)、信息類(lèi)的題目,“不知道”通常是有效的答案,會(huì)參與統(tǒng)計(jì)分析的過(guò)程,例如:詢問(wèn)政治知識(shí)的題目“您知道美國(guó)現(xiàn)任總統(tǒng)是誰(shuí)嗎?”,如果回答不知道,則可以視為有效回答,這部分人要作為一類(lèi)人來(lái)進(jìn)行統(tǒng)計(jì)分析,而不能直接視作缺失值。
在項(xiàng)目無(wú)回答的幾種類(lèi)型中,受訪人回答“不知道”的情況通常相對(duì)比較多一些,因此,如果把“不知道”視為缺失值的話,更有可能對(duì)樣本估計(jì)產(chǎn)生影響,但是缺失值的比例到多大時(shí)會(huì)成為問(wèn)題,目前還沒(méi)有一個(gè)標(biāo)準(zhǔn),要依據(jù)研究目的、研究?jī)?nèi)容,以及缺失值的分布特征而定。有些學(xué)者認(rèn)為,通常情況下,小于5%的缺失值應(yīng)該不會(huì)產(chǎn)生什么問(wèn)題(Gilljam and Granberg,1993)。
如果缺失值存在,研究者必須首先對(duì)缺失值進(jìn)行處理,然后才能進(jìn)行統(tǒng)計(jì)分析。
……