Download 第16章卡方檢定ok

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
第16章
卡方檢定
A.一般練習題
16.1 國內四家知名大賣場家樂福、大潤發、愛買吉安和好市多,一年前在
全台灣大賣場的營業額佔有率分別為45%、30%、15%、5%。但是在
過去一年中,某些大潤發的高級幹部跳槽至家樂福,造成大賣場市場
經理人員的大洗牌。根據最新的大賣場營業額調查,結果發現總營業
額為1130億元,其中家樂福營業額佔有率為50%、大潤發為27%、愛
買吉安為13%、好市多為5%。請說明在95%信心水準下,是否有足夠
証據說明「經理人員的變動導致四家大賣場的營業額佔有率改變」?
解
設 p1 、 p 2 、 p 3 、 p 4 分別代表家樂福、大潤發、愛買吉安和好市多的
營業額佔有率,故為了証明「經理人員的變動導致四家大賣場的營業
額佔有率改變」是否成立,即檢定
H 0 : p1  0.45, p2  0.30, p3  0.15, p4  0.05, against H 1 : H 0 不成立。故
卡方檢定統計量為
2
k
Oi  Eˆ i
565  508.52  305.1  3392  146.9  169.52  56.5  56.52  12.68
2
χ 

508.5
339
169.5
56.5
Eˆ


i 1

i
因為 χ 2  12.68  χ 32,0.05  7.815 ,所以拒絕
H 0 : p1  0.45, p 2  0.30, p 3  0.15, p 4  0.05 ,亦即在 95%信心水準
下,此樣本有充分証據顯示「經理人員的變動導致四家大賣場的營業
額佔有率改變」。
16.2 某人欲檢驗一個骰子的公正性,投擲一骰子300次,得到以下的結果:
投擲點數
1
2
3
4
5
6
次數
40
60
70
45
35
50
請問在99%信心水準下,此骰子是否為一公正的骰子?
解
設 pi 表示骰子出現點數 i 的機率, i  1,2,3,4,5,6 。為了檢驗此骰子是否為
一公正的骰子,即檢定 H 0 : pi  1 , i  1,2,3,4,5,6 against H1 : pi 至少有一
6
不等於 1 。故卡方檢定統計量為
6
χ2 
k

O  Eˆ 
2
i
i 1
Eˆ i

i
40  502  60  502  70  502  45  502  35  502  50  502
50
50
50
50
50
因為 χ 2  17  χ 52,0.05  15.086 ,所以拒絕 H 0 : pi  1 , i  1,2,3,4,5,6 ,亦即在
6
99%信心水準下,此樣本有充分証據顯示此骰子並非一公正的骰子。
16.3 根據一份最新的調查資料顯示,在隨機抽取有3個子女的300個家庭
中,男孩和女孩人數和對應的家庭數如下表所示:
子女數
男孩個數
3
2
1
0
女孩個數
0
1
2
3
27
92
95
26
家庭數
試問根據上述資料,是否能夠說明男孩和女孩的出生率相等?
(   0.05 )
解
設 X 表示有 3 個子女的家庭中男孩的人數,故 X 為一二項分配,即
X ~ B3, p  。為了檢驗男孩和女孩的出生率是否相等,故檢定
H 0 : p  0.5 against H1 : p  0.5 。由表中已知 Oi 的個數,而
Eˆ  np  240  C 3 0.5i 0.53i ,其中 i  0,1,2,3 。故卡方檢定統計量為
i
χ2 
i
k

i 1
O  Eˆ 
i
2
i
Eˆ i
i

27  302  92  902  95  902  26  302
30
90
90
30
 1.156
因為 χ 2  1.156  χ 32,0.05  7.815 ,所以不拒絕 H 0 : p  0.5 ,亦即在 95%信
心水準下,此樣本沒有証據顯示男孩和女孩的出生率不相等。
16.4 桂冠食品公司想了解顧客對三種不同口味的湯圓是否同樣喜歡,調查
某超市共賣出了150盒湯圓,各種口味的湯圓賣出的盒數如下表:
芝麻湯圓
60
紅豆湯圓
50
花生湯圓
40
50
 17
試在   0.01 下,檢定顧客對三種口味的湯圓是否同樣喜歡?
解
H 0 :顧客對三種口味的湯圓同樣喜歡
H 1 :顧客對三種口味的湯圓並非同樣喜歡
理論次數  150 3  50
2 
( 60  50 )2 (50  50 ) 2 ( 40  50 )2
2


 4  31,0.05  5.9915
50
50
50
接受虛無假設,顧客對三種口味的湯圓同樣喜歡。
16.5 上兩個月搖出的統一發票中獎號碼如下:
22542792
24876298
26751634
31083709
41550854
59466429
65464910
79394493
56035874
15311702
25294517
28813925
47247746
63115517
71570172
93745195
試在   0.01 下,檢定0到9這十個號碼出現的機率是否一樣?
解
H 0 :十個號碼出現的機率一樣, H 1 :十個號碼出現的機率不一樣。
每個號碼出現的理論次數  (8 16) /10  12.8 個號碼出現的樣本次數如
下:
號碼
0
1
樣本次數
7
15
2 
2
3
4
15
10
17
5
6
7
8
9
18
10
16
7
13
(7  12.8)
(13  12.8)
2

 11.53  10
1, 0.01  21.666
12.8
12.8
2
2
接受虛無假設,十個號碼出現的機率相同。
16.6 假設5年前台北市的上班族上班的交通工具如下:
上班方式
坐公車 自己開車 騎機車 坐交通車 坐火車 其他
所佔比例
58%
12%
15%
6%
3%
6%
現在市政府委託一民間機構調查台北市民上班的方式是否有所改變,
經該機構調查800位台北市的上班族,得資料如下:
上班方式
坐公車 自己開車 騎機車 坐交通車 坐火車 其他
人數
364
186
198
28
14
試在   5% 下,檢定台北市民上班的方式是否有所改變?
10
解
H 0 :上班的方式沒有改變, H 1 :上班的方式有改變。
理論次數  800  10 前所佔比例
上班方式 坐公車 自己開車 騎機車 坐交通車 坐火車
理論次數
464
 22 
96
120
48
其他
24
48
(364  464 ) 2
(10  48) 2

 199 .21   621, 0.05  11.0705
464
48
拒絕虛無假設,上班的方式有顯著改變。
16.7 台灣地區近年來縱火案頻傳,根據統計,過去一年360天內每天發生縱
火案的次數如下表:
每天發生次數 0
1
2
3
4以上
天數
130
24
4
2
200
試在   0.05 下,檢定每天發生縱火案的次數是否呈波式分配?
解
H 0 :縱火案的次數呈波氏分配, H 1 :縱火案的次數不呈波氏分配
因波氏分配的參數  未知,必須由樣本估計:
ˆ 
0  200  1130  2  24  3  4  4  2
 0.55
360
理論次數 E k  360 
e 0.6 0.6 k
, k  0,1,2,3,4
k!
每天發生次數
0
1
2
3
4 或以上
理論天數
197.6
118.5
35.6
7.1
1.2
因每天發生 4 次縱火案的理論天數小於 5,故須與每天發生 3 次縱火
案這組合併計算
2 
(200  197 .6) 2
(6  8.3) 2

 5.56   4211,0.05  5.9915
197 .6
8.3
接受虛無假設,每天發生縱火案的次數呈波氏分配。
16.8 欲知保不保壽險是否與其收入的高低有關,隨機調查200人,得結果如
下:
保壽險
高收入
中收入
低收入
38
23
16
不保壽險
32
37
54
試在   0.01 下,檢定保不保壽險是否與其收入的高低有關?
解
H 0 :保不保壽險與收入的高低無關, H 1 :保不保壽險與收入的高低
有關
高收入
中收入
低收入
總和
保壽險
33
18
11
62
不保壽險
27
32
39
98
總和
60
50
50
160
理論次數 Eij  (第 i 列總和第 j 行總和)/120,計算得下表:
保壽險
不保壽險

高收入
中收入
低收入
23.25
19.375
19.375
36.75
30.625
30.625
(33  38)
(39  30.625)

 29.995   (22 1)(31),0.01  9.21
23.25
30.625
2
2
拒絕虛無假設,保不保壽險與收入的高低有關。
16.9 為了解職業婦女與全職家庭主婦每週做家事的時間是否有所不同,隨
機抽查了80位職業婦女與120位家庭主婦,得結果如下:
做家事時間
少於30小時
超過30小時
職業婦女
46
34
全職主婦
54
66
試以齊一性檢定在   0.5% 下,檢定職業婦女與全職主婦做家事的
時間是否有所不同?
試以兩母體比例檢定法在   0.5% 下,檢定職業婦女與全職主婦做
家事的時間是否有所不同?
題與題之結論是否一致?理由為何?
解
 H 0 :職業婦女與全職主婦做家事的時間無差異
H 1 :職業婦女與全職主婦做家事的時間有差異
做家事時間
少於 30 小時
超過 30 小時
合計次數
職業婦女
46
34
80
全職主婦
54
66
120
合計次數
100
100
200
理論次數 E ij  第 i 組總次數第 j 類之機率,計算得下表:
做家事時間
少於 30 小時
超過 30 小時
職業婦女
40
40
全職主婦
2 
60
60
(46  40)
(34  40)
(54  60)
(66  60) 2



 3.0   (22 1)( 2 1), 0.05  3.84
40
40
60
60
2
2
2
接受虛無假設,職業婦女與全職主婦做家事的時間無差異。
令 p1 , p2 分別表職業婦女與全職主婦做家事的時間少於 30 小時的人
數比例欲檢定 H 0 : p1  p 2 , H 1 : p1  p 2
pˆ 1 
Z
46
 0.575,
80
pˆ 2 
0.575  0.45
0.5

1
1

80 120
54
46  54
 0.45 ,混合比例: pˆ 
 0.5
120
80  120
0.125
 1.736  Z 0.025  1.96
0.072
接受虛無假設,職業婦女與全職主婦做家事的時間無差異。
題與題的結論完全一致。兩種檢定方法實際上為同一檢定,證
明見附錄。此外,由 Z 2  1. 7362  3  2 亦可得到驗證。
16.10 想要了解抽不抽煙是否與壽命的長短有關,研究員隨機抽查400位非
意外死亡的民眾,結果如下:
壽命
50以下 50~60
60~70
70~80
80以上
抽煙
38
47
43
32
34
不抽煙 30
55
51
37
33
試在   5% 下,檢定抽不抽煙是否與壽命的長短有關?
解
H 0 :抽不抽煙與壽命的長短無關, H 1 :抽不抽煙與壽命的長短有關
壽命
50 以下 50~60
60~70
70~80 80 以上
總和
抽煙
38
47
43
32
34
194
不抽煙
30
55
51
37
33
206
總和
68
102
94
69
67
400
理論次數 Eij ﹦(第 i 列總和第 j 行總和)/400,計算得:
壽命
50 以下 50~60
60~70
70~80 80 以上
抽煙
32.98
49.47
45.59
33.465 32.495
不抽煙
35.02
52.53
48.41
35.535 34.505
2 
(38  32.98) 2
(33  34.505) 2

 2.27   (22 1)(5 1), 0.05  9.49
32.98
34.505
接受虛無假設,抽不抽煙與壽命長短無關。
16.11 設張老師想要了解國中每日在家做功課的時間,自某一學校抽取80
位學生,調查得學生做功課時間的次數分配如下:
分鐘
40-50
50~60
60~70
70~80
80-90
人數
43
74
67
60
36
試在   5% 下,檢定該分配是否為常態分配?
解
H 0 :做功課的時間為常態分配, H 1 :做功課的時間不為常態分配。
因常態分配的參數μ與  2 未知,必須由樣本資料估計:
ˆ 
45  43  55  74  65  67  75  60  85  36
 64
280
ˆ 2 
45 2  43    85 2  36  280  64 2
 160.29 , ˆ  160.29  12.66
280  1
令 U 表各組時間上限,L 表各組時間下限,Z U 
U  ˆ
L  ˆ
,Z L 
。
ˆ
ˆ
理論人數﹦280 P( Z L  Z  Z U )
時間
50 以下
50~60
60~70
70~80
80 以上
人數
43
74
67
60
36
ZU
1.11
0.32
0.47
1.26

ZL

1.11
0.32
0.47
1.26
P( Z L  Z  ZU )
0.1335
0.241
0.3063
0.2154
0.1038
理論人數
37.38
67.48
85.764
60.312
29.064
2 
(43  37.38)
(36  29.064 )

 7.24   52 2 1,0.05  5.99
37.38
29.064
2
2
拒絕虛無假設,做功課的時間不為常態分配。
B.應用題
16.12 民國90年台北市計發生火災814次。現將一天24小時分成8個時段,每
個時段3小時,則每個時段發生的火災數如下表:
時段
0~3
3~6
6~9
9~12
12~15
15~18
18~21
21~24
火災數 118
117
76
120
92
99
97
95
(資料來源:台北市政府消防局。)
在   0.05 下,檢定各時段火災發生的機率是否相同?
解
由題意知為配合度檢定,設立兩個假設:
H 0 : 各時段火災發生的機率相同
H 1 : 各時段火災發生的機率不同
理論次數 E i 和觀察次數 O i 如下表:
時段
0~3
3~6
6~9
9~12
12~15
15~18
18~21
21~24
Oi
118
117
76
120
92
99
97
95
pi
0.125
0.125
0.125
0.125
0.125
0.125
0.125
0.125
101.75
101.75
101.75
101.75
101.75
101.75
101.75
15.25
25.75
18.25
9.75
2.75
4.75
6.75
E i  np i 101.75
Oi  E i 16.25
用公式(14.1)可計算卡方檢定統計量:
2 
(4.75) 2 (6.75) 2
16.25 2 15.25 2



 16.35
101 .75 101 .75
101 .75
101 .75
因  2  16.35   72,0.05  14.0671 ,故拒絕 H 0 ,結論為各時段火災發生
的機率不同。
16.13 為因應加入WTO後農業環境之改變,提高農業競爭力,農委會針對
有從事自家農牧業且有意願參加農業專業訓練者,調查其希望參加的
訓練種類及教育程度,結果如下表:
教育程度
訓
練
種
類
國中以下
高中職以上
農業生產技術
125
52
農場經營管理
31
17
農產品運銷
38
14
農產品加工
27
18
其他
53
25
(資料來源:樣本數虛擬,《臺灣地區農家戶口抽樣調查報告》,行政院農委會,2001
年 11 月。)
在   0.05 下,檢定想參加的訓練種類是否跟教育程度有關?
解
由題意知為獨立性檢定,設立兩個假設:
H 0 : 想參加的訓練種類跟教育程度無關
H 1 : 想參加的訓練種類跟教育程度有關
下表中括弧內數字為理論次數 E i ,括弧外數字為觀察次數 O i :
教育程度
訓
練
種
類
合計
國中以下
高中職以上
農業生產技術
125(121)
52(56)
177
農場經營管理
31(33)
17(15)
48
農產品運銷
38(36)
14(16)
52
農產品加工
27(31)
18(14)
45
其他
53(53)
25(25)
78
274
126
400
合計
用公式(14.2)可計算卡方檢定統計量為:
2 
(125  121) 2 (52  56) 2
(53  53) 2 (25  25) 2



 2.83
121
56
53
25
因  2  2.83   42,0.05  9.4877 ,故不拒絕 H 0 ,結論為想參加的訓練
種類跟教育程度無關。
16.14 現將國內戲劇節目分為台製戲劇、台製偶像劇、港劇、日劇、韓劇五
大類,想瞭解各類節目收視群的年齡層是否一致。現從五類戲劇節目
的收視群中各選取若干名,依年齡分組,結果如下表:
台製戲劇
台製偶像劇
港劇
日劇
韓劇
4~24 歲
28
57
31
69
41
25~44 歲
40
28
44
23
40
45 歲以上
52
15
27
18
27
合計
120
100
102
110
108
(資料來源:參考《廣告》雜誌數字虛擬,128 期,2002 年 1 月)
在   0.005 下,檢定各類節目收視群的年齡層是否一致?
解
由題意知為齊一性檢定,設立兩個假設:
H 0 : 各類節目收視群的年齡層一致
H 1 : 各類節目收視群的年齡層不一致
下表中括弧內數字為理論次數 E i ,括弧外數字為觀察次數 O i :
台製戲劇
台製偶像劇
港劇
日劇
韓劇
合計次數
4~24 歲
28(50)
57(42)
31(43)
69(46)
41(45)
226
25~44 歲
40(39)
28(32)
44(33)
23(36)
40(35)
175
45 歲以上
52(31)
15(26)
27(26)
18(28)
27(28)
139
合計
120
100
102
110
108
540
用公式(14.3)可計算卡方檢定統計量為:
2 
(28  50) 2 (57  42) 2
(18  28) 2 (27  28) 2



 62.3
50
42
28
28
因  2  62.3   82,0.005  21.955 ,故拒絕 H 0 ,結論為各類節目收視群
的年齡層不一致。
16.15 某人想了解民眾對於台大醫院的不同醫療服務的滿意程度,根據台大
醫院網站(http://ntuh.mc.ntu.edu.tw/)上所公佈的滿意度調查報告,
分別就門診服務、住院服務和急診服務的民眾滿意度整理成下表:
滿意程度
門診服務
住院服務
急診服務
合計次數
滿意
814
870
572
2256
不滿意
187
149
79
415
合計次數
1001
1019
651
2671
請注意上面表中的1001人、1019人與651人的樣本,是分別從門診服
務、住院服務和急診服務三個獨立母體中抽出的。現問接受門診服
務、住院服務和急診服務的民眾對台大醫院的滿意程度是否相同?換
句話說,我們想問接受門診服務的民眾的滿意程度之比例、接受住院
服務的民眾的滿意程度之比例與接受急診服務的民眾的滿意程度之
比例是否相同或近似(   0.05 )?
解
檢定齊一性的步驟如下:
設立兩個假設
H 0 : 接受門診服務、住院服務和急診服務的民眾對台大醫院的滿意
度比例一樣
H 1 : 接受門診服務、住院服務和急診服務的民眾對台大醫院的滿意
度比例不一樣
選擇檢定統計量
我們以卡方分配來做齊一性檢定。
決定拒絕域及接受域(行動法則或決策法則)
顯著水準為   0.05 。上表為一個 2  3 的列聯表,因此
df  (r  1)(c  1)  (2  1)(3  1)  2
計算檢定統計量(或將檢定統計量與臨界值比較)
先計算分配的理論次數如下:
i列總和  j行總和
利用公式 Eˆ ij 
,於是得估計的理論次數如下:
樣本數
2256
2256
Eˆ11  1001 
 845 , Eˆ12  1019 
 861 ,
2671
2671
2256
Eˆ13  651 
 550
2671
415
415
Eˆ 21  1001 
 156 , Eˆ 22  1019 
 158 ,
2671
2671
415
Eˆ13  651 
 101
2671
列示於下表的括弧中。
民眾對門診服務、住院服務和急診服務的滿意情形
滿意程度
門診服務
住院服務
急診服務
814
870
572
(845)
(861)
(550)
187
149
79
(156)
(158)
(101)
1001
1019
651
滿意
不滿意
合計次數
合計次數
2256
415
2671
接著計算檢定統計量  2 值:
2 
(814  845) 2 (870  861) 2
(79  101) 2

 ... 
 13.576
845
861
101
下結論
檢定統計量為  2  13.576 大於臨界值  22,0.05  5.991 。落在拒絕域,
故拒絕虛無假設 H 0 。結論為:「接受門診服務、住院服務和急診
服務的民眾對台大醫院的滿意度比例一樣」。
Related documents