Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
สถิตเิ บือ ้ งต ้นสำหรับงำนระบำดวิทยำ Statistics for Epidemiology นำยแพทย์ชนินันท์ สนธิไชย 23 กุมภำพันธ์ 2554 สถิต ิ • • • • • เก็บรวบรวมข ้อมูล เรียบเรียง กำรวิเครำะห์ กำรแปลผล กำรนำเสนอ ลักษณะของตัวแปร • แบ่งตำมลักษณะของตัวแปร – เชงิ คุณภำพ – เชงิ ปริมำณ • แบ่งตำมมำตรกำรวัดตัวแปร – – – – Nominal Ordinal Interval Ratio ลักษณะของตัวแปร ตัวแปรเชงิ คุณภำพ (Qualitative Variable) • • มีคณ ุ สมบัตแ ิ ตกต่ำงกันในแง่ของชนิดหรือประเภทหรือ คุณลักษณะ ่ เพศ อำชพ ี ภูมล เชน ิ ำเนำ ตัวแปรเชงิ ปริมำณ (Quantitative Variable) • • • มีควำมแตกต่ำงกันตำมควำมถี่ จำนวน หรือปริมำณมำก น ้อย สำมำรถเรียงลำดับเปรียบเทียบได ้ว่ำนำมใดดีกว่ำหรือด ้อย กว่ำอีกนำมหนึง่ ่ อำยุ น้ ำหนัก สว่ นสูง คะแนนสอบ เชน มำตรกำรวัดตัวแปร มำตรนำมบัญญัต ิ (Nominal Scale) • • • ้ เป็ นกำรจำแนกข ้อมูลโดยใชนำมเป็ นเกณฑ์ ไม่สำมำรถเปรียบเทียบได ้ว่ำนำมหนึง่ ดีกว่ำนำมหนึง่ ่ เพศ อำชพ ี เชน • • • ้ เป็ นกำรจำแนกข ้อมูลโดยใชนำมเป็ นเกณฑ์ สำมำรถเรียงลำดับเปรียบเทียบได ้ว่ำนำมใดดีกว่ำหรือด ้อยกว่ำอีกนำมหนึง่ ่ ระดับกำรศก ึ ษำ ระดับควำมนิยม เชน • • • • ้ เป็ นกำรจำแนกข ้อมูลโดยใชนำมและล ำดับ สำมำรถวัดปริมำณควำมแตกต่ำงของนำมได ้ ไม่ม ี “0” ทีแ ่ ท ้จริง ่ อุณหภูม ิ ไอคิว เชน • • • สำมำรถเปรียบเทียบอัตรำสว่ นระหว่ำงปริมำณได ้ มี “0” ทีแ ่ ท ้จริง ่ รำยได ้ อำยุ น้ ำหนั ก เชน มำตรอันดับ (Ordinal Scale) มำตรอันตรภำค (Interval Scale) มำตรอัตรำสว่ น (Ratio Scale) ประเภทของสถิตใิ นงำนระบำดวิทยำ ชวี สถิต ิ Biostatistics สถิตเิ ชงิ พรรณนำ Descriptive Statistics สถิตเิ ชงิ อนุมำน Inferential Statistics กำรคำดประมำณ Parameter Estimation กำรคำดประมำณเฉพำะค่ำ Point Estimation กำรทดสอบสมมติฐำน Hypothesis Testing กำรคำดประมำณเป็ นชว่ ง Interval Estimation องค์ประกอบของสถิต ิ พำรำมิเตอร์ (Parameter) ค่ำเฉลีย ่ เลขคณิต μ ค่ำเบีย ่ งเบนมำตรฐำน δ ั สว่ น π ค่ำสด สถิต ิ (Statistics) ค่ำเฉลีย ่ เลขคณิต x ค่ำเบีย ่ งเบนมำตรฐำน s ั สว่ น p ค่ำสด ประชำกร Population กลุม ่ ตัวอย่ำง Sample ตัวอย่ำง ต ้องกำรทรำบน้ ำหนักตัวเฉลีย ่ ของประชำกรไทย ประชำกรประเทศไทย 63,525,062 คน พำรำมิเตอร์ น้ ำหนั กตัวเฉลีย ่ (μ) = ?? kg สถิตเิ ชงิ อนุมำน กลุม ่ ตัวอย่ำง 1,000 คน สถิต ิ น้ ำหนั กตัวเฉลีย ่ (x) = 50 kg สถิตเิ ชงิ พรรณนำ (Descriptive Statistics) ้ อ • ใชเพื ่ อธิบำยลักษณะของข ้อมูลทีเ่ ก็บรวบรวมมำได ้ ั สว่ น อัตรำ อัตรำสว่ น (Proportion, Rate, Ratio) – สด – ค่ำกลำง (Mean, Median, Mode) – ค่ำกำรกระจำย (Variance, SD, Range, Interquartile Range) ่ ว่ นกลำงและกำรวัดกำรกระจำย กำรวัดแนวโน ้มเข ้ำสูส (Measures of Central Location and Dispersion) ่ ว่ นกลำง (Measure of Central • กำรวัดแนวโน ้มเข ้ำสูส Location) – เพือ ่ หำค่ำทีเ่ ป็ นตัวแทนทีด ่ ท ี ส ี่ ด ุ ของกลุม ่ ประชำกร • กำรวัดกำรกระจำย (Measure of dispersion) – เพือ ่ ดูวำ่ ประชำกรแต่ละคนมีควำมแตกต่ำงกันมำกน ้อย เพียงใด – เพือ ่ ดูควำมแตกต่ำงของประชำกรแต่ละคนจำกค่ำกลำง ่ ว่ นกลำง กำรวัดแนวโน ้มเข ้ำสูส Measure of Central Location • Mean (Arithmetic Mean) ค่ำเฉลีย ่ เลขคณิต • Median มัธยฐำน • Mode ฐำนนิยม 12 ค่ำเฉลีย ่ เลขคณิต (Arithmetic Mean) • ค่ำเฉลีย ่ (Mean หรือ Average) • ผลรวมของข ้อมูลหำรด ้วยจำนวนข ้อมูล ั ลักษณ์ • สญ x x x i n ตัวอย่ำง จงคำนวณค่ำเฉลีย ่ น้ ำหนักตัวของนักเรียน 9 คน 24 28 17 32 x x i n 27 25 22 19 31 24+28+17+32+27+25+22+19+31 9 225 = = 25 kg 9 = ค่ำเฉลีย ่ คือ 25 kg ตัวอย่ำง จงคำนวณค่ำเฉลีย ่ น้ ำหนักตัวของนักเรียน 9 คน 24 28 17 32 x x i n = = 27 25 22 19 90 24+28+17+32+27+25+22+19+90 9 284 = 31.6 kg 9 ค่ำเฉลีย ่ คือ 31.6 kg คุณสมบัตข ิ องค่ำเฉลีย ่ ั ข ้อมูลทุกค่ำ • คำนวณโดยอำศย • มีควำมไวในกรณีทม ี่ ข ี ้อมูลทีม ่ ค ี ำ่ ต่ำงไปจำกกลุม ่ มำกๆ • หำกข ้อมูลมีลก ั ษณะเบ ้ ค่ำเฉลีย ่ จะไม่สำมำรถเป็ นตัวแทนของ กลุม ่ ข ้อมูลทีด ่ ไี ด ้ มัธยฐำน (Median) • ค่ำข ้อมูลทีอ ่ ยูต ่ ำแหน่งตรงกลำงของชุดข ้อมูลทีเ่ รียงลำดับ • จำนวนข ้อมูลทีม ่ ค ี ำ่ มำกกว่ำมัธยฐำน เท่ำกับจำนวนข ้อมูลทีม ่ ค ี ำ่ น ้อยกว่ำมัธยฐำน • วิธก ี ำรหำค่ำมัธยฐำน – จัดเรียงลำดับข ้อมูลจำกน ้อยไปหำมำก – หำข ้อมูลทีอ ่ ยูใ่ นตำแหน่งตรงกลำงจำกสูตร Middle rank – กรณีจำนวนข ้อมูลเป็ นเลขคี่ ค่ำมัธยฐำนคือข ้อมูลตำแหน่งกลำง (n 1) 2 – กรณีจำนวนข ้อมูลเป็ นเลขคู่ ค่ำมัธยฐำนจะอยูร่ ะหว่ำงข ้อมูล 2 ตำแหน่ง กลำง และเท่ำกับค่ำเฉลีย ่ ของข ้อมูล 2 ตำแหน่งนัน ้ ตัวอย่ำง จงคำนวณค่ำมัธยฐำนน้ ำหนักตัวของนักเรียน 9 คน 24 28 17 32 27 25 22 19 31 25 27 28 31 32 จัดลำดับข ้อมูลจำกน ้อยไปหำมำก 17 Middle rank 19 22 (n 1) (9 1) 5 2 2 24 ค่ำมัธยฐำน คือ 25 kg ตัวอย่ำง จงคำนวณค่ำมัธยฐำนน้ ำหนักตัวของนักเรียน 9 คน 24 28 17 32 27 25 22 19 90 25 27 28 32 90 จัดลำดับข ้อมูลจำกน ้อยไปหำมำก 17 Middle rank 19 22 (n 1) (9 1) 5 2 2 24 ค่ำมัธยฐำน คือ 25 kg ตัวอย่ำง จงคำนวณค่ำมัธยฐำนน้ ำหนักตัวของนักเรียน 10 คน 24 28 17 32 27 25 22 19 31 38 27 28 31 32 38 จัดลำดับข ้อมูลจำกน ้อยไปหำมำก 17 19 Middle rank 22 24 (n 1) (10 1) 5.5 2 2 25 ค่ำมัธยฐำน คือ 25 27 = 26 kg 2 คุณสมบัตข ิ องค่ำมัธยฐำน • ข ้อมูลทีม ่ ค ี ำ่ ต่ำงไปจำกกลุม ่ มำกๆ ไม่มผ ี ลต่อค่ำมัธยฐำน ้ • นิยมใชในกรณี ทข ี่ ้อมูลมีลก ั ษณะเบ ้ ฐำนนิยม (Mode) • ค่ำทีม ่ ค ี วำมถีส ่ งู ทีส ่ ด ุ หรือค่ำทีซ ่ ้ำกันมำกทีส ่ ด ุ • มักใชกั้ บตัวแปรเชงิ คุณภำพ ตัวอย่ำง จงคำนวณค่ำฐำนนิยมของน้ ำหนักตัวของนักเรียน 9 คน 17 19 22 24 25 27 27 27 ค่ำฐำนนิยม คือ 27 kg 90 ตัวอย่ำง จงคำนวณค่ำฐำนนิยมของน้ ำหนักตัวของนักเรียน 9 คน 17 22 22 24 25 27 ค่ำฐำนนิยม คือ 22 และ 27 kg 27 29 40 กำรวัดกำรกระจำย Measure of Dispersion • • • • • • Variance (ควำมแปรปรวน) Standard Deviation: SD (ค่ำเบีย ่ งเบนมำตรฐำน) ั ) Range (พิสย ็ ไทล์) Percentile (เปอร์เซน Quartile (ควอไทล์) Interquartile (อินเตอร์ควอไทล์) 25 ตัวอย่ำง จงคำนวณค่ำเฉลีย ่ คะแนนสอบของนักเรียน 5 คน ในแต่ละห ้องเรียน Mean = 80 คะแนน 78 79 80 81 82 Mean = 80 คะแนน 70 75 80 85 90 Mean = 80 คะแนน 60 70 80 90 100 ตัวอย่ำง จงคำนวณค่ำมัธยฐำนคะแนนสอบของนักเรียน 5 คน ในแต่ละห ้องเรียน Median = 80 คะแนน 78 79 80 81 82 Median = 80 คะแนน 70 75 80 85 90 Median = 80 คะแนน 60 70 80 90 100 ควำมแปรปรวน (Variance) และค่ำเบีย ่ งเบนมำตรฐำน (SD) • Variance = s2= sum of square differences = n 1 • SD = s = Variance = ้ • ใชประกอบกั บค่ำเฉลีย ่ (x x) i n 1 2 (x x) i n 1 2 Degree of freedom ประชำกร 9 คน 24 28 17 32 27 25 22 19 31 ค่ำเฉลีย ่ คือ 25 kg ่ ตัวอย่ำง สุม กลุม ่ ตัวอย่ำง 3 คน 28 19 ??? Degree of freedom = n-1 ่ ว่ นกลำงและกำรวัดกำรกระจำยโดยใช ้ กำรวัดแนวโน ้มเข ้ำสูส Mean และ Standard Deviation กำรกระจำยแบบเบ ้ขวำ (Skew to the right หรือ Positive skew) ้ กำรกระจำยแบบเบ ้ซำย (Skew to the left หรือ Negative skew) ้ กำรกระจำยแบบเบ ้ซำย กำรกระจำยแบบเบ ้ขวำ ั (Range) พิสย • ควำมแตกต่ำงระหว่ำงค่ำน ้อยทีส ่ ด ุ กับค่ำมำกทีส ่ ด ุ ในชุดข ้อมูล • ค่ำมำกทีส ่ ด ุ - ค่ำน ้อยทีส ่ ด ุ – ทำงสถิต ิ ั ... พิสย – ทำงระบำดวิทยำ ตัง้ แต่... ถึง... ้ • ใชประกอบกั บค่ำมัธยฐำน ตัวอย่ำง ั ของคะแนนสอบของนักเรียน 5 คน ในแต่ละห ้องเรียน ค่ำมัธยฐำนและพิสย 78 70 60 79 75 70 80 80 80 81 85 90 82 90 100 Median = 80 คะแนน Range 78-82 คะแนน Median = 80 คะแนน Range 70-90 คะแนน Median = 80 คะแนน Range 60-100 คะแนน Percentiles • เกิดจำกกำรแบ่งข ้อมูลเป็ น 100 สว่ นเท่ำๆ กัน เมือ ่ ข ้อมูลถูก เรียงจำกน ้อยไปหำมำก • มีคำ่ อยูร่ ะหว่ำง 0-100 • Percentiles ที่ P หมำยถึง ค่ำทีม ่ จ ี ำนวนข ้อมูลน ้อยกว่ำร ้อยละ P ของชุดข ้อมูลทัง้ หมด 10% 90% 10th Percentile 67% 33% 33rd Percentile Quartiles • เกิดจำกกำรแบ่งข ้อมูลเป็ น 4 สว่ นเท่ำๆ กัน เมือ ่ ข ้อมูลถูกเรียง จำกน ้อยไปหำมำก • แบ่งเป็ น Quartile ที่ 1, 2, 3 และ 4 1st Quartile 25th Percentile 2nd Quartile 50th Percentile Median Q1 คือ ค่ำ ณ ตำแหน่งที่ n 1 4 3rd Quartile 75th Percentile 4th Quartile 100th Percentile Q3 คือ ค่ำ ณ ตำแหน่งที่ 3(n 1) 4 Interquartile Range ้ • เป็ นกำรวัดกำรกระจำยทีน ่ ย ิ มใชประกอบกั บค่ำมัธยฐำน • เป็ นตัวแทนของข ้อมูลครึง่ หนึง่ ทีอ ่ ยูใ่ นชว่ งกลำงของชุดข ้อมูล ระหว่ำง P25-P75 1st Quartile 25th Percentile 2nd Quartile 50th Percentile Interquartile Range 3rd Quartile 75th Percentile 4th Quartile 100th Percentile ่ ว่ นกลำงและกำรวัดกำรกระจำยโดยใช ้ กำรวัดแนวโน ้มเข ้ำสูส Median, Percentile, Quartile และ Interquartile Range ่ ว่ นกลำง กำรเลือกวิธก ี ำรวัดแนวโน ้มเข ้ำสูส และวิธก ี ำรวัดกำรกระจำย การกระจายแบบปกติ การกระจายแบบเบ้ • ขึน ้ อยูก ่ บ ั รูปแบบกำรกระจำยของข ้อมูล • ข ้อมูลมีกำรกระจำยแบบปกติ (Normal Distribution) ควรใช ้ Mean และ SD • ข ้อมูลมีกำรกระจำยแบบเบ ้ (Skew Distribution) ควรใช ้ Median และ Range หรือ Interquartile Range สรุปแนวทำงกำรเลือกใชวิ้ ธก ี ำรวัดแนวโน ้มเข ้ำสู่ สว่ นกลำงและวิธก ี ำรวัดกำรกระจำย รูปแบบกำรกระจำย กำรวัดแนวโน ้มเข ้ำสู่ สว่ นกลำง กำรวัดกำรกระจำย กำรกระจำยแบบปกติ (Normal Distribution) ค่ำเฉลีย ่ เลขคณิต (Arithmetic Mean) ค่ำเบีย ่ งเบนมำตรฐำน (Standard Deviation) กำรกระจำยแบบเบ ้ (Skew Distribution) ค่ำมัธยฐำน (Median) ั (Range) หรือ พิสย Interquartile Range กำรกระจำยแบบ Exponential หรือ Logarithmic ค่ำเฉลีย ่ เรขำคณิต (Geometric Mean) Geometric Standard Deviation ้ ตเิ ชงิ พรรณนำ ตัวอย่ำงกำรใชสถิ ั 15-56 ปี ) ค่ำมัธยฐำนของอำยุผู ้ป่ วยเท่ำกับ 29 ปี (พิสย ระยะฟั กตัวของโรคเฉลีย ่ เท่ำกับ 15 วัน (SD 3.6 วัน) อัตรำสว่ นผู ้ป่ วยเพศชำยต่อเพศหญิงคือ 3:2 อัตรำป่ วยโรคไข ้เลือดออกในเดือนมกรำคม 47 รำยต่อประชำกร แสนคน • อัตรำป่ วยรำยร ้อยละ 3 ึ ษำร ้อยละ 67 • ผู ้ป่ วยสว่ นใหญ่เป็ นนักเรียน/นักศก • • • • 42 สถิตเิ ชงิ อนุมำน (Inferential Statistics) ้ อ • ใชเพื ่ นำผลสรุปของข ้อมูลทีค ่ ำนวณได ้จำกข ้อมูล ตัวอย่ำงไปอ ้ำงอิงถึงค่ำพำรำมิเตอร์ – กำรประมำณค่ำพำรำมิเตอร์ (Parameter Estimation) – กำรทดสอบสมมติฐำน (Hypothesis Testing) ตัวอย่ำง ต ้องกำรทรำบน้ ำหนักตัวเฉลีย ่ ของประชำกรไทย ประชำกรประเทศไทย 63,525,062 คน μ = 50 kg / 48 kg / 55 kg กลุม ่ ตัวอย่ำง 1,000 คน (x) = 50 kg (x) = 48 kg (x) = 55 kg 42 kg 58 kg 48 kg 50 kg 55 kg 95% CI = 42-58 kg ื่ มั่น ชว่ งควำมเชอ (Confidence Interval) ึ ษำแบบเดียวกัน 100 ครัง้ จะได ้ชว่ งควำม • หำกทำกำรศก ื่ มั่น 100 ชว่ ง ซงึ่ จะมี 95 ชว่ ง ทีค เชอ ่ รอบคลุม ค่ำพำรำมิเตอร์ทต ี่ ้องกำรหำ ึ ษำครัง้ นี้ คำดว่ำจะมีคำ่ ผิดพลำด • ค่ำทีบ ่ ง่ บอกว่ำผลกำรศก ไม่เกินชว่ งทีก ่ ำหนด – 90% CI หมำยควำมว่ำ จะมีคำ่ ทีผ ่ ด ิ พลำดจำกกำรคำนวณ 10% – 95% CI หมำยควำมว่ำ จะมีคำ่ ทีผ ่ ด ิ พลำดจำกกำรคำนวณ 5% – 99% CI หมำยควำมว่ำ จะมีคำ่ ทีผ ่ ด ิ พลำดจำกกำรคำนวณ 1% 46 Confidence limits และ Confidence Interval ื่ มัน • ขีดจำกัดของชว่ งเชอ ่ (Confidence limits) – ตำ่ สุดทีย ่ อมรับได ้ เรียกว่ำ ขีดจำกัดล่ำง – ค่ำสูงสุดทีย ่ อมรับได ้ เรียกว่ำ ขีดจำกัดบน ื่ มัน • ชว่ งเชอ ่ (Confidence interval) ึ ษำ หรืออีกนัยหนึง่ – บอกควำมเทีย ่ ง (Reliability) ของผลกำรศก ว่ำมีระดับของควำมคลำดเคลือ ่ นมำกน ้อยเพียงใด ึ ษำ – ขึน ้ กับจำนวนตัวอย่ำงทีศ ่ ก 47 ตัวอย่ำง ึ ษำเพือ ่ ตัวอย่ำง • จำกกำรศก ่ หำน้ ำหนักตัวเฉลีย ่ ของประชำกรไทย โดยกำรสุม จำนวน 1,000 คน พบว่ำ • ประชำกรไทยมีน้ ำหนักเฉลีย ่ 50 kg (95% CI 42-58) ึ ษำซ้ำกัน 100 ครัง้ จะมี 95 ครัง้ ทีไ่ ด ้น้ ำหนักเฉลีย • ถ ้ำทำกำรศก ่ อยูร่ ะหว่ำง 42 kg ถึง 58 kg ึ ษำจะทำกำรศก ึ ษำครัง้ เดียว ดังนัน ื่ มั่นจึง • แต่ในทำงปฏิบต ั ิ ผู ้ศก ้ ชว่ งควำมเชอ คำนวณได ้จำกสูตร x Z / 2 x t / 2,n1 s n x Z / 2 n n x t / 2,n1 s 100(1 )% n 100(1 )% (ทรำบค่ำ Variance) (ไม่ทรำบค่ำ Variance) กำรทดสอบสมมติฐำน (Hypothesis testing) น้ ำหนักเฉลีย ่ ของประชำกรจังหวัดชลบุรี มีควำมแตกต่ำงจำกจังหวัดขอนแก่นหรือไม่ µชลบุรี ??? µขอนแก่น ประชำกรจังหวัดชลบุรี 1,316,293 คน ประชำกรจังหวัดขอนแก่น 1,767,601 คน กลุม ่ ตัวอย่ำง 100 คน กลุม ่ ตัวอย่ำง 100 คน xชลบุรี = 46 kg ≠ xขอนแก่น = 49 kg สรุป • ประเภทของสถิต ิ • สถิตเิ ชงิ พรรณนำ • กำรใช ้ Excel เบือ ้ งต ้น ขอบคุณครับ