สถิติ Chi-Square คืออะไร?
สี่เหลี่ยมจัตุรัส ( χ 2) สถิติคือการทดสอบที่วัดความคาดหวังเมื่อเปรียบเทียบกับข้อมูลที่สังเกตได้จริง (หรือผลลัพธ์ของแบบจำลอง) ข้อมูลที่ใช้ในการคำนวณสถิติไคสแควร์จะต้องเป็นแบบสุ่มดิบแบบเอกสิทธิ์เฉพาะบุคคลซึ่งมาจากตัวแปรอิสระและดึงมาจากตัวอย่างที่มีขนาดใหญ่พอ ตัวอย่างเช่นผลลัพธ์ของการโยนเหรียญ 100 ครั้งตรงตามเกณฑ์เหล่านี้
การทดสอบไคสแควร์มักใช้ในการทดสอบสมมติฐาน
สูตรสำหรับ Chi-Square นั้น
χc2 = ∑ (Oi − Ei) 2Eiwhere: c = องศาของอิสรภาพ O = ค่าที่สังเกตได้ E = ค่าที่คาดหวัง (s) start {aligned} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {โดยที่:} \ & c = \ text {ดีกรีอิสระ} \ & O = \ text {ค่าที่สังเกตได้} \ & E = \ text {ค่าที่คาดหวัง (s) } \ \ end {aligned} χc2 = ∑Ei (Oi −Ei) 2 โดยที่: c = องศาความเป็นอิสระ = ค่าที่สังเกตได้ E = ค่าที่คาดหวัง
สถิติ Chi-Square บอกอะไรคุณบ้าง
มีการทดสอบไคสแควร์สองประเภทหลัก: การทดสอบความเป็นอิสระซึ่งถามคำถามเกี่ยวกับความสัมพันธ์เช่น "มีความสัมพันธ์ระหว่างเพศและคะแนน SAT หรือไม่"; และการทดสอบความดีที่เหมาะสมซึ่งถามบางอย่างเช่น "หากเหรียญถูกโยน 100 ครั้งมันจะเกิดขึ้น 50 ครั้งและก้อย 50 ครั้งหรือไม่"
สำหรับการทดสอบเหล่านี้มีการใช้องศาอิสระเพื่อพิจารณาว่าสมมติฐานว่างบางอย่างสามารถปฏิเสธได้หรือไม่ขึ้นอยู่กับจำนวนทั้งหมดของตัวแปรและตัวอย่างภายในการทดสอบ
ตัวอย่างเช่นเมื่อพิจารณานักเรียนและตัวเลือกหลักสูตรขนาดตัวอย่างของนักเรียน 30 หรือ 40 น่าจะไม่ใหญ่พอที่จะสร้างข้อมูลที่สำคัญ การได้รับผลลัพธ์ที่เหมือนหรือคล้ายกันจากการศึกษาโดยใช้ขนาดตัวอย่าง 400 หรือ 500 คนของนักเรียนจะถูกต้องมากขึ้น
ในอีกตัวอย่างหนึ่งให้ลองโยนเหรียญ 100 ครั้ง ผลที่คาดหวังจากการโยนเหรียญที่ยุติธรรม 100 ครั้งคือว่าหัวจะเพิ่มขึ้น 50 เท่าและก้อยจะเพิ่มขึ้น 50 เท่า ผลลัพธ์ที่แท้จริงอาจเป็นว่าหัวขึ้น 45 ครั้งและก้อยขึ้นมา 55 ครั้ง สถิติไคสแควร์แสดงความแตกต่างระหว่างผลลัพธ์ที่คาดหวังและผลลัพธ์ที่แท้จริง
ตัวอย่างการทดสอบ Chi-Squared
ลองนึกภาพการสำรวจความคิดเห็นแบบสุ่มถูกนำมาใช้ในผู้มีสิทธิเลือกตั้งที่แตกต่างกัน 2, 000 คนทั้งชายและหญิง คนที่ตอบถูกจำแนกตามเพศของพวกเขาและไม่ว่าพวกเขาจะเป็นสาธารณรัฐประชาธิปไตยหรือเป็นอิสระ ลองนึกภาพกริดที่มีคอลัมน์ที่ระบุว่าเป็นสาธารณรัฐประชาธิปไตยและเป็นอิสระและมีสองแถวที่ระบุว่าเป็นเพศชายและเพศหญิง สมมติว่าข้อมูลจากผู้ตอบแบบสอบถาม 2, 000 คนมีดังนี้:
ขั้นตอนแรกในการคำนวณสถิติไคสแควร์คือการหาความถี่ที่คาดหวัง สิ่งเหล่านี้จะถูกคำนวณสำหรับ "เซลล์" แต่ละรายการในตาราง เนื่องจากมีประเภทของเพศสองประเภทและมุมมองทางการเมืองสามประเภทจึงมีความถี่ทั้งหมดหกประการ สูตรสำหรับความถี่ที่คาดหวังคือ:
E (r, c) = n (r) × c (r) nwhere: r = แถวใน questionc = คอลัมน์ใน questionn = ผลรวมที่สอดคล้องกัน \ เริ่มต้น {จัดชิด} & E (r, c) = \ frac {n (r) ครั้ง c (r)} {n} \ & \ textbf {โดยที่:} \ & r = \ text {แถวคำถาม) \ & c = \ text {คอลัมน์ในคำถาม} \ & n = \ text {รวมทั้งหมดที่เกี่ยวข้อง} \ \ end {aligned} E (r, c) = nn (r) × c (r) โดยที่: r = แถวใน questionc = คอลัมน์ใน questionn = ผลรวมที่สอดคล้องกัน
ในตัวอย่างนี้ความถี่ที่คาดหวังคือ:
- E (1, 1) = (900 x 800) / 2, 000 = 360E (1, 2) = (900 x 800) / 2, 000 = 360E (1, 3) = (200 x 800) / 2, 000 = 80E (2, 1) = (900 x 1, 200) / 2, 000 = 540E (2, 2) = (900 x 1, 200) / 2, 000 = 540E (2, 3) = (200 x 1, 200) / 2, 000 = 120
ถัดไปเหล่านี้เป็นค่าที่ใช้ในการคำนวณสถิติไคสแควร์โดยใช้สูตรต่อไปนี้:
Chi-squared = ∑2E (r, c) โดยที่: O (r, c) = ข้อมูลที่สังเกตได้สำหรับแถวและคอลัมน์ที่ระบุ \ start {aligned} & \ text {Chi-squared} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {โดยที่:} \ & O (r, c) = \ text {ข้อมูลที่สังเกตสำหรับแถวและคอลัมน์ที่กำหนด} \ \ end {จัดชิด} Chi-squared = ∑E (r, c) 2 โดยที่: O (r, c) = ข้อมูลที่สังเกตได้สำหรับแถวและคอลัมน์ที่กำหนด
ในตัวอย่างนี้นิพจน์สำหรับแต่ละค่าที่สังเกตคือ:
- O (1, 1) = (400 - 360) 2/360 = 4.44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2.96O (2, 2) = (600 - 540) 2/540 = 6.67O (2, 3) = (100 - 120) 2/120 = 3.33
สถิติไค - สแควร์เท่ากับผลรวมของค่าเหล่านี้หรือ 32.41 จากนั้นเราสามารถดูตารางสถิติไคสแควร์เพื่อดูระดับของเสรีภาพในการตั้งค่าของเราหากผลลัพธ์มีนัยสำคัญทางสถิติหรือไม่