Winsorized Mean คืออะไร
Winsorized Mean เป็นวิธีการหาค่าเฉลี่ยที่เริ่มแทนที่ค่าที่เล็กที่สุดและใหญ่ที่สุดด้วยการสังเกตที่ใกล้เคียงที่สุด สิ่งนี้ทำเพื่อ จำกัด ผลกระทบของค่ามากผิดปกติหรือค่าผิดปกติในการคำนวณ หลังจากแทนที่ค่าแล้วสูตรค่าเฉลี่ยเลขคณิตจะถูกใช้เพื่อคำนวณค่าเฉลี่ยที่ได้รับรางวัล
สูตรสำหรับค่าเฉลี่ยที่ชำระได้คือ
Winsorized Mean = Nxn … xn + 1 + xn + 2 … xn โดยที่: n = จำนวนดาต้าพอยท์ที่ใหญ่ที่สุดและเล็กที่สุดที่จะถูกแทนที่ด้วยการสังเกต
วิธีการแบบ Winsorized ถูกแสดงในสองวิธี "k n " winsorized หมายถึงการแทนที่การสังเกต 'k' ที่เล็กที่สุดและใหญ่ที่สุดโดยที่ 'k' เป็นจำนวนเต็ม "X%" winsorized หมายถึงเกี่ยวข้องกับการแทนที่เปอร์เซ็นต์ของค่าจากปลายทั้งสองของข้อมูล
วิธีการคำนวณค่าเฉลี่ย Winsorized
ค่าเฉลี่ย winsorized จะคำนวณโดยแทนที่จุดข้อมูลที่เล็กที่สุดและใหญ่ที่สุดจากนั้นรวมจุดข้อมูลทั้งหมดและหารผลรวมด้วยจำนวนจุดข้อมูลทั้งหมด
Winsorized หมายถึงอะไรบอกคุณ
ค่าเฉลี่ยที่ได้รับรางวัลนั้นไวต่อค่าผิดปกติน้อยกว่าเพราะสามารถแทนที่ค่าเหล่านั้นด้วยค่าที่น้อยที่สุด นั่นคือมีความอ่อนไหวน้อยกว่าเมื่อเปรียบเทียบกับค่าเฉลี่ย อย่างไรก็ตามหากการกระจายมีไขมันหางผลของการลบค่าสูงสุดและต่ำสุดในการแจกแจงจะมีผลเพียงเล็กน้อยเนื่องจากจำนวนความแปรปรวนในตัวเลขการกระจายสูง
ประเด็นที่สำคัญ
- วิธีการหาค่าเฉลี่ยซึ่งรวมถึงการแทนที่ค่าที่น้อยที่สุดและใหญ่ที่สุดด้วยการสังเกตที่ใกล้เคียงกับพวกมันน้อยที่สุดมีความอ่อนไหวต่อค่าผิดปกติเพราะมันสามารถแทนที่พวกมันด้วยค่าที่น้อยที่สุดมันต่างจากค่าเฉลี่ย มีแนวโน้มที่จะใกล้ชิด
ตัวอย่างของวิธีการใช้ค่าเฉลี่ย Winsorized
เราสามารถคำนวณค่า winsorized สำหรับชุดข้อมูลต่อไปนี้: 1, 5, 7, 8, 9, 10, 14 ในตัวอย่างนี้เราถือว่าค่าเฉลี่ยของ winsorized อยู่ในลำดับแรกเราแทนที่ค่าที่เล็กที่สุดและใหญ่ที่สุดด้วย ข้อสังเกตที่ใกล้ที่สุด
ชุดข้อมูลจะปรากฏดังต่อไปนี้: 5, 5, 7, 8, 9, 10, 10. การคำนวณค่าเฉลี่ยเลขคณิตของชุดใหม่จะสร้างค่าเฉลี่ยที่ได้รับชัยชนะเท่ากับ 7.7 หรือ (5 + 5 + 7 + 8 + 9 + 10 + 10) หารด้วย 7
หรือพิจารณาค่าเฉลี่ยที่ได้รับรางวัล 20% ซึ่งใช้ 10% แรกและ 10% ต่ำสุดและแทนที่ด้วยค่าที่ใกล้เคียงที่สุดถัดไป เราจะชนะชุดข้อมูลต่อไปนี้: 2, 4, 7, 8, 11, 14, 18, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75 จุดข้อมูลที่เล็กที่สุดและใหญ่ที่สุดหรือ 10% จะถูกแทนที่ด้วยค่าที่ใกล้เคียงที่สุด ดังนั้นชุดข้อมูลใหม่คือ: 7, 7, 7, 8, 11, 14, 18, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61, 61 ค่าเฉลี่ยคือ 33.9 หรือผลรวมของข้อมูล (678) หารด้วยจำนวนจุดข้อมูลทั้งหมด (20)
ความแตกต่างระหว่างค่าเฉลี่ยที่ชำระแล้วและค่าเฉลี่ยที่ตัดออก
ค่าเฉลี่ยที่ได้รับรางวัลรวมถึงการแก้ไขจุดข้อมูลในขณะที่ค่าเฉลี่ยที่ถูกตัดจะเกี่ยวข้องกับการลบจุดข้อมูล เป็นเรื่องปกติสำหรับค่าเฉลี่ยที่ได้รับและค่าเฉลี่ยที่ถูกตัดให้ใกล้เคียง
ข้อ จำกัด ในการใช้ Winsorized Mean
ข้อเสียที่สำคัญประการหนึ่งสำหรับวิธีการที่ได้รับรางวัลคือการที่พวกเขาแนะนำอคติในชุดข้อมูล จริงอยู่ที่ชุดข้อมูลนั้นมีความเอนเอียงน้อยกว่าหลังจากที่มีการปรับเปลี่ยนมากกว่าถ้าปล่อยทิ้งไว้
เรียนรู้เพิ่มเติมเกี่ยวกับค่าเฉลี่ย Winsorized
สำหรับข้อมูลเชิงลึกที่เกี่ยวข้องเกี่ยวกับความแตกต่างระหว่างการคำนวณค่าเฉลี่ยหลัก