วัตถุประสงค์ของเกณฑ์
เกณฑ์นี้มีวัตถุประสงค์เพื่อเปรียบเทียบการแจกแจงสองแบบ:
ก) เชิงประจักษ์กับทฤษฎี เช่น สม่ำเสมอหรือปกติ
b) การแจกแจงเชิงประจักษ์หนึ่งการแจกแจงเชิงประจักษ์กับอีกการแจกแจงเชิงประจักษ์
เกณฑ์นี้ช่วยให้คุณค้นหาจุดที่ผลรวมของความคลาดเคลื่อนสะสมระหว่างการแจกแจงทั้งสองมีค่ามากที่สุด และเพื่อประเมินความน่าเชื่อถือของความคลาดเคลื่อนนี้
คำอธิบายของเกณฑ์
หากในวิธีนี้เราเปรียบเทียบความถี่ของการแจกแจงสองหลักแยกจากกันด้วยตัวเลขหลักแรก จากนั้นด้วยผลรวมของตัวเลขตัวแรกและตัวที่สอง จากนั้นด้วยผลรวมของตัวเลขตัวแรก ตัวที่สอง และตัวที่สาม เป็นต้น ดังนั้นเราจึงเปรียบเทียบแต่ละครั้งที่มีความถี่สะสมสำหรับหมวดหมู่ที่กำหนด
หากความแตกต่างระหว่างการแจกแจงทั้งสองมีนัยสำคัญ เมื่อถึงจุดหนึ่ง ความแตกต่างในความถี่สะสมจะถึงค่าวิกฤต และเราจะสามารถรับรู้ความแตกต่างนั้นมีนัยสำคัญทางสถิติได้ ความแตกต่างนี้จะรวมอยู่ในสูตรเกณฑ์ ยิ่งค่าเชิงประจักษ์มากเท่าใด ความแตกต่างก็จะยิ่งมีนัยสำคัญมากขึ้นเท่านั้น
สมมติฐาน
ความแตกต่างระหว่างการแจกแจงไม่น่าเชื่อถือ (ตัดสินโดยจุดที่ความคลาดเคลื่อนสะสมสูงสุดระหว่างกัน)
: ความแตกต่างระหว่างการแจกแจงมีนัยสำคัญ (ตัดสินโดยจุดที่ความคลาดเคลื่อนสะสมสูงสุดระหว่างการแจกแจงเหล่านี้)
หากต้องการใช้เกณฑ์ Kolmogorov–Smirnov ต้องปฏิบัติตามเงื่อนไขต่อไปนี้:
1. การวัดสามารถทำได้ตามช่วงเวลาและมาตราส่วนอัตราส่วน
2. ตัวอย่างจะต้องสุ่มและเป็นอิสระ
3. เป็นที่พึงประสงค์ว่าปริมาตรรวมของตัวอย่างทั้งสองคือ ≥ 50 เมื่อปริมาตรตัวอย่างเพิ่มขึ้น ความแม่นยำของเกณฑ์ก็จะเพิ่มขึ้น
4. ข้อมูลเชิงประจักษ์ต้องยอมให้มีความเป็นไปได้ในการเรียงลำดับคุณลักษณะใดๆ จากน้อยไปหามากหรือจากมากไปหาน้อย และจำเป็นต้องสะท้อนถึงการเปลี่ยนแปลงในทิศทางเดียวบางประเภท ในกรณีที่เป็นเรื่องยากที่จะปฏิบัติตามหลักการเรียงลำดับคุณลักษณะควรใช้เกณฑ์ดีกว่า ฮิ-สี่เหลี่ยม.
เกณฑ์นี้ใช้เพื่อแก้ไขปัญหาเดียวกันกับเกณฑ์ ซี-สี่เหลี่ยม. กล่าวอีกนัยหนึ่ง สามารถใช้เพื่อเปรียบเทียบการแจกแจงเชิงประจักษ์กับการแจกแจงเชิงประจักษ์ทางทฤษฎีหนึ่งหรือสองครั้งระหว่างกัน อย่างไรก็ตามหากเมื่อใช้แล้ว ฮิ-กำลังสอง เราเปรียบเทียบความถี่ของการแจกแจงทั้งสองจากนั้นในเกณฑ์นี้จะมีการเปรียบเทียบความถี่สะสม (สะสม) สำหรับแต่ละหมวดหมู่ (ทางเลือก) ยิ่งไปกว่านั้น หากความแตกต่างในความถี่สะสมในการแจกแจงทั้งสองมีมาก ความแตกต่างระหว่างการแจกแจงทั้งสองก็มีนัยสำคัญ
ปัญหา 8.12.สมมติว่าในการทดลอง นักจิตวิทยาจำเป็นต้องใช้แม่พิมพ์หกด้านที่มีตัวเลขอยู่ที่ด้านข้างตั้งแต่ 1 ถึง 6 เพื่อความบริสุทธิ์ของการทดลอง จำเป็นต้องได้แม่พิมพ์ที่ "ในอุดมคติ" กล่าวคือ ในลักษณะที่ว่าด้วยการโยนจำนวนมากเพียงพอ ใบหน้าแต่ละหน้าจะตกลงไปประมาณจำนวนเท่าๆ กัน ภารกิจคือค้นหาว่าคิวบ์ที่กำหนดนั้นใกล้เคียงกับอุดมคติหรือไม่?
สารละลาย.ลองทอยลูกบาศก์ 120 ครั้งแล้วเปรียบเทียบผลการแจกแจงเชิงประจักษ์กับค่าทางทฤษฎี เนื่องจากการแจกแจงทางทฤษฎีมีความเป็นไปได้เท่ากัน ความถี่ทางทฤษฎีที่สอดคล้องกันจึงเท่ากับ 20 เรานำเสนอการกระจายตัวของความถี่เชิงประจักษ์และความถี่ทางทฤษฎีร่วมกันในตาราง 8.15:
ในการคำนวณโดยใช้เกณฑ์ Kolmogorov–Smirnov จำเป็นต้องดำเนินการแปลงข้อมูลจำนวนหนึ่งด้วยข้อมูลในตาราง 8.15 นำเสนอการเปลี่ยนแปลงเหล่านี้ในตาราง 8.16 และอธิบายว่าได้มาอย่างไร:
เครื่องหมาย เอฟ.อี.ในตาราง 8.16 เราจะแสดงความถี่ทางทฤษฎีสะสม ในตารางจะได้ดังนี้: ไปที่ความถี่ตามทฤษฎีแรก 20 ให้เพิ่มความถี่ที่สองซึ่งเท่ากับ 20 เพื่อให้ได้ตัวเลข 20 + 20 = 40 นำตัวเลข 40 มาแทนที่ความถี่ที่สอง จากนั้นความถี่ทางทฤษฎีถัดไปจะถูกบวกเข้ากับตัวเลข 40 ค่าผลลัพธ์ 60 จะถูกแทนที่ความถี่ทางทฤษฎีที่สาม และต่อๆ ไป
เครื่องหมาย FBตารางที่ 8.16 ระบุความถี่เชิงประจักษ์สะสม ในการคำนวณจำเป็นต้องจัดเรียงความถี่เชิงประจักษ์ตามลำดับจากน้อยไปหามาก: 15, 18, 18, 21, 23, 25 แล้วบวกตามลำดับ ดังนั้น อันดับแรก มีความถี่แรกเท่ากับ 15 ความถี่สูงสุดอันดับสองจะถูกเพิ่มเข้าไป และผลลัพธ์รวม 15 + 18 = 33 จะถูกแทนที่ความถี่ที่สอง จากนั้น 18 จะถูกบวกเข้ากับ 33 (33 + 18 = 51 ) ผลลัพธ์ที่ได้คือหมายเลข 51 แทนที่ความถี่ที่สาม ฯลฯ
เครื่องหมาย |เฟ- เอฟบี|ตารางที่ 8.16 ระบุค่าสัมบูรณ์ของความแตกต่างระหว่างความถี่เชิงทฤษฎีและความถี่เชิงประจักษ์สำหรับแต่ละคอลัมน์แยกกัน
ค่าเชิงประจักษ์ของเกณฑ์นี้ซึ่งแสดงว่าเป็น ดี emp ได้รับโดยใช้สูตร (8.13):
เพื่อให้ได้มันมาท่ามกลางตัวเลข |FE - FB|หาจำนวนสูงสุด (ในกรณีของเราคือ 9) แล้วหารด้วยขนาดตัวอย่าง ป.ในกรณีของเรา ป= 120 ดังนั้น
สำหรับเกณฑ์นี้ตารางที่มีค่าวิกฤตจะได้รับในภาคผนวก 1 ภายใต้ข้อ 13 อย่างไรก็ตามจากตารางที่ 13 ของภาคผนวก 1 จะเป็นไปตามนั้นหากจำนวนองค์ประกอบในกลุ่มตัวอย่างมากกว่า 100 ดังนั้นค่า ของค่าวิกฤตคำนวณโดยใช้สูตร (8.14)
เกณฑ์ของโคลโมโกรอฟ-สมีร์นอฟ การทดสอบสมมติฐานเรื่องความเป็นเนื้อเดียวกันของตัวอย่าง
สมมติฐานความเป็นเนื้อเดียวกันของตัวอย่างคือสมมติฐานที่ว่าตัวอย่างที่เป็นปัญหานั้นมาจากประชากรกลุ่มเดียวกันให้มีตัวอย่างอิสระสองตัวอย่างที่ดึงมาจากประชากรทั่วไปที่ไม่ทราบฟังก์ชันการแจกแจงทางทฤษฎี และ
สมมติฐานว่างที่กำลังทดสอบนั้นขัดแย้งกับสมมติฐานที่แข่งขันกัน เราจะถือว่าฟังก์ชันต่างๆ มีความต่อเนื่องและใช้สถิติในการประมาณค่า โคลโมโกรอฟ – สมีร์โนวา.
เกณฑ์ของโคลโมโกรอฟ-สมีร์นอฟใช้แนวคิดเดียวกันกับเกณฑ์ของ Kolmogorov อย่างไรก็ตาม ความแตกต่างก็คือการทดสอบ Kolmogorov เปรียบเทียบฟังก์ชันการแจกแจงเชิงประจักษ์กับฟังก์ชันทางทฤษฎี ในขณะที่การทดสอบ Kolmogorov-Smirnov เปรียบเทียบฟังก์ชันการแจกแจงเชิงประจักษ์สองฟังก์ชัน
สถิติของการทดสอบ Kolmogorov-Smirnov มีรูปแบบ:
, (9.1)
โดยที่ และ เป็นฟังก์ชันการกระจายเชิงประจักษ์ที่สร้างขึ้นจากสองตัวอย่างที่มีปริมาตร และ
สมมติฐานจะถูกปฏิเสธหากค่าที่สังเกตได้จริงของสถิติมากกว่าค่าวิกฤต กล่าวคือ และเป็นที่ยอมรับเป็นอย่างอื่น
สำหรับขนาดตัวอย่างขนาดเล็ก สามารถดูค่าวิกฤตสำหรับระดับความสำคัญของการทดสอบที่กำหนดได้ในตารางพิเศษ เมื่อใด (และในทางปฏิบัติ) การกระจายตัวของสถิติจะลดลงเป็นการแจกแจงของ Kolmogorov สำหรับสถิติ ในกรณีนี้ สมมติฐานจะถูกปฏิเสธที่ระดับนัยสำคัญ หากค่าที่สังเกตได้จริงมากกว่าค่าวิกฤต กล่าวคือ และเป็นที่ยอมรับเป็นอย่างอื่น
ตัวอย่างที่ 1^ การตรวจสอบความเป็นเนื้อเดียวกันของสองตัวอย่าง
มีการตรวจสอบร้านค้าปลีกสองครั้งเพื่อระบุน้ำหนักที่ต่ำกว่าเกณฑ์ ผลลัพธ์ที่ได้สรุปไว้ในตาราง:
↑ หมายเลขช่วง | ช่วงเวลาที่มีน้ำหนักน้อย g | ความถี่ |
|
ตัวอย่างที่ 1 | ตัวอย่างที่ 2 |
||
1 | 0 – 10 | 3 | 5 |
2 | 10 – 20 | 10 | 12 |
3 | 20 – 30 | 15 | 8 |
4 | 30 – 40 | 20 | 25 |
5 | 40 – 50 | 12 | 10 |
6 | 50 – 60 | 5 | 8 |
7 | 60 – 70 | 25 | 20 |
8 | 70 – 80 | 15 | 7 |
9 | 80 – 90 | 5 | 5 |
ปริมาตรของตัวอย่างแรกเท่ากับ และตัวอย่างที่สอง -
สารละลาย:
ให้เราแสดง และ – ความถี่สะสมของกลุ่มตัวอย่าง 1 และ 2; ,
คือค่าของฟังก์ชันการแจกแจงเชิงประจักษ์ตามลำดับ เราสรุปผลการประมวลผลในตาราง:
| | | | | ![]() |
10 | 3 | 5 | 0.027 | 0.050 | 0.023 |
20 | 13 | 17 | 0.118 | 0.170 | 0.052 |
30 | 28 | 25 | 0.254 | 0.250 | 0.004 |
40 | 48 | 50 | 0.436 | 0.500 | 0.064 |
50 | 60 | 60 | 0.545 | 0.600 | 0.055 |
60 | 65 | 68 | 0.591 | 0.680 | 0.089 |
70 | 90 | 88 | 0.818 | 0.880 | 0.072 |
80 | 105 | 95 | 0.955 | 0.950 | 0.005 |
90 | 110 | 100 | 1.000 | 1.000 | 0.000 |
จากคอลัมน์สุดท้ายของตารางจะเห็นได้ว่า เราได้รับโดยใช้สูตร (9.1)
![](https://i1.wp.com/edu.znate.ru/tw_files2/urls_10/623/d-622761/622761_html_m2eeeae67.gif)
^
ความเป็นอิสระทางสถิติและการตรวจจับแนวโน้ม
เมื่อวิเคราะห์ข้อมูลแบบสุ่ม สถานการณ์มักเกิดขึ้นเมื่อคุณต้องการพิจารณาว่าการสังเกตหรือการประมาณค่าพารามิเตอร์มีความเป็นอิสระทางสถิติหรือขึ้นอยู่กับแนวโน้ม นี่เป็นสิ่งสำคัญอย่างยิ่งเมื่อวิเคราะห์ ข้อมูลที่ไม่คงที่
โดยทั่วไปการศึกษาดังกล่าวจะดำเนินการบนพื้นฐาน ปราศจากการแจกแจงหรือ วิธีการแบบไม่มีพารามิเตอร์ซึ่งไม่มีการตั้งสมมติฐานเกี่ยวกับฟังก์ชันการกระจายของข้อมูลที่กำลังศึกษา
^
เกณฑ์ซีรีส์
พิจารณาลำดับของค่าที่สังเกตได้ของตัวแปรสุ่ม โดยแต่ละการสังเกตจะกำหนดให้กับหนึ่งในสองคลาสที่ไม่เกิดร่วมกัน ซึ่งสามารถเขียนแทนได้ง่ายๆ (+) หรือ
- ลองดูตัวอย่างต่างๆ:
ในแต่ละตัวอย่างเหล่านี้ ลำดับของแบบฟอร์มจะถูกสร้างขึ้น:
^ อนุกรมคือลำดับของการสังเกตประเภทเดียวกัน นำหน้าและตามด้วยการสังเกตประเภทตรงกันข้าม หรือไม่มีการสังเกตเลย
ในลำดับที่กำหนด จำนวนการสังเกตจะเท่ากับ ; และมีจำนวนตอนเท่ากับ
หากลำดับของการสังเกตประกอบด้วยผลลัพธ์อิสระของตัวแปรสุ่มเดียวกัน เช่น หากความน่าจะเป็นของผลลัพธ์แต่ละรายการ [(+) หรือ (-)] ไม่เปลี่ยนจากการสังเกตหนึ่งไปอีกการสังเกต ดังนั้นการกระจายตัวสุ่มตัวอย่างของจำนวนอนุกรมในลำดับจะเป็นตัวแปรสุ่มที่มีค่าเฉลี่ยและความแปรปรวน:
(9.2)
(9.3)
โดยจำนวนผลลัพธ์คือ (+) และจำนวนผลลัพธ์คือ (-) โดยธรรมชาติ ในกรณีพิเศษ if แล้ว:
. (9.4)
ให้เราสมมติว่ามีเหตุผลที่จะสงสัยว่ามีแนวโน้มในลำดับการสังเกตเช่น มีเหตุผลที่เชื่อได้ว่าความน่าจะเป็นที่จะเกิดขึ้น (+) หรือ (-) แตกต่างกันไปในแต่ละการสังเกต สามารถตรวจสอบการมีอยู่ของแนวโน้มได้ดังนี้ ให้เรายอมรับว่าเป็นสมมติฐานว่างที่ไม่มีแนวโน้มเช่น ให้เราสมมติว่าการสังเกตเป็นผลลัพธ์อิสระของตัวแปรสุ่มเดียวกัน จากนั้น เพื่อทดสอบสมมติฐานด้วยระดับนัยสำคัญใดๆ ที่ต้องการ จำเป็นต้องเปรียบเทียบจำนวนอนุกรมที่สังเกตได้กับขอบเขตของพื้นที่การยอมรับสมมติฐานเท่ากับ และ โดยที่
หากจำนวนการวิ่งที่สังเกตได้อยู่นอกขอบเขตการยอมรับสมมติฐาน ดังนั้นสมมติฐานว่างควรถูกปฏิเสธด้วยระดับนัยสำคัญเป็น มิฉะนั้นก็สามารถยอมรับสมมติฐานว่างได้
ตัวอย่างที่ 2^ การประยุกต์ใช้เกณฑ์ชุด
มีลำดับของการสังเกตที่เป็นอิสระ:
5.5 | 5.1 | 5.7 | 5.2 | 4.8 | 5.7 | 5.0 | 6.5 | 5.4 | 5.8 |
6.8 | 6.6 | 4.9 | 5.4 | 5.9 | 5.4 | 6.8 | 5.8 | 6.9 | 5.5 |
ลองตรวจสอบความเป็นอิสระของการสังเกตโดยการนับจำนวนอนุกรมในลำดับที่ได้รับโดยการเปรียบเทียบการสังเกตกับค่ามัธยฐาน ลองใช้เกณฑ์ที่มีระดับนัยสำคัญ
จากการวิเคราะห์ข้อมูล เราพบว่าค่าเป็นค่ามัธยฐาน จากนั้นเราจะแนะนำสัญกรณ์ (+) สำหรับ , (–) สำหรับ ดังนั้นเราจึงได้:
ในตัวอย่างของเรา และพื้นที่ของการยอมรับสมมติฐานมีรูปแบบ:
.
เราหาได้จากตารางสถิติ เพราะ
จากประสบการณ์ของฉันในการปกป้องรายงานภาคเรียนและวิทยานิพนธ์ในด้านจิตวิทยา ฉันสังเกตเห็นข้อผิดพลาดทั่วไปและร้ายกาจหลายประการในรายงาน ฉันคิดว่าจะเขียนข้อความเตือนข้อผิดพลาดดังกล่าว ฉันจะขอบคุณถ้านักสถิติตรวจสอบมัน
เพื่อไม่ให้ทิ้งกันเยอะเกินไปแค่ห้าแต้มแรกเท่านั้น
1. หากตามเกณฑ์ของ Kolmogorov-Smirnov ค่า p-value มากกว่า 0.05 (หรือ 0.1) - การแจกแจงเป็นเรื่องปกติ สามารถใช้วิธีพาราเมตริกได้
การทดสอบ Kolmogorov-Smirnov ประเมินความสำคัญของความแตกต่างระหว่างรูปร่างของการแจกแจงทั้งสอง เมื่อทำการทดสอบภาวะปกติ (อันที่จริง นี่เป็นเพียงกรณีพิเศษของการใช้การทดสอบ K-S) เรากำลังพูดถึงการตรวจจับความแตกต่างที่สำคัญระหว่างรูปร่างของการแจกแจงของคุณและแบบจำลองปกติ นั่นคือ ควรเข้าใจค่า p ที่มากกว่า 0.05 (ฯลฯ) เนื่องจาก "ฉันไม่พบความแตกต่างระหว่างการแจกแจงของคุณกับค่าปกติ (ความแตกต่างที่สำคัญในระดับนี้)"
และคุณอาจไม่พบความแตกต่างเพียงเพราะมีข้อมูลน้อยเกินไปที่จะตรวจจับได้ เช่นเดียวกับพนักงานสอบสวนไม่สามารถหาคนร้ายที่มีหลักฐานน้อยได้ นี่ไม่ได้หมายความว่าเรื่องนี้ชัดเจน
ดังนั้น โคลโมโกรอฟ-สมีร์นอฟจึงเป็นเกณฑ์ที่มีความต้องการอย่างมากในแง่ของปริมาณข้อมูล ซึ่งเริ่มทำงานอย่างเพียงพอกับตัวอย่างประมาณ 80 ตัว ยิ่งตัวอย่างมีขนาดเล็กเท่าไร การจะตรวจพบสิ่งใดก็ยากมากขึ้นเท่านั้น ในกลุ่มตัวอย่างจำนวน 20-40 คน ซึ่งเป็นเรื่องปกติในเอกสารของนักเรียน การทดสอบ Kolmogorov-Smirnov จะระบุว่า "ฉันไม่เห็นความแตกต่างใดๆ" เกือบทุกครั้ง ไม่ว่าการกระจายตัวของคุณจะบิดเบือนแค่ไหนก็ตาม
ตอนนี้ลองนึกภาพความน่ากลัวของสถานการณ์เมื่อก่อนอื่นเลยนักเรียนทำการทดสอบ Kolmogorov-Smirnov กับผู้ตอบแบบสอบถามจำนวนเล็กน้อยสรุปอย่างสนุกสนานเกี่ยวกับภาวะปกติและใช้วิธีการแบบพาราเมตริกโดยประมาทหรือไม่? สิ่งนี้ทำให้เกิดคำถามกับทุกสิ่งที่เขาได้รับในงานของเขาในภายหลัง
ด้วยตัวอย่างหลายสิบตัวอย่าง (แต่อย่างมีนัยสำคัญน้อยกว่า 80) เราควรพูดถึงความปกติตามเงื่อนไขของข้อมูลซึ่งประเมินผ่านค่าของความไม่สมมาตรและความโด่งเมื่อเปรียบเทียบกับข้อผิดพลาดมาตรฐาน หากตัวอย่างมีประมาณ 20 ก็แสดงว่าไม่มีและไม่สามารถเป็นเรื่องปกติได้ที่นี่ ไม่เคย. ตรงไปที่สถิติแบบไม่มีพารามิเตอร์
2. หากตัวอย่างการศึกษาโดยรวมมีการแจกแจงแบบปกติ คุณสามารถเปรียบเทียบสิ่งใดๆ กับอะไรก็ได้โดยใช้วิธีพาราเมตริก
ความจำเป็นในการแจกแจงแบบปกติสำหรับวิธีพาราเมตริกนั้นเกิดจากการอาศัยค่าเฉลี่ย (และพารามิเตอร์การแจกแจงอื่น ๆ ) เมื่อกลุ่มไม่มีการแจกแจงแบบปกติ ค่าเฉลี่ยอาจไม่มีความหมาย (ค่าเฉลี่ยของตัวเลข 9, 10, 11 และ 130 คือ 40 - ผลลัพธ์ไม่เหมือนกับตัวเลขใดๆ ที่ถูกเฉลี่ย) และเมื่อมีภาวะปกติ ค่าเฉลี่ยก็จะมีความหมายอย่างแน่นอน
ดังนั้น เมื่อเปรียบเทียบสองกลุ่มโดยใช้ค่าเฉลี่ย คุณจะต้องมีสองวิธีที่มีความหมาย เมื่อเปรียบเทียบสาม-สามเป็นต้น คุณจะต้องใช้การแจกแจงแบบปกติสำหรับตัวอย่างทั่วไปเท่านั้น หากคุณกำลังหาข้อสรุปเกี่ยวกับตัวอย่างทั่วไปนี้ และคุณมีกี่กลุ่มที่คุณศึกษาโดยใช้วิธีพาราเมตริก - นั่นคือจำนวนที่คุณควรมี (แบบมีเงื่อนไข) การแจกแจงแบบปกติ
3. หากคุณได้รับการแจกแจงแบบปกติ คุณสามารถวิเคราะห์ความแปรปรวนได้
การวิเคราะห์การกระจายตัวมีความเสี่ยงเพียงเล็กน้อยต่อการแจกแจงที่ไม่ปกติ (ยกเว้นบางกรณีพิเศษ) การทดสอบตัวอย่างย่อยเพื่อความปกติเป็นสิ่งที่พึงประสงค์ แต่มีแนวโน้มว่าจะไม่มีอะไรเลวร้ายเกิดขึ้นจากการละเมิดภาวะปกติ
อย่างไรก็ตาม การวิเคราะห์ความแปรปรวนทำให้มีความต้องการพิเศษเพิ่มเติมอีกสองประการเกี่ยวกับข้อมูล ประการแรก ไม่ควรมีความแตกต่างที่มีนัยสำคัญในเรื่องความแปรปรวนภายในกลุ่ม (ทดสอบโดยการทดสอบ Liven) - สิ่งนี้ก่อให้เกิดภัยคุกคามร้ายแรงหากกลุ่มของคุณมีขนาดแตกต่างกันอย่างเห็นได้ชัด ประการที่สองและที่สำคัญที่สุด ปัจจัยสำหรับการวิเคราะห์ความแปรปรวนหลายตัวแปรจะต้องเป็นอิสระจากกัน อย่าละเมิดเงื่อนไขนี้ อย่าใช้ตัวบ่งชี้ที่เกี่ยวข้องเป็นปัจจัย! ดังนั้น การแก้ปัญหาอย่างเพียงพอสามารถทำได้โดยการสร้างแบบจำลองเชิงโครงสร้างเท่านั้น ไม่ใช่โดยการวิเคราะห์ความแปรปรวน
เพื่อให้ชีวิตของคุณง่ายขึ้น สำหรับการวิเคราะห์ความแปรปรวนหลายตัวแปร วิธีที่ดีที่สุดคือพิมพ์รหัสที่ซับซ้อนทันที ความซับซ้อนที่เหมือนกันคือเมื่อการรวมกันของปัจจัยที่เป็นไปได้ทั้งหมดคิดเป็นจำนวนการสังเกตที่เท่ากัน (เช่น หญิงสาวอุซเบก 16 คน หญิงสาวตาตาร์ 16 คน หญิงสาวรัสเซีย 16 คน ชายชาวอุซเบก 16 คน ชายตาตาร์ 16 คน ชายหนุ่ม 16 คน - ชาวรัสเซีย ผู้หญิงอุซเบกสูงอายุ 16 คน ผู้หญิงตาตาร์สูงอายุ 16 คน ผู้หญิงรัสเซียสูงอายุ 16 คน ชายอุซเบกสูงอายุ 16 คน ชายตาตาร์สูงอายุ 16 คน ชายรัสเซียสูงอายุ 16 คน)
5.การวิเคราะห์สหสัมพันธ์ช่วยให้เราสามารถระบุความสัมพันธ์ได้
คำว่า “ความสัมพันธ์” มักปรากฏอยู่ในผลงานที่องค์กรไม่อนุญาตให้ค้นพบเหตุและผล นักเรียนมักจะตระหนักดีว่าความสัมพันธ์ไม่ได้หมายถึง "อิทธิพล" ซึ่งเป็นคำที่พวกเขาระมัดระวังในการแทนที่ด้วย "ความสัมพันธ์"
แค่คิดเกี่ยวกับเสียงของคำ การเชื่อมต่อซึ่งกันและกัน นั่นก็คือการสื่อสารทั้งสองทิศทาง หาก A เชื่อมโยงถึงกันกับ B หมายความว่าผ่าน A จะมีอิทธิพลบางอย่างต่อ B และในเวลาเดียวกันผ่าน B ก็มีอิทธิพลบางอย่างต่อ A คุณคิดอย่างไรหากความสัมพันธ์ไม่สามารถยืนยันอิทธิพลได้แม้ในทิศทางเดียว ยืนยันอิทธิพลทั้งสองฝ่ายได้หรือไม่?
ความสัมพันธ์ไม่ได้แสดงการโต้ตอบ แต่เป็นเพียงการเชื่อมต่อ ไม่จำเป็นต้องเป็นแบบทวิภาคี การเชื่อมต่อสามารถทำได้ทางเดียวอย่างเคร่งครัด: มีเพียง X เท่านั้นที่ส่งผลต่อ Y โดยไม่มีข้อเสนอแนะใด ๆ หรือในทางกลับกัน: มีเพียง Y เท่านั้นที่มีอิทธิพลต่อ X ความสัมพันธ์สามารถตอบแทนซึ่งกันและกันได้อย่างแท้จริง โดยทั่วไป จะมีการไกล่เกลี่ยโดย Z ที่สามเท่านั้น เมื่อ X และ Y ไม่มีผลกระทบโดยตรงต่อกัน หนังสือเรียนของไมเยอร์สกล่าวว่าความสูงของหลุมศพมีความสัมพันธ์อย่างมากกับจำนวนปีที่มีอายุยืนยาว เนื่องจากยิ่งบุคคลมีอายุยืนยาว เขาก็ยิ่งร่ำรวยมากขึ้น และอนุสาวรีย์ที่หรูหรายิ่งขึ้นที่ญาติของเขาสั่ง (แน่นอนว่าสิ่งนี้ใช้ได้กับประเทศตะวันตก) . สหสัมพันธ์แสดงให้เห็นถึงความเชื่อมโยงบางอย่าง โดยตัวมันเองไม่ได้แยกความแตกต่างระหว่างกรณีที่มีอิทธิพลทางเดียว อิทธิพลสองทาง หรืออิทธิพลทางอ้อม และการพูดถึง “ความสัมพันธ์” ซึ่งมีเพียงความสัมพันธ์อยู่ในมือนั้นก็ไม่มีเหตุผลอะไรมากไปกว่าการพูดถึง “อิทธิพล”
ในขั้นตอนการอธิบายสถิติ ข้อผิดพลาดนั้นเป็นเพียงภาษาศาสตร์ล้วนๆ และแก้ไขได้ง่าย ปัญหาเกิดขึ้นเมื่อในขั้นตอนการตีความ บุคคลเชื่อว่าเขาได้พิสูจน์ความสัมพันธ์แล้ว และเริ่มพูดคุยเกี่ยวกับความสัมพันธ์ซึ่งกันและกันของ X และ Y
เกณฑ์ของ Kolmogorov สำหรับสมมติฐานง่ายๆ เป็นเกณฑ์ที่ง่ายที่สุดในการทดสอบสมมติฐานเกี่ยวกับประเภทของกฎหมายการกระจาย มันเชื่อมโยงฟังก์ชันการแจกแจงเชิงประจักษ์กับฟังก์ชันการแจกแจง
ตัวแปรสุ่มต่อเนื่อง เอ็กซ์.
อนุญาต - ตัวอย่างเฉพาะจากการแจกแจงที่มีฟังก์ชันการแจกแจงต่อเนื่องที่ไม่รู้จัก
และ
- ฟังก์ชันการกระจายเชิงประจักษ์ มีการเสนอสมมติฐานง่ายๆ
:
(ทางเลือก
:
,
).
สาระสำคัญของเกณฑ์ Kolmogorov คือการนำฟังก์ชันนี้มาพิจารณา
(7)
เรียกว่า สถิติของโคลโมโกรอฟแสดงถึงค่าเบี่ยงเบนสูงสุดของฟังก์ชันการแจกแจงเชิงประจักษ์
จากฟังก์ชันการแจกแจงเชิงสมมุติ (เช่น เชิงทฤษฎีที่สอดคล้องกัน)
.
Kolmogorov พิสูจน์ว่าเมื่อใด กฎการกระจายตัวแปรสุ่ม
โดยไม่คำนึงถึงประเภทของการกระจายค. วี. เอ็กซ์
มุ่งมั่นเพื่อ กฎหมายการกระจาย Kolmogorov:
ที่ไหน เค(เอ็กซ์)- ฟังก์ชั่นการแจกแจง Kolmogorov ซึ่งรวบรวมตารางแล้วสามารถนำมาใช้ในการคำนวณได้แล้วที่ ป≥ 20:
|
เราจะพบ
ดังนั้น
พิจารณาสมการ เมื่อใช้ฟังก์ชัน Kolmogorov เราจะค้นหาค่า (root
)
สมการนี้ จากนั้นตามทฤษฎีบทของโคลโมโกรอฟ จะได้ว่า
ที่ไหน
ถ้า ,
แล้วสมมติฐาน
ไม่มีเหตุผลที่จะปฏิเสธ มิฉะนั้นจะถูกข้องแวะ
ตัวอย่างที่ 3โยนเหรียญ 4,040 ครั้ง (บุฟฟ่อน) ได้รับ การสูญเสียแขนเสื้อและ
ตะแกรงหลุดออกมา ตรวจสอบการใช้งาน
ก) เกณฑ์ของ Kolmogorov;
b) เกณฑ์ของเพียร์สันว่าข้อมูลเหล่านี้สอดคล้องกับสมมติฐานหรือไม่
เกี่ยวกับความสมมาตรของเหรียญ (
0.05).
ค่าสุ่ม เอ็กซ์
รับสองค่า: (ขัดแตะ);
(แขนเสื้อ). สมมติฐาน
:.
ก) เมื่อใช้ตารางการแจกแจง Kolmogorov เราจะค้นหารากของสมการ ที่
-
ควร
- แล้ว
ให้ค้นหาตามตัวอย่าง
ฟังก์ชั่นอาคาร
และ
.
|
|
|
|
และคำนวณค่า x |
และคำนวณค่า 1 = -1 |
และคำนวณค่า 2 = -1 |
ฉัน x | ||
n x |
|
|
พี ค่าเบี่ยงเบนสูงสุด
จาก
เท่ากับ 0.007 เช่น
= 0.007. เพราะว่า
ก็ไม่มีเหตุผลที่จะปฏิเสธสมมติฐาน
- ข้อมูลการทดลองสอดคล้องกับสมมติฐาน
เกี่ยวกับความสมมาตรของเหรียญ
b) คำนวณสถิติ χ 2 ตามตารางครับ
การกระจายตัวเราจะพบจุดวิกฤติ
เพราะ
จากนั้นข้อมูลการทดลองจะสอดคล้องกับสมมติฐานเกี่ยวกับความสมมาตรของเหรียญ
7. เกณฑ์ความเป็นเนื้อเดียวกันของ Smirnov เพื่อทดสอบสมมติฐานของรูปแบบ (2) (ดู 20.2) เกี่ยวกับความเป็นเนื้อเดียวกันของตัวอย่างตั้งแต่สองตัวอย่างขึ้นไป ให้ใช้:
เกณฑ์ความเป็นเนื้อเดียวกัน ในที่นี้ เราจะจำกัดตัวเองอยู่เฉพาะกรณีพิเศษของเกณฑ์นี้สำหรับสองตัวอย่าง (เช่น
(9)
- เกณฑ์ความเป็นเนื้อเดียวกันของ Smirnov ใช้เป็นสถิติเชิงวิพากษ์ซึ่งมีรูปแบบ: ที่ไหน
จำนวนองค์ประกอบตัวอย่าง
จำนวนองค์ประกอบของตัวอย่างที่หนึ่งและที่สองตามลำดับรวมอยู่ใน
ช่วงเวลาที่. หากสมมติฐานเป็นจริง
ขนาด
โดยจะแบ่งประมาณตามกฎหมาย
กับ
ระดับความเป็นอิสระ สมมติฐาน
ถูกหักล้างถ้า
และ หรือ
.
ยอมรับสำหรับค่าอื่น ๆ ทั้งหมดของเกณฑ์
พิจารณาปัญหาการผลิตต่อไปนี้ตัวอย่างที่ 4 ตารางด้านล่างแสดงข้อมูลแบบมีเงื่อนไข .
เกี่ยวกับค่าจ้างคนงานในวิสาหกิจสองประเภท: อุตสาหกรรมสิ่งทอและวิศวกรรม ซึ่งได้มาจากการสำรวจทางสังคมวิทยา ปริมาตรของตัวอย่างทั้งสองจะแสดงเป็น |
ช่วงเงินเดือน |
|
|
||
จำนวนองค์ประกอบตัวอย่างที่อยู่ในช่วงเวลานี้ |
สิ่งทอ |
||||
สารละลาย.วิศวกรรมเครื่องกล เรามาตรวจสอบสมมติฐานกัน (ในระดับนัยสำคัญ
) ว่าการกระจายความน่าจะเป็นสำหรับค่าจ้างในอุตสาหกรรมที่วิเคราะห์ไม่แตกต่างกัน การคำนวณมูลค่าเพิ่มเติม
(10)
ตามสูตรเกณฑ์ Smirnov (9) โดยคำนึงถึงข้อมูลในตารางที่ให้ออกกำลังกาย.
ตรวจสอบสมการนี้ด้วยตัวเอง -การกระจาย (ดูภาคผนวก) เรากำหนดจุดวิกฤติ:
- ด้วยเหตุนี้ สมมติฐานเกี่ยวกับความบังเอิญของการกระจายความน่าจะเป็นของค่าจ้างในสองอุตสาหกรรมจึงต้องถูกปฏิเสธ เนื่องจาก
- ในกรณีนี้ ความน่าจะเป็นของข้อผิดพลาดที่ยอมรับได้คือ 0.05
เกณฑ์ความเป็นเนื้อเดียวกันของ Smirnov หมายถึง การทดสอบแบบไม่อิงพารามิเตอร์(ไม่เหมือนกับเกณฑ์ของเพียร์สัน) เนื่องจากสถิติเชิงวิพากษ์ที่ใช้ในเกณฑ์ดังกล่าวไม่ได้ขึ้นอยู่กับสมมติฐานของเราเกี่ยวกับการกระจายตัวของกฎของตัวแปรสุ่มแต่อย่างใด
เกณฑ์นี้มีวัตถุประสงค์เพื่อเปรียบเทียบการแจกแจงสองแบบ: เชิงประจักษ์กับทฤษฎีเช่น สม่ำเสมอหรือปกติ การแจกแจงเชิงประจักษ์อันหนึ่งกับการกระจายเชิงประจักษ์อีกอันหนึ่ง.
เกณฑ์นี้ช่วยให้คุณค้นหาจุดที่ผลรวมของความคลาดเคลื่อนสะสมระหว่างการแจกแจงทั้งสองมีค่ามากที่สุด และเพื่อประเมินความน่าเชื่อถือของความคลาดเคลื่อนนี้
นั่นคืออันดับแรกความถี่จะถูกเปรียบเทียบด้วยตัวเลขตัวแรกจากนั้นด้วยผลรวมของตัวเลขตัวแรกและตัวที่สองจากนั้นด้วยผลรวมของตัวเลขตัวแรกตัวที่สองและสามเป็นต้น ดังนั้นความถี่ที่สะสมสำหรับตัวเลขที่กำหนดจะถูกเปรียบเทียบ แต่ละครั้ง.
หากความแตกต่างระหว่างการแจกแจงทั้งสองมีนัยสำคัญ เมื่อถึงจุดหนึ่ง ความแตกต่างในความถี่สะสมจะถึงค่าวิกฤต ซึ่งทำหน้าที่เป็นพื้นฐานในการรับรู้ความแตกต่างว่ามีนัยสำคัญทางสถิติ ความแตกต่างนี้รวมอยู่ในสูตรสำหรับเกณฑ์ แล ยิ่งค่าเชิงประจักษ์ของ γ มากเท่าใด ความแตกต่างก็จะยิ่งมีนัยสำคัญมากขึ้นเท่านั้น
ข้อ จำกัด ของการทดสอบ Kolmogorov-Smirnov
1. เกณฑ์กำหนดให้ตัวอย่างมีขนาดใหญ่เพียงพอ เมื่อเปรียบเทียบการแจกแจงเชิงประจักษ์สองแบบ จำเป็นต้องมี n 1,2 ≥ 50 การเปรียบเทียบการแจกแจงเชิงประจักษ์กับแบบเชิงทฤษฎีบางครั้งอนุญาตให้ทำได้ที่ n ≥ 5 (Van der Waerden B.L., 1960; Gubler E.V., 1978)
2. หมวดหมู่ต้องเรียงลำดับจากน้อยไปหามากหรือจากมากไปน้อยของแอตทริบิวต์ใดๆ พวกเขาจะต้องสะท้อนถึงการเปลี่ยนแปลงในทิศทางเดียวบางอย่าง ตัวอย่างเช่น คุณสามารถใช้เวลาวันในสัปดาห์, เดือนที่ 1, 2, 3 หลังจากเสร็จสิ้นการบำบัด, อุณหภูมิร่างกายที่เพิ่มขึ้น, ความรู้สึกไม่เพียงพอที่เพิ่มขึ้น ฯลฯ เป็นการปลดปล่อย ในเวลาเดียวกัน หากเรานำการปล่อยประจุที่เกิดขึ้นตามลำดับที่กำหนด การสะสมของความถี่จะสะท้อนให้เห็นเฉพาะองค์ประกอบของความใกล้เคียงแบบสุ่มของการปล่อยประจุนี้เท่านั้น ตัวอย่างเช่น หากนำเสนอภาพกระตุ้นหกภาพในวิธีของเฮคเฮาเซนต่อวิชาต่างๆ ในลำดับที่ต่างกัน ก็เป็นไปไม่ได้ที่จะพูดถึงการสะสมปฏิกิริยาระหว่างการเปลี่ยนจากภาพที่ 1 ของชุดมาตรฐานไปเป็นภาพที่ 2 เป็นต้น เป็นไปไม่ได้ที่จะพูดถึงการเปลี่ยนแปลงทิศทางเดียวในสัญลักษณ์เมื่อเปรียบเทียบหมวดหมู่ "ลำดับการเกิด" "" "สัญชาติ" "ข้อมูลเฉพาะของการศึกษาที่ได้รับ" ฯลฯ ข้อมูลเหล่านี้แสดงถึงระดับการเสนอชื่อ: ไม่มีการเปลี่ยนแปลงทิศทางเดียวที่ชัดเจนในแอตทริบิวต์
ดังนั้นจึงเป็นไปไม่ได้ที่จะสะสมความถี่ในหมวดหมู่ที่แตกต่างกันในเชิงคุณภาพเท่านั้นและไม่ได้แสดงถึงระดับของการสั่งซื้อ ในทุกกรณีที่หมวดหมู่ไม่ได้เรียงลำดับจากน้อยไปหามากหรือจากมากไปหาน้อยของแอตทริบิวต์ใดๆ ก็จะเป็นไปตามนั้น
การคำนวณอัตโนมัติของเกณฑ์ Kolmogorov-Smirnov
ในการคำนวณข้อมูลตามเกณฑ์ คุณต้อง:
เปิดใช้งานการสนับสนุน JavaScript;
เลือกประเภทของการแจกแจงที่จะเปรียบเทียบ: "เชิงประจักษ์กับเชิงทฤษฎี" หรือ "เชิงประจักษ์กับเชิงประจักษ์";
ป้อนข้อมูลตัวเลข (เพื่อเพิ่มหรือลด) ความถี่ ข้อมูลต้องป้อนหนึ่งหมายเลขต่อบรรทัด ไม่มีการเว้นวรรค การละเว้น ฯลฯ ป้อนเฉพาะตัวเลขเท่านั้น
ทำการคำนวณโดยคลิกที่ปุ่ม "ขั้นตอนที่ 2"
ในกรณีที่การทำงานของสคริปต์ไม่ถูกต้อง (ข้อผิดพลาดในการคำนวณ ฯลฯ ) เราขอให้คุณ
บทความที่คล้ายกัน