คำนวณค่าสถิติสำหรับเกณฑ์ Kolmogorov ตัวแปรสุ่ม. เกณฑ์ของโคลโมโกรอฟ ความเป็นอิสระทางสถิติและการตรวจจับแนวโน้ม

วัตถุประสงค์ของเกณฑ์

เกณฑ์นี้มีวัตถุประสงค์เพื่อเปรียบเทียบการแจกแจงสองแบบ:

ก) เชิงประจักษ์กับทฤษฎี เช่น สม่ำเสมอหรือปกติ

b) การแจกแจงเชิงประจักษ์หนึ่งการแจกแจงเชิงประจักษ์กับอีกการแจกแจงเชิงประจักษ์

เกณฑ์นี้ช่วยให้คุณค้นหาจุดที่ผลรวมของความคลาดเคลื่อนสะสมระหว่างการแจกแจงทั้งสองมีค่ามากที่สุด และเพื่อประเมินความน่าเชื่อถือของความคลาดเคลื่อนนี้

คำอธิบายของเกณฑ์

หากในวิธีนี้เราเปรียบเทียบความถี่ของการแจกแจงสองหลักแยกจากกันด้วยตัวเลขหลักแรก จากนั้นด้วยผลรวมของตัวเลขตัวแรกและตัวที่สอง จากนั้นด้วยผลรวมของตัวเลขตัวแรก ตัวที่สอง และตัวที่สาม เป็นต้น ดังนั้นเราจึงเปรียบเทียบแต่ละครั้งที่มีความถี่สะสมสำหรับหมวดหมู่ที่กำหนด

หากความแตกต่างระหว่างการแจกแจงทั้งสองมีนัยสำคัญ เมื่อถึงจุดหนึ่ง ความแตกต่างในความถี่สะสมจะถึงค่าวิกฤต และเราจะสามารถรับรู้ความแตกต่างนั้นมีนัยสำคัญทางสถิติได้ ความแตกต่างนี้จะรวมอยู่ในสูตรเกณฑ์ ยิ่งค่าเชิงประจักษ์มากเท่าใด ความแตกต่างก็จะยิ่งมีนัยสำคัญมากขึ้นเท่านั้น

สมมติฐาน

ความแตกต่างระหว่างการแจกแจงไม่น่าเชื่อถือ (ตัดสินโดยจุดที่ความคลาดเคลื่อนสะสมสูงสุดระหว่างกัน)

: ความแตกต่างระหว่างการแจกแจงมีนัยสำคัญ (ตัดสินโดยจุดที่ความคลาดเคลื่อนสะสมสูงสุดระหว่างการแจกแจงเหล่านี้)

หากต้องการใช้เกณฑ์ Kolmogorov–Smirnov ต้องปฏิบัติตามเงื่อนไขต่อไปนี้:

1. การวัดสามารถทำได้ตามช่วงเวลาและมาตราส่วนอัตราส่วน

2. ตัวอย่างจะต้องสุ่มและเป็นอิสระ

3. เป็นที่พึงประสงค์ว่าปริมาตรรวมของตัวอย่างทั้งสองคือ ≥ 50 เมื่อปริมาตรตัวอย่างเพิ่มขึ้น ความแม่นยำของเกณฑ์ก็จะเพิ่มขึ้น

4. ข้อมูลเชิงประจักษ์ต้องยอมให้มีความเป็นไปได้ในการเรียงลำดับคุณลักษณะใดๆ จากน้อยไปหามากหรือจากมากไปหาน้อย และจำเป็นต้องสะท้อนถึงการเปลี่ยนแปลงในทิศทางเดียวบางประเภท ในกรณีที่เป็นเรื่องยากที่จะปฏิบัติตามหลักการเรียงลำดับคุณลักษณะควรใช้เกณฑ์ดีกว่า ฮิ-สี่เหลี่ยม.

เกณฑ์นี้ใช้เพื่อแก้ไขปัญหาเดียวกันกับเกณฑ์ ซี-สี่เหลี่ยม. กล่าวอีกนัยหนึ่ง สามารถใช้เพื่อเปรียบเทียบการแจกแจงเชิงประจักษ์กับการแจกแจงเชิงประจักษ์ทางทฤษฎีหนึ่งหรือสองครั้งระหว่างกัน อย่างไรก็ตามหากเมื่อใช้แล้ว ฮิ-กำลังสอง เราเปรียบเทียบความถี่ของการแจกแจงทั้งสองจากนั้นในเกณฑ์นี้จะมีการเปรียบเทียบความถี่สะสม (สะสม) สำหรับแต่ละหมวดหมู่ (ทางเลือก) ยิ่งไปกว่านั้น หากความแตกต่างในความถี่สะสมในการแจกแจงทั้งสองมีมาก ความแตกต่างระหว่างการแจกแจงทั้งสองก็มีนัยสำคัญ

ปัญหา 8.12.สมมติว่าในการทดลอง นักจิตวิทยาจำเป็นต้องใช้แม่พิมพ์หกด้านที่มีตัวเลขอยู่ที่ด้านข้างตั้งแต่ 1 ถึง 6 เพื่อความบริสุทธิ์ของการทดลอง จำเป็นต้องได้แม่พิมพ์ที่ "ในอุดมคติ" กล่าวคือ ในลักษณะที่ว่าด้วยการโยนจำนวนมากเพียงพอ ใบหน้าแต่ละหน้าจะตกลงไปประมาณจำนวนเท่าๆ กัน ภารกิจคือค้นหาว่าคิวบ์ที่กำหนดนั้นใกล้เคียงกับอุดมคติหรือไม่?

สารละลาย.ลองทอยลูกบาศก์ 120 ครั้งแล้วเปรียบเทียบผลการแจกแจงเชิงประจักษ์กับค่าทางทฤษฎี เนื่องจากการแจกแจงทางทฤษฎีมีความเป็นไปได้เท่ากัน ความถี่ทางทฤษฎีที่สอดคล้องกันจึงเท่ากับ 20 เรานำเสนอการกระจายตัวของความถี่เชิงประจักษ์และความถี่ทางทฤษฎีร่วมกันในตาราง 8.15:

ในการคำนวณโดยใช้เกณฑ์ Kolmogorov–Smirnov จำเป็นต้องดำเนินการแปลงข้อมูลจำนวนหนึ่งด้วยข้อมูลในตาราง 8.15 นำเสนอการเปลี่ยนแปลงเหล่านี้ในตาราง 8.16 และอธิบายว่าได้มาอย่างไร:

เครื่องหมาย เอฟ.อี.ในตาราง 8.16 เราจะแสดงความถี่ทางทฤษฎีสะสม ในตารางจะได้ดังนี้: ไปที่ความถี่ตามทฤษฎีแรก 20 ให้เพิ่มความถี่ที่สองซึ่งเท่ากับ 20 เพื่อให้ได้ตัวเลข 20 + 20 = 40 นำตัวเลข 40 มาแทนที่ความถี่ที่สอง จากนั้นความถี่ทางทฤษฎีถัดไปจะถูกบวกเข้ากับตัวเลข 40 ค่าผลลัพธ์ 60 จะถูกแทนที่ความถี่ทางทฤษฎีที่สาม และต่อๆ ไป

เครื่องหมาย FBตารางที่ 8.16 ระบุความถี่เชิงประจักษ์สะสม ในการคำนวณจำเป็นต้องจัดเรียงความถี่เชิงประจักษ์ตามลำดับจากน้อยไปหามาก: 15, 18, 18, 21, 23, 25 แล้วบวกตามลำดับ ดังนั้น อันดับแรก มีความถี่แรกเท่ากับ 15 ความถี่สูงสุดอันดับสองจะถูกเพิ่มเข้าไป และผลลัพธ์รวม 15 + 18 = 33 จะถูกแทนที่ความถี่ที่สอง จากนั้น 18 จะถูกบวกเข้ากับ 33 (33 + 18 = 51 ) ผลลัพธ์ที่ได้คือหมายเลข 51 แทนที่ความถี่ที่สาม ฯลฯ

เครื่องหมาย |เฟ- เอฟบี|ตารางที่ 8.16 ระบุค่าสัมบูรณ์ของความแตกต่างระหว่างความถี่เชิงทฤษฎีและความถี่เชิงประจักษ์สำหรับแต่ละคอลัมน์แยกกัน

ค่าเชิงประจักษ์ของเกณฑ์นี้ซึ่งแสดงว่าเป็น ดี emp ได้รับโดยใช้สูตร (8.13):

เพื่อให้ได้มันมาท่ามกลางตัวเลข |FE - FB|หาจำนวนสูงสุด (ในกรณีของเราคือ 9) แล้วหารด้วยขนาดตัวอย่าง ป.ในกรณีของเรา = 120 ดังนั้น

สำหรับเกณฑ์นี้ตารางที่มีค่าวิกฤตจะได้รับในภาคผนวก 1 ภายใต้ข้อ 13 อย่างไรก็ตามจากตารางที่ 13 ของภาคผนวก 1 จะเป็นไปตามนั้นหากจำนวนองค์ประกอบในกลุ่มตัวอย่างมากกว่า 100 ดังนั้นค่า ​ของค่าวิกฤตคำนวณโดยใช้สูตร (8.14)

เกณฑ์ของโคลโมโกรอฟ-สมีร์นอฟ การทดสอบสมมติฐานเรื่องความเป็นเนื้อเดียวกันของตัวอย่าง

สมมติฐานความเป็นเนื้อเดียวกันของตัวอย่างคือสมมติฐานที่ว่าตัวอย่างที่เป็นปัญหานั้นมาจากประชากรกลุ่มเดียวกัน

ให้มีตัวอย่างอิสระสองตัวอย่างที่ดึงมาจากประชากรทั่วไปที่ไม่ทราบฟังก์ชันการแจกแจงทางทฤษฎี และ

สมมติฐานว่างที่กำลังทดสอบนั้นขัดแย้งกับสมมติฐานที่แข่งขันกัน เราจะถือว่าฟังก์ชันต่างๆ มีความต่อเนื่องและใช้สถิติในการประมาณค่า โคลโมโกรอฟ – สมีร์โนวา.

เกณฑ์ของโคลโมโกรอฟ-สมีร์นอฟใช้แนวคิดเดียวกันกับเกณฑ์ของ Kolmogorov อย่างไรก็ตาม ความแตกต่างก็คือการทดสอบ Kolmogorov เปรียบเทียบฟังก์ชันการแจกแจงเชิงประจักษ์กับฟังก์ชันทางทฤษฎี ในขณะที่การทดสอบ Kolmogorov-Smirnov เปรียบเทียบฟังก์ชันการแจกแจงเชิงประจักษ์สองฟังก์ชัน

สถิติของการทดสอบ Kolmogorov-Smirnov มีรูปแบบ:

, (9.1)

โดยที่ และ เป็นฟังก์ชันการกระจายเชิงประจักษ์ที่สร้างขึ้นจากสองตัวอย่างที่มีปริมาตร และ

สมมติฐานจะถูกปฏิเสธหากค่าที่สังเกตได้จริงของสถิติมากกว่าค่าวิกฤต กล่าวคือ และเป็นที่ยอมรับเป็นอย่างอื่น

สำหรับขนาดตัวอย่างขนาดเล็ก สามารถดูค่าวิกฤตสำหรับระดับความสำคัญของการทดสอบที่กำหนดได้ในตารางพิเศษ เมื่อใด (และในทางปฏิบัติ) การกระจายตัวของสถิติจะลดลงเป็นการแจกแจงของ Kolmogorov สำหรับสถิติ ในกรณีนี้ สมมติฐานจะถูกปฏิเสธที่ระดับนัยสำคัญ หากค่าที่สังเกตได้จริงมากกว่าค่าวิกฤต กล่าวคือ และเป็นที่ยอมรับเป็นอย่างอื่น

ตัวอย่างที่ 1^ การตรวจสอบความเป็นเนื้อเดียวกันของสองตัวอย่าง

มีการตรวจสอบร้านค้าปลีกสองครั้งเพื่อระบุน้ำหนักที่ต่ำกว่าเกณฑ์ ผลลัพธ์ที่ได้สรุปไว้ในตาราง:


↑ หมายเลขช่วง

ช่วงเวลาที่มีน้ำหนักน้อย g

ความถี่

ตัวอย่างที่ 1

ตัวอย่างที่ 2

1

0 – 10

3

5

2

10 – 20

10

12

3

20 – 30

15

8

4

30 – 40

20

25

5

40 – 50

12

10

6

50 – 60

5

8

7

60 – 70

25

20

8

70 – 80

15

7

9

80 – 90

5

5

ปริมาตรของตัวอย่างแรกเท่ากับ และตัวอย่างที่สอง -

สารละลาย:

ให้เราแสดง และ – ความถี่สะสมของกลุ่มตัวอย่าง 1 และ 2;
, คือค่าของฟังก์ชันการแจกแจงเชิงประจักษ์ตามลำดับ เราสรุปผลการประมวลผลในตาราง:














10

3

5

0.027

0.050

0.023

20

13

17

0.118

0.170

0.052

30

28

25

0.254

0.250

0.004

40

48

50

0.436

0.500

0.064

50

60

60

0.545

0.600

0.055

60

65

68

0.591

0.680

0.089

70

90

88

0.818

0.880

0.072

80

105

95

0.955

0.950

0.005

90

110

100

1.000

1.000

0.000

จากคอลัมน์สุดท้ายของตารางจะเห็นได้ว่า เราได้รับโดยใช้สูตร (9.1) - จากตารางสถิติจะทราบได้ว่า ตั้งแต่นั้นมา สมมติฐานว่างก็ได้รับการยอมรับ เช่น น้ำหนักที่น้อยเกินไปสำหรับผู้ซื้อจะอธิบายโดยฟังก์ชันการจัดจำหน่ายแบบเดียวกัน

^

ความเป็นอิสระทางสถิติและการตรวจจับแนวโน้ม


เมื่อวิเคราะห์ข้อมูลแบบสุ่ม สถานการณ์มักเกิดขึ้นเมื่อคุณต้องการพิจารณาว่าการสังเกตหรือการประมาณค่าพารามิเตอร์มีความเป็นอิสระทางสถิติหรือขึ้นอยู่กับแนวโน้ม นี่เป็นสิ่งสำคัญอย่างยิ่งเมื่อวิเคราะห์ ข้อมูลที่ไม่คงที่

โดยทั่วไปการศึกษาดังกล่าวจะดำเนินการบนพื้นฐาน ปราศจากการแจกแจงหรือ วิธีการแบบไม่มีพารามิเตอร์ซึ่งไม่มีการตั้งสมมติฐานเกี่ยวกับฟังก์ชันการกระจายของข้อมูลที่กำลังศึกษา
^

เกณฑ์ซีรีส์


พิจารณาลำดับของค่าที่สังเกตได้ของตัวแปรสุ่ม โดยแต่ละการสังเกตจะกำหนดให้กับหนึ่งในสองคลาสที่ไม่เกิดร่วมกัน ซึ่งสามารถเขียนแทนได้ง่ายๆ (+) หรือ
- ลองดูตัวอย่างต่างๆ:

ในแต่ละตัวอย่างเหล่านี้ ลำดับของแบบฟอร์มจะถูกสร้างขึ้น:

^ อนุกรมคือลำดับของการสังเกตประเภทเดียวกัน นำหน้าและตามด้วยการสังเกตประเภทตรงกันข้าม หรือไม่มีการสังเกตเลย

ในลำดับที่กำหนด จำนวนการสังเกตจะเท่ากับ ; และมีจำนวนตอนเท่ากับ

หากลำดับของการสังเกตประกอบด้วยผลลัพธ์อิสระของตัวแปรสุ่มเดียวกัน เช่น หากความน่าจะเป็นของผลลัพธ์แต่ละรายการ [(+) หรือ (-)] ไม่เปลี่ยนจากการสังเกตหนึ่งไปอีกการสังเกต ดังนั้นการกระจายตัวสุ่มตัวอย่างของจำนวนอนุกรมในลำดับจะเป็นตัวแปรสุ่มที่มีค่าเฉลี่ยและความแปรปรวน:

(9.2)

(9.3)

โดยจำนวนผลลัพธ์คือ (+) และจำนวนผลลัพธ์คือ (-) โดยธรรมชาติ ในกรณีพิเศษ if แล้ว:

. (9.4)

ให้เราสมมติว่ามีเหตุผลที่จะสงสัยว่ามีแนวโน้มในลำดับการสังเกตเช่น มีเหตุผลที่เชื่อได้ว่าความน่าจะเป็นที่จะเกิดขึ้น (+) หรือ (-) แตกต่างกันไปในแต่ละการสังเกต สามารถตรวจสอบการมีอยู่ของแนวโน้มได้ดังนี้ ให้เรายอมรับว่าเป็นสมมติฐานว่างที่ไม่มีแนวโน้มเช่น ให้เราสมมติว่าการสังเกตเป็นผลลัพธ์อิสระของตัวแปรสุ่มเดียวกัน จากนั้น เพื่อทดสอบสมมติฐานด้วยระดับนัยสำคัญใดๆ ที่ต้องการ จำเป็นต้องเปรียบเทียบจำนวนอนุกรมที่สังเกตได้กับขอบเขตของพื้นที่การยอมรับสมมติฐานเท่ากับ และ โดยที่

หากจำนวนการวิ่งที่สังเกตได้อยู่นอกขอบเขตการยอมรับสมมติฐาน ดังนั้นสมมติฐานว่างควรถูกปฏิเสธด้วยระดับนัยสำคัญเป็น มิฉะนั้นก็สามารถยอมรับสมมติฐานว่างได้

ตัวอย่างที่ 2^ การประยุกต์ใช้เกณฑ์ชุด

มีลำดับของการสังเกตที่เป็นอิสระ:


5.5

5.1

5.7

5.2

4.8

5.7

5.0

6.5

5.4

5.8

6.8

6.6

4.9

5.4

5.9

5.4

6.8

5.8

6.9

5.5

ลองตรวจสอบความเป็นอิสระของการสังเกตโดยการนับจำนวนอนุกรมในลำดับที่ได้รับโดยการเปรียบเทียบการสังเกตกับค่ามัธยฐาน ลองใช้เกณฑ์ที่มีระดับนัยสำคัญ

จากการวิเคราะห์ข้อมูล เราพบว่าค่าเป็นค่ามัธยฐาน จากนั้นเราจะแนะนำสัญกรณ์ (+) สำหรับ , (–) สำหรับ ดังนั้นเราจึงได้:

ในตัวอย่างของเรา และพื้นที่ของการยอมรับสมมติฐานมีรูปแบบ:

.

เราหาได้จากตารางสถิติ เพราะ

จากประสบการณ์ของฉันในการปกป้องรายงานภาคเรียนและวิทยานิพนธ์ในด้านจิตวิทยา ฉันสังเกตเห็นข้อผิดพลาดทั่วไปและร้ายกาจหลายประการในรายงาน ฉันคิดว่าจะเขียนข้อความเตือนข้อผิดพลาดดังกล่าว ฉันจะขอบคุณถ้านักสถิติตรวจสอบมัน

เพื่อไม่ให้ทิ้งกันเยอะเกินไปแค่ห้าแต้มแรกเท่านั้น


1. หากตามเกณฑ์ของ Kolmogorov-Smirnov ค่า p-value มากกว่า 0.05 (หรือ 0.1) - การแจกแจงเป็นเรื่องปกติ สามารถใช้วิธีพาราเมตริกได้

การทดสอบ Kolmogorov-Smirnov ประเมินความสำคัญของความแตกต่างระหว่างรูปร่างของการแจกแจงทั้งสอง เมื่อทำการทดสอบภาวะปกติ (อันที่จริง นี่เป็นเพียงกรณีพิเศษของการใช้การทดสอบ K-S) เรากำลังพูดถึงการตรวจจับความแตกต่างที่สำคัญระหว่างรูปร่างของการแจกแจงของคุณและแบบจำลองปกติ นั่นคือ ควรเข้าใจค่า p ที่มากกว่า 0.05 (ฯลฯ) เนื่องจาก "ฉันไม่พบความแตกต่างระหว่างการแจกแจงของคุณกับค่าปกติ (ความแตกต่างที่สำคัญในระดับนี้)"

และคุณอาจไม่พบความแตกต่างเพียงเพราะมีข้อมูลน้อยเกินไปที่จะตรวจจับได้ เช่นเดียวกับพนักงานสอบสวนไม่สามารถหาคนร้ายที่มีหลักฐานน้อยได้ นี่ไม่ได้หมายความว่าเรื่องนี้ชัดเจน

ดังนั้น โคลโมโกรอฟ-สมีร์นอฟจึงเป็นเกณฑ์ที่มีความต้องการอย่างมากในแง่ของปริมาณข้อมูล ซึ่งเริ่มทำงานอย่างเพียงพอกับตัวอย่างประมาณ 80 ตัว ยิ่งตัวอย่างมีขนาดเล็กเท่าไร การจะตรวจพบสิ่งใดก็ยากมากขึ้นเท่านั้น ในกลุ่มตัวอย่างจำนวน 20-40 คน ซึ่งเป็นเรื่องปกติในเอกสารของนักเรียน การทดสอบ Kolmogorov-Smirnov จะระบุว่า "ฉันไม่เห็นความแตกต่างใดๆ" เกือบทุกครั้ง ไม่ว่าการกระจายตัวของคุณจะบิดเบือนแค่ไหนก็ตาม

ตอนนี้ลองนึกภาพความน่ากลัวของสถานการณ์เมื่อก่อนอื่นเลยนักเรียนทำการทดสอบ Kolmogorov-Smirnov กับผู้ตอบแบบสอบถามจำนวนเล็กน้อยสรุปอย่างสนุกสนานเกี่ยวกับภาวะปกติและใช้วิธีการแบบพาราเมตริกโดยประมาทหรือไม่? สิ่งนี้ทำให้เกิดคำถามกับทุกสิ่งที่เขาได้รับในงานของเขาในภายหลัง

ด้วยตัวอย่างหลายสิบตัวอย่าง (แต่อย่างมีนัยสำคัญน้อยกว่า 80) เราควรพูดถึงความปกติตามเงื่อนไขของข้อมูลซึ่งประเมินผ่านค่าของความไม่สมมาตรและความโด่งเมื่อเปรียบเทียบกับข้อผิดพลาดมาตรฐาน หากตัวอย่างมีประมาณ 20 ก็แสดงว่าไม่มีและไม่สามารถเป็นเรื่องปกติได้ที่นี่ ไม่เคย. ตรงไปที่สถิติแบบไม่มีพารามิเตอร์

2. หากตัวอย่างการศึกษาโดยรวมมีการแจกแจงแบบปกติ คุณสามารถเปรียบเทียบสิ่งใดๆ กับอะไรก็ได้โดยใช้วิธีพาราเมตริก

ความจำเป็นในการแจกแจงแบบปกติสำหรับวิธีพาราเมตริกนั้นเกิดจากการอาศัยค่าเฉลี่ย (และพารามิเตอร์การแจกแจงอื่น ๆ ) เมื่อกลุ่มไม่มีการแจกแจงแบบปกติ ค่าเฉลี่ยอาจไม่มีความหมาย (ค่าเฉลี่ยของตัวเลข 9, 10, 11 และ 130 คือ 40 - ผลลัพธ์ไม่เหมือนกับตัวเลขใดๆ ที่ถูกเฉลี่ย) และเมื่อมีภาวะปกติ ค่าเฉลี่ยก็จะมีความหมายอย่างแน่นอน

ดังนั้น เมื่อเปรียบเทียบสองกลุ่มโดยใช้ค่าเฉลี่ย คุณจะต้องมีสองวิธีที่มีความหมาย เมื่อเปรียบเทียบสาม-สามเป็นต้น คุณจะต้องใช้การแจกแจงแบบปกติสำหรับตัวอย่างทั่วไปเท่านั้น หากคุณกำลังหาข้อสรุปเกี่ยวกับตัวอย่างทั่วไปนี้ และคุณมีกี่กลุ่มที่คุณศึกษาโดยใช้วิธีพาราเมตริก - นั่นคือจำนวนที่คุณควรมี (แบบมีเงื่อนไข) การแจกแจงแบบปกติ

3. หากคุณได้รับการแจกแจงแบบปกติ คุณสามารถวิเคราะห์ความแปรปรวนได้

การวิเคราะห์การกระจายตัวมีความเสี่ยงเพียงเล็กน้อยต่อการแจกแจงที่ไม่ปกติ (ยกเว้นบางกรณีพิเศษ) การทดสอบตัวอย่างย่อยเพื่อความปกติเป็นสิ่งที่พึงประสงค์ แต่มีแนวโน้มว่าจะไม่มีอะไรเลวร้ายเกิดขึ้นจากการละเมิดภาวะปกติ

อย่างไรก็ตาม การวิเคราะห์ความแปรปรวนทำให้มีความต้องการพิเศษเพิ่มเติมอีกสองประการเกี่ยวกับข้อมูล ประการแรก ไม่ควรมีความแตกต่างที่มีนัยสำคัญในเรื่องความแปรปรวนภายในกลุ่ม (ทดสอบโดยการทดสอบ Liven) - สิ่งนี้ก่อให้เกิดภัยคุกคามร้ายแรงหากกลุ่มของคุณมีขนาดแตกต่างกันอย่างเห็นได้ชัด ประการที่สองและที่สำคัญที่สุด ปัจจัยสำหรับการวิเคราะห์ความแปรปรวนหลายตัวแปรจะต้องเป็นอิสระจากกัน อย่าละเมิดเงื่อนไขนี้ อย่าใช้ตัวบ่งชี้ที่เกี่ยวข้องเป็นปัจจัย! ดังนั้น การแก้ปัญหาอย่างเพียงพอสามารถทำได้โดยการสร้างแบบจำลองเชิงโครงสร้างเท่านั้น ไม่ใช่โดยการวิเคราะห์ความแปรปรวน

เพื่อให้ชีวิตของคุณง่ายขึ้น สำหรับการวิเคราะห์ความแปรปรวนหลายตัวแปร วิธีที่ดีที่สุดคือพิมพ์รหัสที่ซับซ้อนทันที ความซับซ้อนที่เหมือนกันคือเมื่อการรวมกันของปัจจัยที่เป็นไปได้ทั้งหมดคิดเป็นจำนวนการสังเกตที่เท่ากัน (เช่น หญิงสาวอุซเบก 16 คน หญิงสาวตาตาร์ 16 คน หญิงสาวรัสเซีย 16 คน ชายชาวอุซเบก 16 คน ชายตาตาร์ 16 คน ชายหนุ่ม 16 คน - ชาวรัสเซีย ผู้หญิงอุซเบกสูงอายุ 16 คน ผู้หญิงตาตาร์สูงอายุ 16 คน ผู้หญิงรัสเซียสูงอายุ 16 คน ชายอุซเบกสูงอายุ 16 คน ชายตาตาร์สูงอายุ 16 คน ชายรัสเซียสูงอายุ 16 คน)

5.การวิเคราะห์สหสัมพันธ์ช่วยให้เราสามารถระบุความสัมพันธ์ได้

คำว่า “ความสัมพันธ์” มักปรากฏอยู่ในผลงานที่องค์กรไม่อนุญาตให้ค้นพบเหตุและผล นักเรียนมักจะตระหนักดีว่าความสัมพันธ์ไม่ได้หมายถึง "อิทธิพล" ซึ่งเป็นคำที่พวกเขาระมัดระวังในการแทนที่ด้วย "ความสัมพันธ์"

แค่คิดเกี่ยวกับเสียงของคำ การเชื่อมต่อซึ่งกันและกัน นั่นก็คือการสื่อสารทั้งสองทิศทาง หาก A เชื่อมโยงถึงกันกับ B หมายความว่าผ่าน A จะมีอิทธิพลบางอย่างต่อ B และในเวลาเดียวกันผ่าน B ก็มีอิทธิพลบางอย่างต่อ A คุณคิดอย่างไรหากความสัมพันธ์ไม่สามารถยืนยันอิทธิพลได้แม้ในทิศทางเดียว ยืนยันอิทธิพลทั้งสองฝ่ายได้หรือไม่?

ความสัมพันธ์ไม่ได้แสดงการโต้ตอบ แต่เป็นเพียงการเชื่อมต่อ ไม่จำเป็นต้องเป็นแบบทวิภาคี การเชื่อมต่อสามารถทำได้ทางเดียวอย่างเคร่งครัด: มีเพียง X เท่านั้นที่ส่งผลต่อ Y โดยไม่มีข้อเสนอแนะใด ๆ หรือในทางกลับกัน: มีเพียง Y เท่านั้นที่มีอิทธิพลต่อ X ความสัมพันธ์สามารถตอบแทนซึ่งกันและกันได้อย่างแท้จริง โดยทั่วไป จะมีการไกล่เกลี่ยโดย Z ที่สามเท่านั้น เมื่อ X และ Y ไม่มีผลกระทบโดยตรงต่อกัน หนังสือเรียนของไมเยอร์สกล่าวว่าความสูงของหลุมศพมีความสัมพันธ์อย่างมากกับจำนวนปีที่มีอายุยืนยาว เนื่องจากยิ่งบุคคลมีอายุยืนยาว เขาก็ยิ่งร่ำรวยมากขึ้น และอนุสาวรีย์ที่หรูหรายิ่งขึ้นที่ญาติของเขาสั่ง (แน่นอนว่าสิ่งนี้ใช้ได้กับประเทศตะวันตก) . สหสัมพันธ์แสดงให้เห็นถึงความเชื่อมโยงบางอย่าง โดยตัวมันเองไม่ได้แยกความแตกต่างระหว่างกรณีที่มีอิทธิพลทางเดียว อิทธิพลสองทาง หรืออิทธิพลทางอ้อม และการพูดถึง “ความสัมพันธ์” ซึ่งมีเพียงความสัมพันธ์อยู่ในมือนั้นก็ไม่มีเหตุผลอะไรมากไปกว่าการพูดถึง “อิทธิพล”

ในขั้นตอนการอธิบายสถิติ ข้อผิดพลาดนั้นเป็นเพียงภาษาศาสตร์ล้วนๆ และแก้ไขได้ง่าย ปัญหาเกิดขึ้นเมื่อในขั้นตอนการตีความ บุคคลเชื่อว่าเขาได้พิสูจน์ความสัมพันธ์แล้ว และเริ่มพูดคุยเกี่ยวกับความสัมพันธ์ซึ่งกันและกันของ X และ Y

เกณฑ์ของ Kolmogorov สำหรับสมมติฐานง่ายๆ เป็นเกณฑ์ที่ง่ายที่สุดในการทดสอบสมมติฐานเกี่ยวกับประเภทของกฎหมายการกระจาย มันเชื่อมโยงฟังก์ชันการแจกแจงเชิงประจักษ์กับฟังก์ชันการแจกแจง
ตัวแปรสุ่มต่อเนื่อง เอ็กซ์.

อนุญาต
- ตัวอย่างเฉพาะจากการแจกแจงที่มีฟังก์ชันการแจกแจงต่อเนื่องที่ไม่รู้จัก
และ
- ฟังก์ชันการกระจายเชิงประจักษ์ มีการเสนอสมมติฐานง่ายๆ
:
(ทางเลือก :
,
).

สาระสำคัญของเกณฑ์ Kolmogorov คือการนำฟังก์ชันนี้มาพิจารณา

(7)

เรียกว่า สถิติของโคลโมโกรอฟแสดงถึงค่าเบี่ยงเบนสูงสุดของฟังก์ชันการแจกแจงเชิงประจักษ์
จากฟังก์ชันการแจกแจงเชิงสมมุติ (เช่น เชิงทฤษฎีที่สอดคล้องกัน)
.

Kolmogorov พิสูจน์ว่าเมื่อใด
กฎการกระจายตัวแปรสุ่ม
โดยไม่คำนึงถึงประเภทของการกระจายค. วี. เอ็กซ์ มุ่งมั่นเพื่อ กฎหมายการกระจาย Kolmogorov:

ที่ไหน เค(เอ็กซ์)- ฟังก์ชั่นการแจกแจง Kolmogorov ซึ่งรวบรวมตารางแล้วสามารถนำมาใช้ในการคำนวณได้แล้วที่ ≥ 20:

เราจะพบ ดังนั้น

พิจารณาสมการ
เมื่อใช้ฟังก์ชัน Kolmogorov เราจะค้นหาค่า (root ) สมการนี้ จากนั้นตามทฤษฎีบทของโคลโมโกรอฟ จะได้ว่า

ที่ไหน

ถ้า
, แล้วสมมติฐาน ไม่มีเหตุผลที่จะปฏิเสธ มิฉะนั้นจะถูกข้องแวะ

ตัวอย่างที่ 3โยนเหรียญ 4,040 ครั้ง (บุฟฟ่อน) ได้รับ
การสูญเสียแขนเสื้อและ
ตะแกรงหลุดออกมา ตรวจสอบการใช้งาน

ก) เกณฑ์ของ Kolmogorov;

b) เกณฑ์ของเพียร์สันว่าข้อมูลเหล่านี้สอดคล้องกับสมมติฐานหรือไม่ เกี่ยวกับความสมมาตรของเหรียญ (
0.05).

ค่าสุ่ม เอ็กซ์ รับสองค่า:
(ขัดแตะ);
(แขนเสื้อ). สมมติฐาน :.

ก) เมื่อใช้ตารางการแจกแจง Kolmogorov เราจะค้นหารากของสมการ
ที่
-
ควร

- แล้ว ให้ค้นหาตามตัวอย่าง
ฟังก์ชั่นอาคาร
และ
.

= -1

= -1


และคำนวณค่า x

และคำนวณค่า 1 = -1

และคำนวณค่า 2 = -1

ฉัน x

n x

0,493

0,507

พี
ค่าเบี่ยงเบนสูงสุด
จาก เท่ากับ 0.007 เช่น
= 0.007. เพราะว่า
ก็ไม่มีเหตุผลที่จะปฏิเสธสมมติฐาน
- ข้อมูลการทดลองสอดคล้องกับสมมติฐาน

เกี่ยวกับความสมมาตรของเหรียญ

b) คำนวณสถิติ χ 2
ตามตารางครับ
การกระจายตัวเราจะพบจุดวิกฤติ
เพราะ

จากนั้นข้อมูลการทดลองจะสอดคล้องกับสมมติฐานเกี่ยวกับความสมมาตรของเหรียญ

7. เกณฑ์ความเป็นเนื้อเดียวกันของ Smirnov เพื่อทดสอบสมมติฐานของรูปแบบ (2) (ดู 20.2) เกี่ยวกับความเป็นเนื้อเดียวกันของตัวอย่างตั้งแต่สองตัวอย่างขึ้นไป ให้ใช้:

เกณฑ์ความเป็นเนื้อเดียวกัน
ในที่นี้ เราจะจำกัดตัวเองอยู่เฉพาะกรณีพิเศษของเกณฑ์นี้สำหรับสองตัวอย่าง (เช่น

(9)

- เกณฑ์ความเป็นเนื้อเดียวกันของ Smirnov ใช้เป็นสถิติเชิงวิพากษ์ซึ่งมีรูปแบบ:
ที่ไหน
จำนวนองค์ประกอบตัวอย่าง
จำนวนองค์ประกอบของตัวอย่างที่หนึ่งและที่สองตามลำดับรวมอยู่ใน

ช่วงเวลาที่.
หากสมมติฐานเป็นจริง ขนาด โดยจะแบ่งประมาณตามกฎหมาย
กับ ระดับความเป็นอิสระ สมมติฐาน
ถูกหักล้างถ้า
และ หรือ.

ยอมรับสำหรับค่าอื่น ๆ ทั้งหมดของเกณฑ์

พิจารณาปัญหาการผลิตต่อไปนี้ตัวอย่างที่ 4 ตารางด้านล่างแสดงข้อมูลแบบมีเงื่อนไข
.

เกี่ยวกับค่าจ้างคนงานในวิสาหกิจสองประเภท: อุตสาหกรรมสิ่งทอและวิศวกรรม ซึ่งได้มาจากการสำรวจทางสังคมวิทยา ปริมาตรของตัวอย่างทั้งสองจะแสดงเป็น

ช่วงเงินเดือน

จำนวนองค์ประกอบตัวอย่างที่อยู่ในช่วงเวลานี้

สิ่งทอ

สารละลาย.วิศวกรรมเครื่องกล
เรามาตรวจสอบสมมติฐานกัน (ในระดับนัยสำคัญ

) ว่าการกระจายความน่าจะเป็นสำหรับค่าจ้างในอุตสาหกรรมที่วิเคราะห์ไม่แตกต่างกัน การคำนวณมูลค่าเพิ่มเติม

(10)

ตามสูตรเกณฑ์ Smirnov (9) โดยคำนึงถึงข้อมูลในตารางที่ให้ออกกำลังกาย.

ตรวจสอบสมการนี้ด้วยตัวเอง -การกระจาย (ดูภาคผนวก) เรากำหนดจุดวิกฤติ:
- ด้วยเหตุนี้ สมมติฐานเกี่ยวกับความบังเอิญของการกระจายความน่าจะเป็นของค่าจ้างในสองอุตสาหกรรมจึงต้องถูกปฏิเสธ เนื่องจาก
- ในกรณีนี้ ความน่าจะเป็นของข้อผิดพลาดที่ยอมรับได้คือ 0.05

เกณฑ์ความเป็นเนื้อเดียวกันของ Smirnov หมายถึง การทดสอบแบบไม่อิงพารามิเตอร์(ไม่เหมือนกับเกณฑ์ของเพียร์สัน) เนื่องจากสถิติเชิงวิพากษ์ที่ใช้ในเกณฑ์ดังกล่าวไม่ได้ขึ้นอยู่กับสมมติฐานของเราเกี่ยวกับการกระจายตัวของกฎของตัวแปรสุ่มแต่อย่างใด

เกณฑ์นี้มีวัตถุประสงค์เพื่อเปรียบเทียบการแจกแจงสองแบบ: เชิงประจักษ์กับทฤษฎีเช่น สม่ำเสมอหรือปกติ การแจกแจงเชิงประจักษ์อันหนึ่งกับการกระจายเชิงประจักษ์อีกอันหนึ่ง.

เกณฑ์นี้ช่วยให้คุณค้นหาจุดที่ผลรวมของความคลาดเคลื่อนสะสมระหว่างการแจกแจงทั้งสองมีค่ามากที่สุด และเพื่อประเมินความน่าเชื่อถือของความคลาดเคลื่อนนี้

นั่นคืออันดับแรกความถี่จะถูกเปรียบเทียบด้วยตัวเลขตัวแรกจากนั้นด้วยผลรวมของตัวเลขตัวแรกและตัวที่สองจากนั้นด้วยผลรวมของตัวเลขตัวแรกตัวที่สองและสามเป็นต้น ดังนั้นความถี่ที่สะสมสำหรับตัวเลขที่กำหนดจะถูกเปรียบเทียบ แต่ละครั้ง.

หากความแตกต่างระหว่างการแจกแจงทั้งสองมีนัยสำคัญ เมื่อถึงจุดหนึ่ง ความแตกต่างในความถี่สะสมจะถึงค่าวิกฤต ซึ่งทำหน้าที่เป็นพื้นฐานในการรับรู้ความแตกต่างว่ามีนัยสำคัญทางสถิติ ความแตกต่างนี้รวมอยู่ในสูตรสำหรับเกณฑ์ แล ยิ่งค่าเชิงประจักษ์ของ γ มากเท่าใด ความแตกต่างก็จะยิ่งมีนัยสำคัญมากขึ้นเท่านั้น

ข้อ จำกัด ของการทดสอบ Kolmogorov-Smirnov

1. เกณฑ์กำหนดให้ตัวอย่างมีขนาดใหญ่เพียงพอ เมื่อเปรียบเทียบการแจกแจงเชิงประจักษ์สองแบบ จำเป็นต้องมี n 1,2 ≥ 50 การเปรียบเทียบการแจกแจงเชิงประจักษ์กับแบบเชิงทฤษฎีบางครั้งอนุญาตให้ทำได้ที่ n ≥ 5 (Van der Waerden B.L., 1960; Gubler E.V., 1978)

2. หมวดหมู่ต้องเรียงลำดับจากน้อยไปหามากหรือจากมากไปน้อยของแอตทริบิวต์ใดๆ พวกเขาจะต้องสะท้อนถึงการเปลี่ยนแปลงในทิศทางเดียวบางอย่าง ตัวอย่างเช่น คุณสามารถใช้เวลาวันในสัปดาห์, เดือนที่ 1, 2, 3 หลังจากเสร็จสิ้นการบำบัด, อุณหภูมิร่างกายที่เพิ่มขึ้น, ความรู้สึกไม่เพียงพอที่เพิ่มขึ้น ฯลฯ เป็นการปลดปล่อย ในเวลาเดียวกัน หากเรานำการปล่อยประจุที่เกิดขึ้นตามลำดับที่กำหนด การสะสมของความถี่จะสะท้อนให้เห็นเฉพาะองค์ประกอบของความใกล้เคียงแบบสุ่มของการปล่อยประจุนี้เท่านั้น ตัวอย่างเช่น หากนำเสนอภาพกระตุ้นหกภาพในวิธีของเฮคเฮาเซนต่อวิชาต่างๆ ในลำดับที่ต่างกัน ก็เป็นไปไม่ได้ที่จะพูดถึงการสะสมปฏิกิริยาระหว่างการเปลี่ยนจากภาพที่ 1 ของชุดมาตรฐานไปเป็นภาพที่ 2 เป็นต้น เป็นไปไม่ได้ที่จะพูดถึงการเปลี่ยนแปลงทิศทางเดียวในสัญลักษณ์เมื่อเปรียบเทียบหมวดหมู่ "ลำดับการเกิด" "" "สัญชาติ" "ข้อมูลเฉพาะของการศึกษาที่ได้รับ" ฯลฯ ข้อมูลเหล่านี้แสดงถึงระดับการเสนอชื่อ: ไม่มีการเปลี่ยนแปลงทิศทางเดียวที่ชัดเจนในแอตทริบิวต์

ดังนั้นจึงเป็นไปไม่ได้ที่จะสะสมความถี่ในหมวดหมู่ที่แตกต่างกันในเชิงคุณภาพเท่านั้นและไม่ได้แสดงถึงระดับของการสั่งซื้อ ในทุกกรณีที่หมวดหมู่ไม่ได้เรียงลำดับจากน้อยไปหามากหรือจากมากไปหาน้อยของแอตทริบิวต์ใดๆ ก็จะเป็นไปตามนั้น

การคำนวณอัตโนมัติของเกณฑ์ Kolmogorov-Smirnov

ในการคำนวณข้อมูลตามเกณฑ์ คุณต้อง:

เปิดใช้งานการสนับสนุน JavaScript;

เลือกประเภทของการแจกแจงที่จะเปรียบเทียบ: "เชิงประจักษ์กับเชิงทฤษฎี" หรือ "เชิงประจักษ์กับเชิงประจักษ์";

ป้อนข้อมูลตัวเลข (เพื่อเพิ่มหรือลด) ความถี่ ข้อมูลต้องป้อนหนึ่งหมายเลขต่อบรรทัด ไม่มีการเว้นวรรค การละเว้น ฯลฯ ป้อนเฉพาะตัวเลขเท่านั้น

ทำการคำนวณโดยคลิกที่ปุ่ม "ขั้นตอนที่ 2"

ในกรณีที่การทำงานของสคริปต์ไม่ถูกต้อง (ข้อผิดพลาดในการคำนวณ ฯลฯ ) เราขอให้คุณ

บทความที่คล้ายกัน