Machine Learning | Google for Developers

หน้านี้ได้รับการแปลโดย Cloud Translation API

การประเมินนอกชุดข้อมูล

ป่าแบบสุ่มไม่จําเป็นต้องใช้ชุดข้อมูลที่ใช้ตรวจสอบ ป่าสุ่มส่วนใหญ่ใช้เทคนิคที่เรียกว่าการประเมินนอกกลุ่ม (การประเมิน OOB) เพื่อประเมินคุณภาพของโมเดล การประเมิน OOB จะถือว่าชุดการฝึกเป็นชุดทดสอบของการตรวจสอบไขว้

ตามที่อธิบายไว้ก่อนหน้านี้ โดยทั่วไปแล้ว ต้นไม้การตัดสินใจแต่ละต้นใน Random Forest จะได้รับการเทรนจากตัวอย่างการฝึกประมาณ 67% ดังนั้น ต้นไม้การตัดสินใจแต่ละต้นจึงเห็นตัวอย่างการฝึกประมาณ 33% แนวคิดหลักของการประเมิน OOB มีดังนี้

เพื่อประเมิน Random Forest ในชุดข้อมูลการฝึก
สําหรับแต่ละตัวอย่าง ให้ใช้เฉพาะแผนผังการตัดสินใจที่ไม่ได้เห็นตัวอย่างนั้นในระหว่างการฝึก

ตารางต่อไปนี้แสดงการประเมิน OOB ของ Random Forest ที่มี Decision Tree 3 ต้นซึ่งได้รับการฝึกจากตัวอย่าง 6 รายการ (ใช่ ตารางนี้เหมือนกับในส่วนการบรรจุ) ตารางแสดงว่าใช้แผนผังการตัดสินใจใดกับตัวอย่างใดในระหว่างการประเมิน OOB

ตาราง 7 การประเมิน OOB - ตัวเลขแสดงจํานวนครั้งที่ใช้ตัวอย่างการฝึกหนึ่งๆ ในระหว่างการฝึกตัวอย่างนั้นๆ

	ตัวอย่างการฝึก						ตัวอย่างการประเมิน OOB
	#1	#2	#3	#4	#5	#6
ชุดข้อมูลต้นฉบับ	1	1	1	1	1	1
แผนภูมิการตัดสินใจ 1	1	1	0	2	1	1	#3
แผนภูมิการตัดสินใจ 2	3	0	1	0	2	0	#2, #4 และ #6
แผนภูมิการตัดสินใจ 3	0	1	3	1	0	1	#1 และ #5

ในตัวอย่างที่แสดงในตาราง 7 การคาดการณ์ OOB สําหรับตัวอย่างที่ 1 ของการฝึกจะคํานวณด้วยต้นไม้การตัดสินใจ #3 (เนื่องจากต้นไม้การตัดสินใจ #1 และ #2 ใช้ตัวอย่างนี้สําหรับการฝึก) ในทางปฏิบัติ ชุดข้อมูลขนาดพอเหมาะและต้นไม้การตัดสินใจ 2-3 ต้นจะทำให้ตัวอย่างทั้งหมดมีการคาดการณ์ OOB

รหัส YDF

ใน YDF การประเมิน OOB จะอยู่ในบันทึกการฝึกหากโมเดลได้รับการฝึกด้วย compute_oob_performances=True

นอกจากนี้ การประเมิน OOB ยังมีประสิทธิภาพในการคํานวณความสําคัญของตัวแปรการสับเปลี่ยนสําหรับรูปแบบ Random Forest ด้วย โปรดทราบว่าจากความสำคัญของตัวแปร ความสำคัญของตัวแปรการสับเปลี่ยนจะวัดความสำคัญของตัวแปรโดยวัดการลดลงของคุณภาพโมเดลเมื่อมีการสับเปลี่ยนตัวแปรนี้ "ความสำคัญของตัวแปรการสับเปลี่ยน OOB" ของ Random Forest คือความสำคัญของตัวแปรการสับเปลี่ยนที่คำนวณโดยใช้การประเมิน OOB

รหัส YDF

ใน YDF ความสําคัญของตัวแปรการสับเปลี่ยน OOB จะอยู่ในบันทึกการฝึกหากมีการฝึกโมเดลด้วย compute_oob_variable_importances=True

ทดสอบความเข้าใจ

หัวข้ออื่นๆ