ISSN 1513-038X (Print)
ISSN xxxx-xxxx (Online)
RSUJET
วารสารวิศวกรรมและเทคโนโลยี มหาวิทยาลัยรังสิต
https://rsujet.rsu.ac.th
. Vol.28 No.1 , January - June 2025.
เปรียบเทียบประสิทธิภาพวิธีการจำแนกประเภทของการเกิดโรคมะเร็งปอด และ มะเร็งเต้านม
อรพรรณ จันทร์งาม, กนกทิพย์ อโนราช, and อภิชญาพร ปรางสุรางค์
Abstract
บทความวิจัยนี้มีวัตถุประสงค์ เพื่อเปรียบเทียบประสิทธิภาพของวิธีการจำแนกประเภทของการเกิดโรคมะเร็งปอดและมะเร็งเต้านม โดยใช้วิธีการจำแนก 5 วิธี ได้แก่ วิธีเพื่อนบ้านใกล้สุด k ตัว วิธีโครงข่ายประสาทเทียม วิธีต้นไม้ป่าสุ่ม วิธีการโหวตเสียงส่วนใหญ่ และวิธีการห่อ โดยรวบรวมข้อมูลโรคมะเร็งปอด จากเว็บไซต์ Kaggle.com และชุดข้อมูลโรคมะเร็งเต้านม จากฐานข้อมูล UCI Machine Learning Repository ก่อนนำข้อมูลไปวิเคราะห์ ได้ปรับข้อมูลโรคมะเร็งปอดให้มีความสมดุลโดยใช้วิธีการสุ่มเกินโดยเทคนิค SMOTE สร้างแบบจำลองโดยใช้โปรแกรม WEKA ใช้วิธีการทดสอบแบบไขว้ 5 ส่วน และ 10 ส่วน การประเมินผลแบบจำลอง ดูจากค่าร้อยละความถูกต้องเป็นอันดับแรก จากนั้นดูค่าประสิทธิภาพโดยรวม และค่าคลาดเคลื่อนกำลังสองเฉลี่ย ผลการศึกษาพบว่า ชุดข้อมูลทั้งโรคมะเร็งปอดและมะเร็งเต้านม วิธีจำแนกที่ให้ค่าความถูกต้องสูงที่สุดคือ วิธีการห่อ มีค่าร้อยละความถูกต้องของข้อมูลชุดโรคมะเร็งปอด ในกรณีทดสอบแบบไขว้ 5 ส่วน และ 10 ส่วน เท่ากับ 99.3590 และ 99.5192 ค่าประสิทธิภาพโดยรวม เท่ากับ 0.994 และ 0.995 ค่าคลาดเคลื่อนกำลังสองเฉลี่ย เท่ากับ 0.0106 และ 0.0095 ตามลำดับ และสำหรับชุดข้อมูลโรคมะเร็งเต้านม ในกรณีทดสอบแบบไขว้ 5 ส่วน และ 10 ส่วนค่าร้อยละความถูกต้องเท่ากับ 96.7096 และ 96.7096 ค่าประสิทธิภาพโดยรวม เท่ากับ 0.967 และ 0.967 ค่าคลาดเคลื่อนกำลังสองเฉลี่ย เท่ากับ 0.0298 และ 0.0279 ตามลำดับ นอกจากนี้ยังพบว่าวิธีที่เป็นเทคนิคการรวมกลุ่ม (Ensemble) โดยใช้วิธีการจำแนกพื้นฐาน หลาย ๆ วิธีมาช่วยในการทำนายผลการจำแนกของโรคมะเร็งปอดและมะเร็งเต้านม ได้แก่วิธีการห่อ วิธีต้นไม้ป่าสุ่ม และวิธีการโหวตเสียงส่วนใหญ่ ให้ค่าความถูกต้องสูงกว่าวิธีโครงข่ายประสาทเทียม และวิธีเพื่อนบ้านใกล้สุด k ตัว ซึ่งเป็นวิธีการจำแนกพื้นฐาน
Keywords: วิธีเพื่อนบ้านใกล้สุด k ตัว, วิธีโครงข่ายประสาทเทียม, วิธีต้นไม้ป่าสุ่ม, วิธีการโหวตเสียงส่วนใหญ่, วิธีการห่อ