วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่
14 พฤศจิกายน 2568
Supervised learning คือวิธีการเรียนรู้ของเครื่อง (Machine Learning) ที่ระบบจะเรียนรู้จากข้อมูลที่มีคำตอบ (หรือผลลัพธ์) อยู่แล้ว — เรียกว่า label
สามารถเขียนในรูปสมการได้ดังนี้
\[y = f(x) + \varepsilon\]
โดยที่
1. การถดถอย (Regression)
2. การจำแนกประเภท (Classification)
1. การถดถอย (Regression)
การพยากรณ์ยอดขาย (Sales Forecasting) ธุรกิจค้าปลีกสามารถใช้เทคนิคการถดถอย เช่น Linear Regression เพื่อคาดการณ์ยอดขายของเดือนถัดไปได้
\[ \begin{aligned} \text{Sales}_{t+1} &= \beta_0 + \beta_1 \cdot \text{Season}_t + \beta_2 \cdot \text{Price}_t \\&~~~~+ \beta_3 \cdot \text{Promotion}_t + \beta_4 \cdot \text{Inventory}_t + \varepsilon_t \end{aligned} \]
โดยที่:
ตัวอย่างเชิงตัวเลข (เพื่อการอธิบาย):
\[ \begin{aligned} \text{Sales}_{t+1} &= 200 + 50 \cdot \text{Season}_t - 30 \cdot \text{Price}_t \\ &~~~~+ 80 \cdot \text{Promotion}_t + 0.5 \cdot \text{Inventory}_t + \varepsilon_t \end{aligned} \]
หากกำหนดค่า:
จะได้ผลการพยากรณ์ยอดขายดังนี้:
\[ \begin{aligned} 200 + 50(1) - 30(20) + 80(1) + 0.5(500) &= 200 + 50 - 600 + 80 + 250 \\&= -20 \end{aligned} \]
ผลลัพธ์ได้ค่าเป็นลบ แปลว่าราคาสินค้าสูงเกินไป ทำให้ยอดขายที่คาดการณ์ไว้ต่ำมาก → เป็นสัญญาณของ กลยุทธ์ราคาที่ไม่เหมาะสม
ตัวอย่างเพิ่มเติม
การพยากรณ์ราคาบ้าน (Price Prediction): ธุรกิจอสังหาริมทรัพย์ใช้แบบจำลองการถดถอย เช่น Ridge Regression หรือ Random Forest เพื่อทำนายราคาบ้าน
\[ \begin{aligned} \text{Price} &= \beta_0 + \beta_1 \cdot \text{Size} + \beta_2 \cdot \text{Rooms} + \beta_3 \cdot \text{Location} \&~~~ + \beta_4 \cdot \text{YearBuilt} + \varepsilon \end{aligned} \]
โดยที่:
ตัวอย่างเชิงตัวเลข:
\[ \begin{aligned} \text{Price} &= 50{,}000 + 200 \cdot \text{Size} + 15{,}000 \cdot \text{Rooms} \&~~~~ + 80{,}000 \cdot \text{LocationIndex} + 500 \cdot \text{YearBuilt} + \varepsilon \end{aligned} \]
หากกำหนดว่า:
ดังนั้น:
\[ \text{Price} = 50{,}000 + 200(120) + 15{,}000(3) + 80{,}000(2) + 500(2015) \]
\[ = 50{,}000 + 24{,}000 + 45{,}000 + 160{,}000 + 1{,}007{,}500 = 1{,}286{,}500 \]
ราคาบ้านที่คาดการณ์ได้ ≈ 1.29 ล้านบาท
2. การจำแนกประเภท (Classification)
การพยากรณ์การยกเลิกบริการ (Churn Prediction) บริษัทโทรคมนาคมหรือบริการแบบสมัครสมาชิก ใช้แบบจำลอง Classification เช่น Random Forest หรือ Logistic Regression เพื่อคาดการณ์ว่าลูกค้ารายใดมีแนวโน้มจะเลิกใช้บริการ และสามารถดำเนินกลยุทธ์การตลาดเพื่อรักษาลูกค้าได้ทันเวลา
\[ Pr(\text{Churn} = 1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 \cdot \text{Age} + \beta_2 \cdot \text{Gender} + \beta_3 \cdot \text{UsageHistory} + \beta_4 \cdot \text{Complaints})}} \]
โดยที่:
ตัวอย่างเชิงตัวเลข (สมมติค่า):
\[ Pr(\text{Churn} = 1) = \frac{1}{1 + e^{-(-2.5 + 0.03 \cdot \text{Age} + 0.8 \cdot \text{Gender} + 1.2 \cdot \text{Complaints} - 0.05 \cdot \text{UsageHistory})}} \]
หากลูกค้าชายอายุ 40 ปี มีการร้องเรียน 2 ครั้ง และมีประวัติการใช้งานต่ำ → โมเดลจะให้ความน่าจะเป็นของการยกเลิกบริการสูง ซึ่งเป็นสัญญาณว่าบริษัทควร เข้าดำเนินการเชิงรุกเพื่อรักษาลูกค้ารายนั้นไว้
ตัวอย่างเพิ่มเติม
ถ้าธุรกรรมมี Amount = 250 โมเดลจะจัดประเภทว่าอะไร?
A1:
Amount ≥ 226ธุรกรรมมี Amount = 180 และ Location = Rural โมเดลจะทำนายว่าอย่างไร?
A2:
ธุรกรรมมี Amount = 120 โมเดลทำนายว่าอย่างไร?
A3:
ถ้าธุรกรรมมี Amount = 170 และ Location = Urban โมเดลทำนายว่าอย่างไร?
A4:
ถ้า Amount = 90 จะเกิดอะไรขึ้น?
A5:
ข้อดีของการเรียนรู้แบบมีผู้สอน (Advantages of Supervised Learning)
ให้ความแม่นยำสูงเมื่อข้อมูลฝึกมีคุณภาพดี
สามารถปรับแต่งโมเดลให้เหมาะสมกับลักษณะของปัญหาได้ง่าย
ข้อจำกัดของการเรียนรู้แบบมีผู้สอน (Disadvantages of Supervised Learning)
ผู้ใช้ไม่จำเป็นต้องมีพื้นฐานการเขียนโค้ด ก็สามารถวิเคราะห์ข้อมูลได้ง่าย
เพียง ลากและวาง โมดูลต่าง ๆ ลงบน workspace ก็สามารถสร้างกระบวนการวิเคราะห์ได้ทันที
โปรแกรมมีเครื่องมือหลากหลาย เช่น Classification, Regression, Clustering, PCA, Text Mining ที่ช่วยให้นักศึกษาเข้าใจและทดลองได้ครอบคลุมทุกประเภทของการเรียนรู้ด้วยเครื่อง
Orange เป็นโปรแกรมโอเพนซอร์ส (Open Source) ใช้งานได้ฟรี
มี Add-on สำหรับงานเฉพาะทาง เช่น Text Mining, Image Analytics, Bioinformatics
Orange มีเครื่องมือ Visualization ที่สามารถแสดงผลแบบ Interactive เช่น Scatter Plot, Heatmap, Decision Tree, Network Graph
ช่วยให้ผู้ใช้เข้าใจข้อมูลและผลลัพธ์จากโมเดลได้ง่ายขึ้น ทั้งในเชิงสถิติและเชิงภาพ