วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่
14 พฤศจิกายน 2568
viewof N0 = Inputs.range([100, 500], {step: 10, label: "N"})
viewof beta0 = Inputs.range([-10, 10], {value: 2, step: 0.2, label: "Intercept (a)"})
viewof beta1 = Inputs.range([-5, 5], {value: 1, step: 0.2, label: "Slope (b)"})
viewof SD = Inputs.range([0.5, 5], {value: 1, step: 0.25, label: "SD"})
viewof clicks = Inputs.button("Click to Random")Linear Regression เป็นเทคนิคทางสถิติและการเรียนรู้ของเครื่อง (Machine Learning) ที่ใช้สร้างแบบจำลองความสัมพันธ์ระหว่าง
ตัวแปรอิสระ (independent variable หรือ predictor)
ตัวแปรตาม (dependent variable หรือ response)
โดยสมมติว่าความสัมพันธ์ระหว่างตัวแปรทั้งสองเป็นแบบ
เชิงเส้น (linear) การถดถอยเชิงเส้นเป็นเครื่องมือที่ทรงพลังสำหรับการวิเคราะห์ข้อมูลทางธุรกิจ
Pearson Correlation เป็นสถิติที่ใช้วัดระดับความสัมพันธ์ เชิงเส้น (linear relationship) ระหว่างตัวแปรสองตัว
สูตรการคำนวณ
\[r = \dfrac{\displaystyle\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\displaystyle\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}}\] โดยที่:
\(x_i, y_i\) คือค่าข้อมูลตัวอย่างของตัวแปร \(x\) และ \(y\)
\(\bar{x}, \bar{y}\) คือค่าเฉลี่ยของตัวแปร \(x\) และ \(y\)
\(n\) คือจำนวนข้อมูลสังเกต (observations)
ค่าของสหสัมพันธ์เพียร์สัน (Values of Pearson Correlation)
ค่าของ \(r\) จะอยู่ในช่วงตั้งแต่ \(-1\) ถึง \(+1\):
\(r = +1\): ความสัมพันธ์เชิงบวกอย่างสมบูรณ์ (Positive Linear Relationship)
\(r = -1\): ความสัมพันธ์เชิงลบอย่างสมบูรณ์ (Negative Linear Relationship)
\(r = 0\): ไม่มีความสัมพันธ์เชิงเส้นระหว่าง \(x\) และ \(y\)
| ค่า \(|r|\) | ระดับของความสัมพันธ์เชิงเส้น |
|---|---|
| \(0.9\) – \(1.0\) | ความสัมพันธ์เชิงเส้นที่แข็งแกร่งมาก (Very Strong) |
| \(0.7\) – \(0.9\) | ความสัมพันธ์เชิงเส้นที่แข็งแกร่ง (Strong) |
| \(0.5\) – \(0.7\) | ความสัมพันธ์เชิงเส้นในระดับปานกลาง (Moderate) |
| \(0.3\) – \(0.5\) | ความสัมพันธ์เชิงเส้นที่อ่อน (Weak) |
| \(0.0\) – \(0.3\) | ความสัมพันธ์เชิงเส้นที่อ่อนมากหรือแทบไม่มีเลย (Very Weak / Almost None) |
ใช้วัดได้เฉพาะความสัมพันธ์เชิงเส้นเท่านั้น สหสัมพันธ์เพียร์สันใช้ได้เฉพาะเมื่อความสัมพันธ์ระหว่างตัวแปรเป็นแบบ เชิงเส้น (linear) หากความสัมพันธ์เป็นแบบไม่เชิงเส้น ค่า \(r\) อาจให้ผลลวงว่าไม่มีความสัมพันธ์
ไวต่อค่าผิดปกติ (Outliers) ค่าของ \(r\) อาจเปลี่ยนแปลงอย่างมากหากมี ค่าผิดปกติ (outliers) ในข้อมูล
ใช้ได้เฉพาะข้อมูลเชิงปริมาณ (Quantitative Data) สหสัมพันธ์เพียร์สันใช้ได้เฉพาะกับข้อมูลตัวเลขเท่านั้น ไม่สามารถใช้กับข้อมูลเชิงหมวดหมู่ได้
สมมติให้ข้อมูลมีการแจกแจงแบบปกติ (Normality Assumption) ตัวแปรทั้งสองควรมีการแจกแจงใกล้เคียงแบบปกติ และมีความแปรปรวนที่ใกล้เคียงกัน
ตัวอย่างที่ 1: ความสัมพันธ์เชิงบวก (Positive Correlation)
ผลลัพธ์จะได้ค่า \(r\) ใกล้เคียง +1 แสดงว่าตัวแปร \(x\) และ \(y\) มีแนวโน้มเพิ่มขึ้นพร้อมกัน
ตัวอย่างที่ 2: ไม่มีความสัมพันธ์ (No Correlation)
ผลลัพธ์จะได้ค่า \(r\) ใกล้เคียง 0 แสดงว่าไม่มีความสัมพันธ์เชิงเส้นระหว่าง \(x\) และ \(y\)
การเงิน (Finance): ใช้วิเคราะห์ความสัมพันธ์ระหว่างราคาหุ้นสองตัว เช่น ในแบบจำลอง CAPM เพื่อตรวจสอบความสัมพันธ์ระหว่างผลตอบแทนของหุ้นกับผลตอบแทนตลาด
วิทยาศาสตร์ (Science): ตรวจสอบความสัมพันธ์ระหว่างตัวแปร เช่น อุณหภูมิกับความชื้น เพื่อทำความเข้าใจสภาพแวดล้อมหรือการเปลี่ยนแปลงของสภาพอากาศ
การศึกษา (Education): ศึกษาความสัมพันธ์ระหว่างจำนวนชั่วโมงการอ่านหนังสือกับผลการสอบ เพื่อประเมินพฤติกรรมการเรียนรู้ของนักเรียน
ในกรณีนี้ ความสัมพันธ์ระหว่าง \(x\) และ \(y\) ไม่ได้อยู่ในแนวเส้นตรง แต่เป็นรูปโค้ง เช่น พาราโบลา (parabola) — ซึ่ง Pearson Correlation จะไม่สามารถจับความสัมพันธ์นี้ได้ชัดเจน
Pearson correlation is 0.0222165.
Pearson correlation is -0.0064386.
Pearson correlation is 0.9865504.
Pearson correlation is 0.8250965.
Pearson correlation is 0.8939282.
การถดถอยเชิงเส้น (Linear Regression) มีจุดมุ่งหมายเพื่อหาสมการเส้นตรงที่ “เหมาะสมที่สุด” ซึ่งสามารถอธิบายความสัมพันธ์ระหว่างตัวแปรได้ในรูปสมการ:
\[ y = f(x_1, x_2, \cdots, x_n) + \varepsilon = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \varepsilon \]
โดยที่:
เป้าหมายของ Linear Regression คือการหาค่าสัมประสิทธิ์ \(\beta_0, \beta_1, \dots, \beta_n\) ที่ทำให้สมการเส้นตรงนี้อธิบายข้อมูลได้ดีที่สุด โดย ลดค่าความคลาดเคลื่อน (error) ระหว่างค่าที่โมเดลพยากรณ์ (\(\hat{y}\)) กับค่าจริง (\(y\)) ให้น้อยที่สุด
วิธีที่นิยมใช้ในการหาค่าพารามิเตอร์คือ Ordinary Least Squares (OLS) — วิธีการประมาณค่าที่ทำให้ผลรวมของกำลังสองของความคลาดเคลื่อนมีค่าน้อยที่สุด
viewof N01 = Inputs.range([10, 30], {step: 10, label: "N"})
viewof beta01 = Inputs.range([-10, 10], {value: 2, step: 0.2, label: "Intercept (a)"})
viewof beta11 = Inputs.range([-5, 5], {value: 1, step: 0.2, label: "Slope (b)"})
viewof SD1 = Inputs.range([3, 7], {value: 1, step: 1, label: "SD"})
viewof clicks2 = Inputs.button("Click to Random")หลักการของ Ordinary Least Squares (OLS) ในบริบทของสมการการถดถอยเชิงเส้นข้างต้น คือการหาค่าสัมประสิทธิ์ (\(\beta_0, \beta_1, \dots, \beta_n\)) ที่ทำให้ ผลรวมกำลังสองของค่าคลาดเคลื่อน (squared sum of errors) ระหว่างค่าจริง (\(y_i\)) และค่าที่โมเดลพยากรณ์ได้ (\(\hat{y}_i\)) มีค่าน้อยที่สุด
viewof sd_lr = Inputs.range([0.1, 5], {value: 1, step: 0.1, label: "Noise SD (σ)"})
viewof click_lr = Inputs.button("Resample data")
// User line (น้ำเงิน)
viewof a_user_lr = Inputs.range([-10, 10], {value: 0, step: 0.5, label: "User intercept (a_user)"})
viewof b_user_lr = Inputs.range([-5, 5], {value: 1, step: 0.2, label: "User slope (b_user)"})OLS: y = + x, SSE =
USER: y = + x, SSE =
วิธี OLS (Ordinary Least Squares) มีจุดประสงค์เพื่อหาค่าเส้นตรง (หรือระนาบ หากมีมากกว่าหนึ่งตัวแปร \(x\)) ที่พอดีกับข้อมูลมากที่สุด โดยเลือกค่าของ \(\beta_0, \beta_1, \dots, \beta_n\) ให้การพยากรณ์ค่าของ \(y\) ใกล้เคียงกับค่าจริงมากที่สุด
หลักการของ OLS (Principle of OLS)
OLS มุ่งหาค่าสัมประสิทธิ์ (\(\beta\)) ที่ทำให้ ผลรวมกำลังสองของค่าคลาดเคลื่อน (Residual Sum of Squares: RSS) มีค่าน้อยที่สุด
\[ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]
โดยที่:
ขั้นตอนทางคณิตศาสตร์ (Mathematical Procedure)
สมการการถดถอยเชิงเส้นสามารถเขียนได้เป็น
\[ y_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_n x_{ni} + \varepsilon_i, \quad i = 1, 2, \cdots, m \]
\[\begin{aligned}Y &= \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix}, X = \begin{bmatrix} 1 & x_{11} & x_{12} & \dots & x_{1n} \\ 1 & x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m1} & x_{m2} & \dots & x_{mn} \end{bmatrix},\\ \beta &= \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_n \end{bmatrix},\varepsilon = \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_m \end{bmatrix}\end{aligned}\]
\[ \hat{Y} = X \beta \]
\[ \varepsilon = Y - \hat{Y} = Y - X \beta \]
\[ RSS = \varepsilon^T \varepsilon = (Y - X \beta)^T (Y - X \beta) \]
\[ \hat{\beta} = (X^T X)^{-1} X^T Y \]
โดยที่:
สมการนี้คือคำตอบของการถดถอยเชิงเส้นแบบ Ordinary Least Squares (OLS) ซึ่งให้ค่าประมาณของ \(\beta\) ที่ทำให้เส้นตรงพอดีกับข้อมูลได้ดีที่สุด
การถดถอยเชิงเส้นอย่างง่าย (Simple Linear Regression)
การถดถอยเชิงเส้นพหุ (Multiple Linear Regression)
ความเป็นเชิงเส้น (Linearity): ความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตามต้องเป็นแบบเชิงเส้น
ความเป็นอิสระของค่าคลาดเคลื่อน (Independence of Errors): ค่าความคลาดเคลื่อน (\(\varepsilon\)) ของแต่ละจุดข้อมูลต้องไม่สัมพันธ์กัน
ความแปรปรวนคงที่ (Constant Variance หรือ Homoscedasticity): ค่าความคลาดเคลื่อนควรมีความแปรปรวนเท่ากันในทุกระดับของตัวแปรอิสระ
การแจกแจงแบบปกติของค่าคลาดเคลื่อน (Normality): ค่าความคลาดเคลื่อนควรมีการแจกแจงใกล้เคียงแบบปกติ (normal distribution)
ไม่มีปัญหาความสัมพันธ์กันสูงระหว่างตัวแปรอิสระ (No Multicollinearity): ตัวแปรอิสระไม่ควรมีความสัมพันธ์กันสูงเกินไป เพราะจะทำให้การตีความค่าสัมประสิทธิ์ผิดเพี้ยน
ปัญหาทางธุรกิจ: บริษัทต้องการพยากรณ์ยอดขายสำหรับเดือนถัดไป
ตัวแปรอิสระ (Independent Variables):
ตัวแปรตาม (Dependent Variable):
Regression Equation
\[ \begin{aligned} \text{sales}=&\beta_0+\beta_1\text{advertising_spend}\\ &+\beta_2\text{product_price} + \beta_3\text{promotion}+ \varepsilon \end{aligned} \]
Results
การตีความค่าสัมประสิทธิ์ (Interpreting the Coefficients)
(Intercept) = 3716.95 หากค่า advertising_spend, product_price, และ promotion เป็น 0 ทั้งหมด ยอดขายที่คาดการณ์ (sales) จะเท่ากับ 3716.95 หน่วย (เป็นยอดขายเฉลี่ยพื้นฐานเมื่อไม่มีปัจจัยอื่นเข้ามาเกี่ยวข้อง)
advertising_spend = 0.48895 เมื่อค่า advertising_spend เพิ่มขึ้น 1 หน่วย ยอดขายเฉลี่ยจะเพิ่มขึ้นประมาณ 0.49 หน่วย (ผลมีนัยสำคัญทางสถิติ)
product_price = -4.11545 เมื่อ product_price เพิ่มขึ้น 1 หน่วย ยอดขายเฉลี่ยจะลดลงประมาณ 4.12 หน่วย อย่างไรก็ตาม ค่า p-value ของตัวแปรนี้คือ 0.253 ซึ่งมากกว่า 0.05 หมายความว่า ผลกระทบของราคา ไม่มีนัยสำคัญทางสถิติ (ไม่สามารถยืนยันได้ว่าราคามีผลต่อยอดขายจริง)
promotion = 1525.80 เมื่อค่าของ promotion เพิ่มขึ้น 1 หน่วย ยอดขายเฉลี่ยจะเพิ่มขึ้นประมาณ 1525.8 หน่วย (ผลมีนัยสำคัญทางสถิติอย่างชัดเจน)
ประสิทธิภาพของโมเดล (Model Performance)
Residual standard error = 1844 โดยเฉลี่ยแล้ว ค่าที่โมเดลพยากรณ์ (fitted values) จะเบี่ยงเบนจากยอดขายจริงประมาณ 1844 หน่วย
Multiple R-squared = 0.61 โมเดลสามารถอธิบายความแปรปรวนของยอดขายได้ประมาณ 61% ถือว่าเป็นระดับการอธิบายปานกลาง (moderate explanatory power)
Adjusted R-squared = 0.5978 ค่านี้ปรับให้เหมาะสมกับจำนวนตัวแปรอิสระในโมเดล เนื่องจากมีค่าน้อยกว่า R-squared เล็กน้อย แสดงว่า การเพิ่มตัวแปร product_price อาจไม่ได้ช่วยเพิ่มความแม่นยำของโมเดลอย่างมีนัยสำคัญ
F-statistic = 50.04, p-value < 2.2e-16 โมเดลโดยรวมมีนัยสำคัญทางสถิติ เนื่องจากค่า p-value น้อยกว่า 0.05 แสดงว่าอย่างน้อยหนึ่งตัวแปรอิสระมีผลต่อยอดขายจริง
ปัญหาทางธุรกิจ: หาค่าราคาสินค้าที่เหมาะสมที่สุดเพื่อให้ยอดขายหรือความต้องการของลูกค้า (demand) สูงสุด
ตัวแปรอิสระ (Independent Variables):
ตัวแปรตาม (Dependent Variable):
ตัวอย่าง: สามารถใช้ การถดถอยแบบไม่เชิงเส้น (Nonlinear Regression) หรือ การถดถอยพหุนาม (Polynomial Regression) เพื่อจับความสัมพันธ์แบบไม่เชิงเส้นระหว่าง ราคา (Price) และ ความต้องการ (Demand) ซึ่งมักจะมีลักษณะเป็นเส้นโค้ง (เช่น ราคาสูงเกินไป → ความต้องการลดลง)
Regression Equation
\[ \begin{aligned} \text{demand}=\beta_0+\beta_1\text{price}+\beta_2\text{price}^2+\varepsilon \end{aligned} \]
ปัญหาทางธุรกิจ: วิเคราะห์ว่าการลงทุนในแคมเปญโฆษณาช่องทางต่าง ๆ ส่งผลต่อยอดขายมากน้อยเพียงใด
ตัวแปรอิสระ (Independent Variables):
งบโฆษณาแยกตามช่องทาง (เช่น Facebook, Google Ads)
ระยะเวลาในการทำแคมเปญ (Duration of Campaign)
ตัวแปรตาม (Dependent Variable):
ตัวอย่าง: ใช้ การถดถอยเชิงเส้นพหุ (Multiple Regression) เพื่อระบุว่าแคมเปญหรือช่องทางการตลาดใดให้ผลตอบแทนจากการลงทุนในโฆษณา (Return on Advertising Spend – ROAS) สูงที่สุด
Regression Equation
\[ \begin{aligned} \text{sales_lift}=\beta_0+\beta_1\text{facebook_ads} + \beta_2\text{google_ads}+\varepsilon \end{aligned} \]
ปัญหาทางธุรกิจ: บริษัทผู้ผลิตต้องการพยากรณ์ความต้องการใช้วัตถุดิบในอนาคต เพื่อบริหารจัดการสินค้าคงคลังได้อย่างมีประสิทธิภาพและลดต้นทุนการเก็บสต็อก
ตัวแปรอิสระ (Independent Variables):
ตัวแปรตาม (Dependent Variable):
ตัวอย่าง: สามารถใช้ การถดถอยแบบอนุกรมเวลา (Time Series Regression) หรือผสมผสานการถดถอยกับแบบจำลองอนุกรมเวลา เช่น ARIMA + Regression เพื่อจับทั้งแนวโน้ม (trend) และฤดูกาล (seasonality) ของข้อมูลได้อย่างแม่นยำ
Regression Equation
\[ \begin{aligned} \text{demand}=\beta_0+ \beta_1\text{sin_term} + \beta_2\text{cos_term}+\varepsilon \end{aligned} \]
ปัญหาทางธุรกิจ: ธุรกิจโรงแรมต้องการวิเคราะห์ปัจจัยที่มีผลต่อความพึงพอใจของลูกค้า เพื่อปรับปรุงคุณภาพการให้บริการและเพิ่มความภักดีของลูกค้า (customer loyalty)
ตัวแปรอิสระ (Independent Variables):
ตัวแปรตาม (Dependent Variable):
ตัวอย่าง: ใช้ การถดถอยเชิงเส้น (Linear Regression) เพื่อสร้างแบบจำลองที่ช่วยระบุว่าปัจจัยใดมีผลมากที่สุดต่อคะแนนความพึงพอใจของลูกค้า ซึ่งสามารถใช้ข้อมูลนี้ในการวางกลยุทธ์ปรับปรุงประสบการณ์ของผู้เข้าพักได้อย่างมีประสิทธิภาพ
Regression Equation
\[ \begin{aligned} \text{satisfaction} =&\beta_0+\beta_1\text{service_quality} \\&+ \beta_2\text{cleanliness} + \beta_3\text{room_price}+\varepsilon \end{aligned} \]
Demšar, J., Zupan, B., Leban, G., & Curk, T. (2013). Orange: Data Mining Toolbox in Python. Journal of Machine Learning Research, 14, 2349–2353. Retrieved from https://www.jmlr.org/papers/v14/demsar13a.html
Toplak, M., Németh, S., & Demšar, J. (2022). Data mining with visual programming: A case study of Orange. Communications of the ACM, 65(7), 77–85. https://doi.org/10.1145/3507286
Zupan, B., & Demšar, J. (2004). Orange: From experimental machine learning to interactive data mining. White Paper, Faculty of Computer and Information Science, University of Ljubljana. Retrieved from https://orange.biolab.si
Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley. https://doi.org/10.1002/9781118625590
Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models (5th ed.). McGraw-Hill Education.