\(~~~~~~~~~~\)Regression Model\(~~~~~~~~~~\)
ตัวแบบการถดถอย

อ.ดร. สมศักดิ์ จันทร์เอม

วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่

14 พฤศจิกายน 2568

Linear Regression

Linear Regression เป็นเทคนิคทางสถิติและการเรียนรู้ของเครื่อง (Machine Learning) ที่ใช้สร้างแบบจำลองความสัมพันธ์ระหว่าง

  • ตัวแปรอิสระ (independent variable หรือ predictor)

  • ตัวแปรตาม (dependent variable หรือ response)

โดยสมมติว่าความสัมพันธ์ระหว่างตัวแปรทั้งสองเป็นแบบ
เชิงเส้น (linear) การถดถอยเชิงเส้นเป็นเครื่องมือที่ทรงพลังสำหรับการวิเคราะห์ข้อมูลทางธุรกิจ

สหสัมพันธ์เพียร์สัน (Pearson Correlation)

Pearson Correlation เป็นสถิติที่ใช้วัดระดับความสัมพันธ์ เชิงเส้น (linear relationship) ระหว่างตัวแปรสองตัว

มันแสดงถึงทั้ง ทิศทางของความสัมพันธ์ และ ความแข็งแกร่งของความสัมพันธ์นั้น ระหว่างตัวแปรทั้งสอง

สูตรการคำนวณ

\[r = \dfrac{\displaystyle\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\displaystyle\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}}\] โดยที่:

  • \(x_i, y_i\) คือค่าข้อมูลตัวอย่างของตัวแปร \(x\) และ \(y\)

  • \(\bar{x}, \bar{y}\) คือค่าเฉลี่ยของตัวแปร \(x\) และ \(y\)

  • \(n\) คือจำนวนข้อมูลสังเกต (observations)

ค่าของสหสัมพันธ์เพียร์สัน (Values of Pearson Correlation)

ค่าของ \(r\) จะอยู่ในช่วงตั้งแต่ \(-1\) ถึง \(+1\):

  • \(r = +1\): ความสัมพันธ์เชิงบวกอย่างสมบูรณ์ (Positive Linear Relationship)

    • ตัวแปร \(x\) และ \(y\) เพิ่มขึ้นพร้อมกันในแนวเส้นตรง
  • \(r = -1\): ความสัมพันธ์เชิงลบอย่างสมบูรณ์ (Negative Linear Relationship)

    • เมื่อ \(x\) เพิ่มขึ้น ค่า \(y\) จะลดลงในแนวเส้นตรง
  • \(r = 0\): ไม่มีความสัมพันธ์เชิงเส้นระหว่าง \(x\) และ \(y\)

การแปลความหมายของค่า \(|r|\)

ค่า \(|r|\) ระดับของความสัมพันธ์เชิงเส้น
\(0.9\)\(1.0\) ความสัมพันธ์เชิงเส้นที่แข็งแกร่งมาก (Very Strong)
\(0.7\)\(0.9\) ความสัมพันธ์เชิงเส้นที่แข็งแกร่ง (Strong)
\(0.5\)\(0.7\) ความสัมพันธ์เชิงเส้นในระดับปานกลาง (Moderate)
\(0.3\)\(0.5\) ความสัมพันธ์เชิงเส้นที่อ่อน (Weak)
\(0.0\)\(0.3\) ความสัมพันธ์เชิงเส้นที่อ่อนมากหรือแทบไม่มีเลย (Very Weak / Almost None)

ข้อจำกัดของสหสัมพันธ์เพียร์สัน (Limitations of Pearson Correlation)

  1. ใช้วัดได้เฉพาะความสัมพันธ์เชิงเส้นเท่านั้น สหสัมพันธ์เพียร์สันใช้ได้เฉพาะเมื่อความสัมพันธ์ระหว่างตัวแปรเป็นแบบ เชิงเส้น (linear) หากความสัมพันธ์เป็นแบบไม่เชิงเส้น ค่า \(r\) อาจให้ผลลวงว่าไม่มีความสัมพันธ์

    • ตัวอย่าง: หากจุดข้อมูลมีรูปแบบกระจายเป็นวงกลม ค่า \(r\) อาจเท่ากับ 0 แม้ในความเป็นจริงตัวแปรทั้งสองยังคงมีความสัมพันธ์กันอยู่
  2. ไวต่อค่าผิดปกติ (Outliers) ค่าของ \(r\) อาจเปลี่ยนแปลงอย่างมากหากมี ค่าผิดปกติ (outliers) ในข้อมูล

  3. ใช้ได้เฉพาะข้อมูลเชิงปริมาณ (Quantitative Data) สหสัมพันธ์เพียร์สันใช้ได้เฉพาะกับข้อมูลตัวเลขเท่านั้น ไม่สามารถใช้กับข้อมูลเชิงหมวดหมู่ได้

  4. สมมติให้ข้อมูลมีการแจกแจงแบบปกติ (Normality Assumption) ตัวแปรทั้งสองควรมีการแจกแจงใกล้เคียงแบบปกติ และมีความแปรปรวนที่ใกล้เคียงกัน

ตัวอย่างการคำนวณค่าสหสัมพันธ์เพียร์สัน

ตัวอย่างที่ 1: ความสัมพันธ์เชิงบวก (Positive Correlation)

ผลลัพธ์จะได้ค่า \(r\) ใกล้เคียง +1 แสดงว่าตัวแปร \(x\) และ \(y\) มีแนวโน้มเพิ่มขึ้นพร้อมกัน

ตัวอย่างที่ 2: ไม่มีความสัมพันธ์ (No Correlation)

ผลลัพธ์จะได้ค่า \(r\) ใกล้เคียง 0 แสดงว่าไม่มีความสัมพันธ์เชิงเส้นระหว่าง \(x\) และ \(y\)

การวิเคราะห์สหสัมพันธ์ ด้วยโปรแกรม Orange Data Mining

การประยุกต์ใช้จริง (Practical Applications)

  • การเงิน (Finance): ใช้วิเคราะห์ความสัมพันธ์ระหว่างราคาหุ้นสองตัว เช่น ในแบบจำลอง CAPM เพื่อตรวจสอบความสัมพันธ์ระหว่างผลตอบแทนของหุ้นกับผลตอบแทนตลาด

  • วิทยาศาสตร์ (Science): ตรวจสอบความสัมพันธ์ระหว่างตัวแปร เช่น อุณหภูมิกับความชื้น เพื่อทำความเข้าใจสภาพแวดล้อมหรือการเปลี่ยนแปลงของสภาพอากาศ

  • การศึกษา (Education): ศึกษาความสัมพันธ์ระหว่างจำนวนชั่วโมงการอ่านหนังสือกับผลการสอบ เพื่อประเมินพฤติกรรมการเรียนรู้ของนักเรียน

1. ความสัมพันธ์แบบไม่เชิงเส้น (Nonlinear Relationship)

ในกรณีนี้ ความสัมพันธ์ระหว่าง \(x\) และ \(y\) ไม่ได้อยู่ในแนวเส้นตรง แต่เป็นรูปโค้ง เช่น พาราโบลา (parabola) — ซึ่ง Pearson Correlation จะไม่สามารถจับความสัมพันธ์นี้ได้ชัดเจน

Pearson correlation is 0.0222165.

2. Circular or Elliptical Data

Pearson correlation is -0.0064386.

3. Outliers affect the relationship

Pearson correlation is 0.9865504.

4. Stepwise relationship

Pearson correlation is 0.8250965.

5. Multiple-group relationship (Clusters of Data)

Pearson correlation is 0.8939282.

หลักการของการถดถอยเชิงเส้น (Principle of Linear Regression)

การถดถอยเชิงเส้น (Linear Regression) มีจุดมุ่งหมายเพื่อหาสมการเส้นตรงที่ “เหมาะสมที่สุด” ซึ่งสามารถอธิบายความสัมพันธ์ระหว่างตัวแปรได้ในรูปสมการ:

\[ y = f(x_1, x_2, \cdots, x_n) + \varepsilon = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \varepsilon \]

โดยที่:

  • \(y\): ตัวแปรตาม (Dependent variable) หรือค่าที่ต้องการพยากรณ์
  • \(x_1, x_2, \dots, x_n\): ตัวแปรอิสระ (Independent variables) หรือปัจจัยที่ใช้ในการทำนาย
  • \(\beta_0\): ค่าคงที่ (Intercept) — จุดที่เส้นตรงตัดแกน \(y\)
  • \(\beta_1, \beta_2, \dots, \beta_n\): ค่าสัมประสิทธิ์ของตัวแปรอิสระแต่ละตัว (Coefficients)
  • \(\varepsilon\): ค่าความคลาดเคลื่อน (Error term หรือ Residual)

เป้าหมายของ Linear Regression คือการหาค่าสัมประสิทธิ์ \(\beta_0, \beta_1, \dots, \beta_n\) ที่ทำให้สมการเส้นตรงนี้อธิบายข้อมูลได้ดีที่สุด โดย ลดค่าความคลาดเคลื่อน (error) ระหว่างค่าที่โมเดลพยากรณ์ (\(\hat{y}\)) กับค่าจริง (\(y\)) ให้น้อยที่สุด

วิธีที่นิยมใช้ในการหาค่าพารามิเตอร์คือ Ordinary Least Squares (OLS) — วิธีการประมาณค่าที่ทำให้ผลรวมของกำลังสองของความคลาดเคลื่อนมีค่าน้อยที่สุด

Ordinary Least Squares (OLS)

หลักการของ Ordinary Least Squares (OLS) ในบริบทของสมการการถดถอยเชิงเส้นข้างต้น คือการหาค่าสัมประสิทธิ์ (\(\beta_0, \beta_1, \dots, \beta_n\)) ที่ทำให้ ผลรวมกำลังสองของค่าคลาดเคลื่อน (squared sum of errors) ระหว่างค่าจริง (\(y_i\)) และค่าที่โมเดลพยากรณ์ได้ (\(\hat{y}_i\)) มีค่าน้อยที่สุด

Which Line Fits Best? OLS vs User-Defined Line

  • OLS: y = + x, SSE =

  • USER: y = + x, SSE =

วิธีการประมาณค่ากำลังสองน้อยที่สุด

วิธี OLS (Ordinary Least Squares) มีจุดประสงค์เพื่อหาค่าเส้นตรง (หรือระนาบ หากมีมากกว่าหนึ่งตัวแปร \(x\)) ที่พอดีกับข้อมูลมากที่สุด โดยเลือกค่าของ \(\beta_0, \beta_1, \dots, \beta_n\) ให้การพยากรณ์ค่าของ \(y\) ใกล้เคียงกับค่าจริงมากที่สุด

หลักการของ OLS (Principle of OLS)

OLS มุ่งหาค่าสัมประสิทธิ์ (\(\beta\)) ที่ทำให้ ผลรวมกำลังสองของค่าคลาดเคลื่อน (Residual Sum of Squares: RSS) มีค่าน้อยที่สุด

\[ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]

โดยที่:

  • \(y_i\) : ค่าจริงของตัวแปรตามในการสังเกตครั้งที่ \(i\)
  • \(\hat{y}_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_n x_{in}\) : ค่าที่โมเดลพยากรณ์ได้
  • \(n\) : จำนวนข้อมูลสังเกตทั้งหมด

ขั้นตอนทางคณิตศาสตร์ (Mathematical Procedure)

สมการการถดถอยเชิงเส้นสามารถเขียนได้เป็น

\[ y_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_n x_{ni} + \varepsilon_i, \quad i = 1, 2, \cdots, m \]

  1. เขียนในรูปเมทริกซ์

\[\begin{aligned}Y &= \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix}, X = \begin{bmatrix} 1 & x_{11} & x_{12} & \dots & x_{1n} \\ 1 & x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m1} & x_{m2} & \dots & x_{mn} \end{bmatrix},\\ \beta &= \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_n \end{bmatrix},\varepsilon = \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_m \end{bmatrix}\end{aligned}\]

  1. ค่าที่โมเดลพยากรณ์ได้ (\(\hat{y}\)) ในรูปเมทริกซ์

\[ \hat{Y} = X \beta \]

  1. ค่าความคลาดเคลื่อน (Residuals)

\[ \varepsilon = Y - \hat{Y} = Y - X \beta \]

  1. ผลรวมกำลังสองของค่าคลาดเคลื่อน (Residual Sum of Squares: RSS)

\[ RSS = \varepsilon^T \varepsilon = (Y - X \beta)^T (Y - X \beta) \]

  1. หาค่า \(\beta\) ที่ทำให้ RSS มีค่าน้อยที่สุด

\[ \hat{\beta} = (X^T X)^{-1} X^T Y \]

โดยที่:

  • \(X^T\) = เมทริกซ์ทรานสโพสของ \(X\)
  • \((X^T X)^{-1}\) = เมทริกซ์ผกผันของ \(X^T X\)

สมการนี้คือคำตอบของการถดถอยเชิงเส้นแบบ Ordinary Least Squares (OLS) ซึ่งให้ค่าประมาณของ \(\beta\) ที่ทำให้เส้นตรงพอดีกับข้อมูลได้ดีที่สุด

ประเภทของการถดถอยเชิงเส้น (Types of Linear Regression)

การถดถอยเชิงเส้นอย่างง่าย (Simple Linear Regression)

  • ใช้ ตัวแปรอิสระเพียงตัวเดียว (\(x\))
  • สมการ: \[ y = \beta_0 + \beta_1 x + \varepsilon \]
  • ตัวอย่าง: ใช้ ส่วนสูง (height) (\(x\)) เพื่อพยากรณ์ น้ำหนัก (weight) (\(y\))

การถดถอยเชิงเส้นพหุ (Multiple Linear Regression)

  • ใช้ ตัวแปรอิสระมากกว่าหนึ่งตัว (\(x_1, x_2, \dots, x_n\))
  • สมการ: \[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \varepsilon \]
  • ตัวอย่าง: ใช้ อายุ (age) (\(x_1\)) และ ระดับรายได้ (income level) (\(x_2\)) เพื่อพยากรณ์ จำนวนเงินออม (savings amount) (\(y\))

สมมติฐานของการถดถอยเชิงเส้น

  1. ความเป็นเชิงเส้น (Linearity): ความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตามต้องเป็นแบบเชิงเส้น

  2. ความเป็นอิสระของค่าคลาดเคลื่อน (Independence of Errors): ค่าความคลาดเคลื่อน (\(\varepsilon\)) ของแต่ละจุดข้อมูลต้องไม่สัมพันธ์กัน

  3. ความแปรปรวนคงที่ (Constant Variance หรือ Homoscedasticity): ค่าความคลาดเคลื่อนควรมีความแปรปรวนเท่ากันในทุกระดับของตัวแปรอิสระ

  4. การแจกแจงแบบปกติของค่าคลาดเคลื่อน (Normality): ค่าความคลาดเคลื่อนควรมีการแจกแจงใกล้เคียงแบบปกติ (normal distribution)

  5. ไม่มีปัญหาความสัมพันธ์กันสูงระหว่างตัวแปรอิสระ (No Multicollinearity): ตัวแปรอิสระไม่ควรมีความสัมพันธ์กันสูงเกินไป เพราะจะทำให้การตีความค่าสัมประสิทธิ์ผิดเพี้ยน

ตัวอย่างการประยุกต์ใช้การถดถอยในทางธุรกิจ

1. การพยากรณ์ยอดขาย (Sales Forecasting)

ปัญหาทางธุรกิจ: บริษัทต้องการพยากรณ์ยอดขายสำหรับเดือนถัดไป

  • ตัวแปรอิสระ (Independent Variables):

    • งบโฆษณา (Advertising Spend)
    • ราคาสินค้า (Product Price)
    • โปรโมชั่น (Promotion)
  • ตัวแปรตาม (Dependent Variable):

    • ยอดขาย (Sales)

Regression Equation

\[ \begin{aligned} \text{sales}=&\beta_0+\beta_1\text{advertising_spend}\\ &+\beta_2\text{product_price} + \beta_3\text{promotion}+ \varepsilon \end{aligned} \]

Results

การตีความค่าสัมประสิทธิ์ (Interpreting the Coefficients)

  • (Intercept) = 3716.95 หากค่า advertising_spend, product_price, และ promotion เป็น 0 ทั้งหมด ยอดขายที่คาดการณ์ (sales) จะเท่ากับ 3716.95 หน่วย (เป็นยอดขายเฉลี่ยพื้นฐานเมื่อไม่มีปัจจัยอื่นเข้ามาเกี่ยวข้อง)

  • advertising_spend = 0.48895 เมื่อค่า advertising_spend เพิ่มขึ้น 1 หน่วย ยอดขายเฉลี่ยจะเพิ่มขึ้นประมาณ 0.49 หน่วย (ผลมีนัยสำคัญทางสถิติ)

  • product_price = -4.11545 เมื่อ product_price เพิ่มขึ้น 1 หน่วย ยอดขายเฉลี่ยจะลดลงประมาณ 4.12 หน่วย อย่างไรก็ตาม ค่า p-value ของตัวแปรนี้คือ 0.253 ซึ่งมากกว่า 0.05 หมายความว่า ผลกระทบของราคา ไม่มีนัยสำคัญทางสถิติ (ไม่สามารถยืนยันได้ว่าราคามีผลต่อยอดขายจริง)

  • promotion = 1525.80 เมื่อค่าของ promotion เพิ่มขึ้น 1 หน่วย ยอดขายเฉลี่ยจะเพิ่มขึ้นประมาณ 1525.8 หน่วย (ผลมีนัยสำคัญทางสถิติอย่างชัดเจน)

ประสิทธิภาพของโมเดล (Model Performance)

  • Residual standard error = 1844 โดยเฉลี่ยแล้ว ค่าที่โมเดลพยากรณ์ (fitted values) จะเบี่ยงเบนจากยอดขายจริงประมาณ 1844 หน่วย

  • Multiple R-squared = 0.61 โมเดลสามารถอธิบายความแปรปรวนของยอดขายได้ประมาณ 61% ถือว่าเป็นระดับการอธิบายปานกลาง (moderate explanatory power)

  • Adjusted R-squared = 0.5978 ค่านี้ปรับให้เหมาะสมกับจำนวนตัวแปรอิสระในโมเดล เนื่องจากมีค่าน้อยกว่า R-squared เล็กน้อย แสดงว่า การเพิ่มตัวแปร product_price อาจไม่ได้ช่วยเพิ่มความแม่นยำของโมเดลอย่างมีนัยสำคัญ

  • F-statistic = 50.04, p-value < 2.2e-16 โมเดลโดยรวมมีนัยสำคัญทางสถิติ เนื่องจากค่า p-value น้อยกว่า 0.05 แสดงว่าอย่างน้อยหนึ่งตัวแปรอิสระมีผลต่อยอดขายจริง

Hands-on Practice with Orange Data Mining

2. การกำหนดราคาที่เหมาะสม (Price Optimization)

ปัญหาทางธุรกิจ: หาค่าราคาสินค้าที่เหมาะสมที่สุดเพื่อให้ยอดขายหรือความต้องการของลูกค้า (demand) สูงสุด

  • ตัวแปรอิสระ (Independent Variables):

    • ราคาสินค้า (Product Price)
    • ราคาคู่แข่ง (Competitor Price)
  • ตัวแปรตาม (Dependent Variable):

    • ความต้องการของลูกค้า (Demand)

ตัวอย่าง: สามารถใช้ การถดถอยแบบไม่เชิงเส้น (Nonlinear Regression) หรือ การถดถอยพหุนาม (Polynomial Regression) เพื่อจับความสัมพันธ์แบบไม่เชิงเส้นระหว่าง ราคา (Price) และ ความต้องการ (Demand) ซึ่งมักจะมีลักษณะเป็นเส้นโค้ง (เช่น ราคาสูงเกินไป → ความต้องการลดลง)

Regression Equation

\[ \begin{aligned} \text{demand}=\beta_0+\beta_1\text{price}+\beta_2\text{price}^2+\varepsilon \end{aligned} \]

Hands-on Practice with Orange Data Mining

3. การวิเคราะห์ผลตอบแทนจากการโฆษณา (Advertising Return Analysis — ROAS)

ปัญหาทางธุรกิจ: วิเคราะห์ว่าการลงทุนในแคมเปญโฆษณาช่องทางต่าง ๆ ส่งผลต่อยอดขายมากน้อยเพียงใด

ตัวแปรอิสระ (Independent Variables):

  • งบโฆษณาแยกตามช่องทาง (เช่น Facebook, Google Ads)

  • ระยะเวลาในการทำแคมเปญ (Duration of Campaign)

ตัวแปรตาม (Dependent Variable):

  • การเพิ่มขึ้นของยอดขายจากแคมเปญ (Sales Lift)

ตัวอย่าง: ใช้ การถดถอยเชิงเส้นพหุ (Multiple Regression) เพื่อระบุว่าแคมเปญหรือช่องทางการตลาดใดให้ผลตอบแทนจากการลงทุนในโฆษณา (Return on Advertising Spend – ROAS) สูงที่สุด

Regression Equation

\[ \begin{aligned} \text{sales_lift}=\beta_0+\beta_1\text{facebook_ads} + \beta_2\text{google_ads}+\varepsilon \end{aligned} \]

Hands-on Practice with Orange Data Mining

4. การพยากรณ์ความต้องการสินค้าคงคลัง (Inventory Demand Forecasting)

ปัญหาทางธุรกิจ: บริษัทผู้ผลิตต้องการพยากรณ์ความต้องการใช้วัตถุดิบในอนาคต เพื่อบริหารจัดการสินค้าคงคลังได้อย่างมีประสิทธิภาพและลดต้นทุนการเก็บสต็อก

ตัวแปรอิสระ (Independent Variables):

  • ฤดูกาล (Seasonality)
  • ยอดขายในอดีต (Historical Sales)

ตัวแปรตาม (Dependent Variable):

  • ปริมาณความต้องการสินค้า (Demand Quantity)

ตัวอย่าง: สามารถใช้ การถดถอยแบบอนุกรมเวลา (Time Series Regression) หรือผสมผสานการถดถอยกับแบบจำลองอนุกรมเวลา เช่น ARIMA + Regression เพื่อจับทั้งแนวโน้ม (trend) และฤดูกาล (seasonality) ของข้อมูลได้อย่างแม่นยำ

Regression Equation

\[ \begin{aligned} \text{demand}=\beta_0+ \beta_1\text{sin_term} + \beta_2\text{cos_term}+\varepsilon \end{aligned} \]

Hands-on Practice with Orange Data Mining

5. การวิเคราะห์ความพึงพอใจของลูกค้า (Customer Satisfaction Analysis)

ปัญหาทางธุรกิจ: ธุรกิจโรงแรมต้องการวิเคราะห์ปัจจัยที่มีผลต่อความพึงพอใจของลูกค้า เพื่อปรับปรุงคุณภาพการให้บริการและเพิ่มความภักดีของลูกค้า (customer loyalty)

ตัวแปรอิสระ (Independent Variables):

  • คุณภาพการบริการ (Service Quality)
  • ความสะอาด (Cleanliness)
  • ราคาห้องพัก (Room Price)

ตัวแปรตาม (Dependent Variable):

  • คะแนนความพึงพอใจของลูกค้า (Satisfaction Score)

ตัวอย่าง: ใช้ การถดถอยเชิงเส้น (Linear Regression) เพื่อสร้างแบบจำลองที่ช่วยระบุว่าปัจจัยใดมีผลมากที่สุดต่อคะแนนความพึงพอใจของลูกค้า ซึ่งสามารถใช้ข้อมูลนี้ในการวางกลยุทธ์ปรับปรุงประสบการณ์ของผู้เข้าพักได้อย่างมีประสิทธิภาพ

Regression Equation

\[ \begin{aligned} \text{satisfaction} =&\beta_0+\beta_1\text{service_quality} \\&+ \beta_2\text{cleanliness} + \beta_3\text{room_price}+\varepsilon \end{aligned} \]

Hands-on Practice with Orange Data Mining

References

  1. Demšar, J., Zupan, B., Leban, G., & Curk, T. (2013). Orange: Data Mining Toolbox in Python. Journal of Machine Learning Research, 14, 2349–2353. Retrieved from https://www.jmlr.org/papers/v14/demsar13a.html

  2. Toplak, M., Németh, S., & Demšar, J. (2022). Data mining with visual programming: A case study of Orange. Communications of the ACM, 65(7), 77–85. https://doi.org/10.1145/3507286

  3. Zupan, B., & Demšar, J. (2004). Orange: From experimental machine learning to interactive data mining. White Paper, Faculty of Computer and Information Science, University of Ljubljana. Retrieved from https://orange.biolab.si

  4. Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). Wiley. https://doi.org/10.1002/9781118625590

  5. Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models (5th ed.). McGraw-Hill Education.