\(~~~~~~~~~\)Probability and Statistics\(~~~~~~~~~\)
หัวข้อสถิติ

อ.ดร. สมศักดิ์ จันทร์เอม

วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่

31 มีนาคม 2569

ทำไมต้องใช้สถิติ?

The “Why”

มองเห็นสิ่งที่ซ่อนอยู่ในตัวเลข 🔍

สถิติ (Statistics)

สถิติ คือ ศาสตร์แห่งการเก็บรวบรวม วิเคราะห์ แปลผล และนำเสนอข้อมูล เพื่อสนับสนุนการตัดสินใจ หรือเพื่อทำความเข้าใจปรากฏการณ์ต่าง ๆ ได้ดียิ่งขึ้น

สถิติมีอยู่สองสาขาหลัก ได้แก่

  1. สถิติเชิงพรรณนา (Descriptive Statistics)
  2. สถิติอนุมาน (Inferential Statistics)

การประยุกต์ใช้ทางสถิติ (Applications)

1. ธุรกิจและการเงิน (Business & Finance)

  • พยากรณ์ยอดขาย (Forecasting)

  • ประเมินความเสี่ยงพอร์ตการลงทุน (Risk Analysis)

2. วิทยาศาสตร์ข้อมูล (Data Science & AI)

  • วิเคราะห์ข้อมูลขนาดใหญ่ (Big Data)

  • สร้างโมเดลทำนายผล (Machine Learning)

3. การแพทย์และวิจัย (Medicine & Research)

  • ทดสอบประสิทธิภาพวัคซีน (A/B Testing)

  • วิเคราะห์การระบาดของโรค

ปัญหาของ “ข้อมูลดิบ” (Raw Data)

สมมติคุณเป็นผู้บริหาร แล้วลูกน้องส่งรายงานยอดขายมาแบบนี้:

สาขา ม.ค. ก.พ. มี.ค. ธ.ค.
A 120 135 110 190
B 500 20 50 800
C 300 305 295 310

คำถาม: สาขาไหน “ผลงานดีที่สุด”? และสาขาไหน “น่าเป็นห่วง”?

คำตอบ: ดูไม่ออก! เพราะข้อมูลเยอะเกินไป (Information Overload)

เราจึงต้องการ “ตัวเลขตัวแทน” (Descriptive Statistics) มาสรุปเรื่องราวทั้งหมด

การหาตัวแทนข้อมูล

The Representative

Mean vs Median 🥊

สถิติเชิงพรรณนา (Descriptive Statistics)

ใช้เพื่อ สรุปและอธิบายข้อมูล

  • ค่ากลาง: Mean, Median

  • การกระจาย: Variance, SD

  • รูปร่าง: Skewness, Kurtosis

  • ความสัมพันธ์: Pearson Correlation

ค่าเฉลี่ย (Mean or Average)

คำจำกัดความ (Definition):

ค่าเฉลี่ย (Mean) คือจุดกึ่งกลางของข้อมูล (Center of Gravity)

\[\bar{x}=\dfrac{1}{n}\sum_{i=1}^n x_i\]

  • \(\bar{x}\) = ค่าเฉลี่ย

  • \(x_i\) = ค่าของข้อมูลแต่ละตัว

  • \(n\) = จำนวนข้อมูลทั้งหมด

ตัวอย่าง: ข้อมูล 70, 80, 90, 85, 75

\[ \text { Mean }=\frac{70+80+90+85+75}{5}=\frac{400}{5}=80 \]

⚠️ กับดักของค่าเฉลี่ย (The Mean Trap)

ทำไมค่าเฉลี่ยถึงเชื่อไม่ได้เสมอไป?

สถานการณ์สมมติ: บาร์เหล้าและมหาเศรษฐี

  1. ในบาร์มีคนนั่งอยู่ 5 คน มีรายได้เฉลี่ย 30,000 บาท/เดือน

  2. จู่ๆ Bill Gates (หรือเจ้าสัวระดับโลก) เดินเข้ามาในบาร์…

  3. ทันทีที่เขาเดินเข้ามา รายได้เฉลี่ยของคนในบาร์จะพุ่งเป็น “ร้อยล้านบาท” ทันที!

ถาม: ทุกคนในบาร์รวยขึ้นจริงหรือ?

ตอบ: ไม่จริง! แต่ ค่าเฉลี่ยถูกดึง (Distorted) โดยคนรวยเพียงคนเดียว (Outlier)

นี่คือเหตุผลที่เราต้องรู้จัก “มัธยฐาน (Median)”

ค่ามัธยฐาน (Median)

คำจำกัดความ:

ค่ามัธยฐาน (Median) คือ ค่าตรงกลาง เมื่อเรียงข้อมูลจากน้อยไปมาก

จุดเด่น:

  • ทนทานต่อค่าสุดโต่ง (Robust to Outliers)

  • เหมาะกับข้อมูลรายได้, ราคาบ้าน

🥊 Mean vs. Median Battle

ความเสี่ยงและความผันผวน

Risk & Variability

📉 〰️ 📈

🍜 ร้านอาหาร 2 ร้าน: ค่าเฉลี่ยเท่ากัน แต่ไม่เหมือนกัน

ร้าน A (สม่ำเสมอ)

⭐⭐⭐

⭐⭐⭐

⭐⭐⭐

⭐⭐⭐

⭐⭐⭐

  • Mean: 3.0

  • ความรู้สึก: “พอกินได้” ตลอดเวลา (Safe Choice)

ร้าน B (ผีเข้าผีออก)

⭐⭐⭐⭐⭐ (อร่อยเหาะ)

⭐ (กินไม่ได้)

⭐⭐⭐⭐⭐

⭐⭐⭐

  • Mean: 3.0
  • ความรู้สึก: “วัดดวง” (Risky Choice)

สถิติที่ใช้วัดความ “ผีเข้าผีออก” นี้เรียกว่า ความแปรปรวน (Variance)

ความแปรปรวน (Variance)

คำจำกัดความ (Definition):

ความแปรปรวน (Variance) ใช้วัด การกระจายตัว (Spread) ของข้อมูล

  • ค่าต่ำ: ข้อมูลเกาะกลุ่ม (ร้าน A)

  • ค่าสูง: ข้อมูลกระจัดกระจาย (ร้าน B)

\[ s^2=\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \]

ทำไม Variance ถึงพังเมื่อเจอ Outlier?

ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)

คำจำกัดความ (Definition):

ส่วนเบี่ยงเบนมาตรฐาน (SD) คือรากที่สองของความแปรปรวน

\[ s=\sqrt{\text { Variance }} \]

ทำไมต้องถอดราก?

  • เพื่อให้หน่วยกลับมาเป็นหน่วยเดิม (เช่น “บาท” แทนที่จะเป็น “บาท²”)

  • ทำให้ตีความและเปรียบเทียบง่ายขึ้น

รูปร่างของข้อมูล

The Shape of Data

Skewness & Kurtosis 🦕

ความเบ้ (Skewness)

คำจำกัดความ:

ใช้วัด ความไม่สมมาตร (เอียงซ้าย/เอียงขวา)

  • ค่าความเบ้เป็นลบ (Negative / Left Skewed): เบ้ซ้าย หางกราฟยาวไปทางซ้าย ข้อมูลส่วนใหญ่กองอยู่ทางขวา (Mean < Median)

  • ค่าความเบ้ = 0 (Symmetrical): ข้อมูลมีการกระจายตัวแบบสมมาตร (รูประฆังคว่ำปกติ)

  • ค่าความเบ้เป็นบวก (Positive / Right Skewed): เบ้ขวา หางกราฟยาวไปทางขวา ข้อมูลส่วนใหญ่กองอยู่ทางซ้าย (Mean > Median)

ความโด่ง (Kurtosis)

คำจำกัดความ:

ใช้วัด ความอ้วน/ผอม ของหางกราฟ (มี Outlier เยอะไหม?)

  • Leptokurtic (ค่า > 3 หรือ Excess > 0): โด่งมาก (สูงแหลม) หางกราฟหนา (Fat Tails) มีโอกาสเกิดค่าสุดโต่ง (Outliers) สูง

  • Mesokurtic (ค่า = 3 หรือ Excess = 0): โด่งปกติ การแจกแจงเหมือน Normal Distribution

  • Platykurtic (ค่า < 3 หรือ Excess < 0): โด่งน้อย (แบนราบ) หางกราฟบาง ข้อมูลกระจายตัวสม่ำเสมอ ไม่ค่อยมีค่าสุดโต่ง

📊 Distribution Lab (Beta Distribution)

การเปรียบเทียบมาตรฐาน

The Comparison

🍎 vs 🍊

🍎 เปรียบเทียบ “แอปเปิ้ล” กับ “ส้ม” ?

ปัญหาโลกแตกของการวิเคราะห์ข้อมูล คือ “หน่วยวัดไม่เหมือนกัน”

ใครเรียนเก่งกว่ากัน?

  • นักเรียน A: ได้เกรดเฉลี่ย (GPA) 3.8 (เต็ม 4.0)

  • นักเรียน B: ได้คะแนนสอบ SAT 1,450 (เต็ม 1,600)

เราเอา มาเทียบกับ ตรงๆ ไม่ได้! เราต้องแปลงทั้งคู่ให้เป็น “คะแนนมาตรฐาน” (Standardization) ก่อน เพื่อให้รู้ว่า “ใครอยู่เหนือกว่าค่าเฉลี่ยของกลุ่มตัวเองมากกว่ากัน”

Normalization vs Standardization

Normalization (Min-Max)

ปรับข้อมูลให้อยู่ในช่วง 0 ถึง 1

\[ x^{\prime}=\frac{x-x_{\min }}{x_{\max }-x_{\min }} \]

Standardization (Z-Score)

ปรับข้อมูลให้ Mean = 0, SD = 1

\[ z=\frac{x-\mu}{\sigma} \]

🔢 Scaling Calculator

ความสัมพันธ์และการตัดสินใจ

Relationships & Decisions

🤝 🧠 🏆

สหสัมพันธ์ของเพียร์สัน (Pearson Correlation)

ใช้วัด ความสัมพันธ์เชิงเส้น ระหว่างตัวแปรสองตัว (\(r\))

ค่า \(r\) ความหมาย
+1 ไปทางเดียวกันเป๊ะ (Perfect Positive)
0 ไม่เกี่ยวข้องกันเลย
(No Correlation)
-1 ตรงข้ามกันเป๊ะ (Perfect Negative)

สูตรการคำนวณ (Formula)

\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \cdot \sqrt{\sum (y_i - \bar{y})^2}} \]

โดยที่:

  • \(x_i, y_i\) = ค่าของตัวแปรทั้งสอง
  • \(\bar{x}, \bar{y}\) = ค่าเฉลี่ยของแต่ละตัวแปร

🧐 Guess the Correlation

💡 ตัวอย่างความสัมพันธ์ในชีวิตจริง

“ยิ่งมาก… ยิ่งดี”

  • เวลาอ่านหนังสือ ⬆️ คะแนนสอบ ⬆️

  • ส่วนสูง ⬆️ น้ำหนัก ⬆️

  • อุณหภูมิ ⬆️ ยอดขายไอติม ⬆️

“ยิ่งมาก… ยิ่งน้อย”

  • ความเร็วรถ ⬆️ เวลาเดินทาง ⬇️

  • ราคาสินค้า ⬆️ ยอดขาย ⬇️

  • ขาดเรียน ⬆️ เกรดเฉลี่ย ⬇️

“ไม่เกี่ยวกันเลย”

  • เบอร์รองเท้า ↔︎️ ความฉลาด (IQ)

  • ราคาทอง ↔︎️ ฝนตก

  • เลขบัตร ปชช. ↔︎️ เกรด

ตัวอย่างการประยุกต์

เกณฑ์ค่าเฉลี่ย–ความแปรปรวน (Mean-Variance Criteria)

กฎการตัดสินใจเลือกสิ่งที่ดีที่สุด (เช่น กองทุนหุ้น):

  1. Mean (ผลตอบแทน): ยิ่งมากยิ่งดี 📈

  2. Variance (ความเสี่ยง): ยิ่งน้อยยิ่งดี 📉

ถ้า A กำไรมากกว่า B และเสี่ยงน้อยกว่า B … เลือก A ทันที!

ถ้า B กำไรมากกว่า A และเสี่ยงน้อยกว่า A … เลือก B ทันที!

นอกจากนี้ ตัดสินใจไม่ได้

💼 Mean-Variance Decision Simulator

ตัวอย่างเกณฑ์ค่าเฉลี่ย–ความแปรปรวน

ข้อควระวัง

✈️ Survivorship Bias: The Hidden Data

บทเรียน: เราเห็นแต่รูที่ปีก เพราะเครื่องที่โดนยิงที่ปีก บินกลับมาได้

แต่เครื่องที่โดนยิงที่ เครื่องยนต์ (สีเขียว) ตกไปหมดแล้ว เราจึงไม่เห็นข้อมูลนั้น

Anscombe’s Quartet (กราฟสำคัญกว่าตัวเลข)

Select Data:

Statistical Summary

Stat Value
Mean X
Mean Y
Corr. 0.816

References

  • Devore, J. L. (2019). Probability and statistics for engineering and the sciences (9th ed.). Cengage Learning.
  • Ross, S. M. (2020). Introduction to probability and statistics for engineers and scientists (6th ed.). Academic Press.
  • Montgomery, D. C., & Runger, G. C. (2021). Applied statistics and probability for engineers (7th ed.). Wiley.
  • Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Cengage Learning.
  • Wasserman, L. (2004). All of statistics: A concise course in statistical inference. Springer.