\(~~~~~~~~~\)Probability and Statistics\(~~~~~~~~~\)
ความน่าจะเป็นและสถิติ

อ.ดร. สมศักดิ์ จันทร์เอม

วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่

13 พฤศจิกายน 2568

สัจพจน์ของความน่าจะเป็น (Axiom of Probability)

สัจพจน์ของความน่าจะเป็น มีอยู่ สามข้อ ซึ่งเป็นกฎพื้นฐานที่กำหนดคุณสมบัติของความน่าจะเป็น

สัจพจน์เหล่านี้เสนอโดย อันเดรย์ โคลโมโกรอฟ (Andrey Kolmogorov) ในปี ค.ศ. 1933 และเป็นพื้นฐานของทฤษฎีความน่าจะเป็นสมัยใหม่


~~~~~~~Andrey N. Kolmogorov

\(~~~~~~~\)Andrey N. Kolmogorov

สัจพจน์ของโคลโมโกรอฟ:

ให้ \(S\) เป็นเซตตัวอย่าง (sample space) และให้ \(A\) เป็นเหตุการณ์ใด ๆ ที่เป็นเซตย่อยของ \(S\) สัจพจน์ทั้งสามมีดังนี้:

ตัวอย่างที่ 1: การโยนเหรียญที่ยุติธรรม

เซตตัวอย่าง \(S\):
ผลลัพธ์ที่เป็นไปได้ทั้งหมด
\[ S = \{\text{หัว}, \text{ก้อย}\} \]

เหตุการณ์ \(A\): ได้ผลเป็น “หัว”
\[ A = \{\text{หัว}\} \]

ตัวอย่างที่ 2: การทอยลูกเต๋าหกหน้า

เซตตัวอย่าง \(S\):
\[ S = \{1, 2, 3, 4, 5, 6\} \]

เหตุการณ์ \(A\): การทอยได้เลขคู่
\[ A = \{2, 4, 6\} \]

ตัวอย่างที่ 3: การจั่วไพ่จากสำรับไพ่มาตรฐาน 52 ใบ


เซตตัวอย่าง \(S\): ไพ่ทั้งหมด 52 ใบที่ไม่ซ้ำกัน
\[ S = \{\text{เอซโพแดง}, \text{2 โพแดง},\\ \ldots, \text{คิงโพดำ}\} \]

เหตุการณ์ \(A\): การจั่วไพ่สีแดง
\[ A = \{\text{ไพ่โพแดงทั้งหมดและไพ่ข้าวหลามตัดทั้งหมด}\\ \text{(รวม 26 ใบ)}\} \]

สัจพจน์ที่ 1 ความน่าจะเป็นต้องไม่เป็นค่าลบ

\[P(A) \geq 0\]

สำหรับทุกเหตุการณ์ \(A\) หมายความว่าค่าความน่าจะเป็นต้องไม่เป็นค่าลบ อาจเป็นศูนย์หรือเป็นค่าบวกก็ได้เสมอ

สัจพจน์ที่ 2 ความน่าจะเป็นของเซตตัวอย่างเท่ากับ 1

\[P(S) = 1\]

ซึ่งหมายความว่า ความน่าจะเป็นของเหตุการณ์ที่ครอบคลุมผลลัพธ์ที่เป็นไปได้ทั้งหมด ต้องมีค่าเท่ากับ 1

สัจพจน์ที่ 3 การบวกความน่าจะเป็นของเหตุการณ์ที่เกิดร่วมกันไม่ได้

ถ้า \(A\) และ \(B\) เป็น เหตุการณ์ที่เกิดร่วมกันไม่ได้
หมายความว่าไม่มีผลลัพธ์ใดที่เหมือนกัน (เช่น \(A \cap B = \emptyset\)) ดังนั้น
\[ P(A \cup B) = P(A) + P(B) \]
ซึ่งหมายความว่า ถ้าเหตุการณ์สองเหตุการณ์ไม่สามารถเกิดขึ้นพร้อมกันได้ ความน่าจะเป็นที่เหตุการณ์ใดเหตุการณ์หนึ่งจะเกิดขึ้น เท่ากับผลรวมของความน่าจะเป็นของแต่ละเหตุการณ์

ผลลัพธ์ที่ได้จากสัจพจน์ของความน่าจะเป็น

จากสัจพจน์ทั้งสามข้อ เราสามารถอนุมานสมบัติสำคัญอื่น ๆ ได้ เช่น

ความน่าจะเป็นของเหตุการณ์ที่เป็นไปไม่ได้มีค่าเท่ากับศูนย์

\[P(\emptyset) = 0\]

เหตุการณ์ที่เป็นไปไม่ได้จะมีความน่าจะเป็นเท่ากับศูนย์
เนื่องจากไม่สามารถเกิดขึ้นได้เลย

กฎของส่วนเติมเต็ม (Complement Rule)

\[P(A^c) = 1 - P(A)\]

ซึ่งหมายความว่า หากความน่าจะเป็นของเหตุการณ์ \(A\) คือ \(P(A)\) แล้วความน่าจะเป็นของเหตุการณ์ที่ ไม่ใช่ \(A\) จะเท่ากับ
\[1 - P(A)\]

กฎการบวกทั่วไปของความน่าจะเป็น (General Addition Rule of Probability)

สำหรับเหตุการณ์ใด ๆ \(A\) และ \(B\):

\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]

สูตรนี้ใช้ได้แม้ในกรณีที่เหตุการณ์ทั้งสองมีส่วนที่ทับซ้อนกัน

ตัวอย่างการประยุกต์สัจพจน์ของความน่าจะเป็น

การทอยลูกเต๋าหนึ่งลูก

ให้ \(S = \{1, 2, 3, 4, 5, 6\}\)

  • เหตุการณ์ \(A\): การทอยได้เลขคี่ → \(A = \{1, 3, 5\}\)
  • เหตุการณ์ \(B\): การทอยได้เลขมากกว่า 4 → \(B = \{5, 6\}\)
  • \(P(A) = \frac{3}{6} = 0.5\), \(P(B) = \frac{2}{6} = 0.333\),
    \(P(A \cap B) = \frac{1}{6} = 0.167\)

ใช้กฎการบวก: \[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]

\[= 0.5 + 0.333 - 0.167 = 0.666\]

ตัวแปรสุ่ม (Random Variable)

ตัวแปรสุ่ม คือ ตัวแปรที่แทนค่าของผลลัพธ์จากการทดลองแบบสุ่ม
โดยค่าของมันถูกกำหนดจากความบังเอิญหรือความน่าจะเป็น

ตัวแปรสุ่มมักถูกใช้ในสถิติและทฤษฎีความน่าจะเป็น
เพื่ออธิบายการกระจายความน่าจะเป็นของข้อมูล

ตัวแปรสุ่มแบ่งออกเป็นสองประเภทหลัก ได้แก่:

  1. ตัวแปรสุ่มแบบไม่ต่อเนื่อง (Discrete Random Variable)

  2. ตัวแปรสุ่มแบบต่อเนื่อง (Continuous Random Variable)

1. ตัวแปรสุ่มแบบไม่ต่อเนื่อง (Discrete Random Variable)

  • มีค่าที่เป็นไปได้แบบนับได้ (countable number of possible values)

  • มักใช้กับเหตุการณ์ที่สามารถนับผลลัพธ์ได้ เช่น
    จำนวนแต้มที่ได้จากการทอยลูกเต๋า หรือจำนวนคำตอบที่ถูกต้องในแบบทดสอบ

ตัวอย่าง

  • การทอยลูกเต๋า: ให้ \(X\) เป็นค่าที่ปรากฏบนลูกเต๋า →
    \(X = \{1, 2, 3, 4, 5, 6\}\)

  • การโยนเหรียญ: ให้ \(Y\) เป็นจำนวนครั้งที่ได้หัวเมื่อโยนเหรียญ 3 ครั้ง →
    \(Y = \{0, 1, 2, 3\}\)

  • จำนวนลูกค้าที่มาซื้อของในแต่ละวัน: ให้ \(X\) เป็นจำนวนลูกค้าที่มาซื้อของในแต่ละวัน →
    \(X = 0, 1, 2, 3, 4, \cdots\)

2. ตัวแปรสุ่มแบบต่อเนื่อง (Continuous Random Variable)

  • เป็นตัวแปรที่สามารถมีค่า ใด ๆ ก็ได้ ภายในช่วงของจำนวนจริง

  • ใช้สำหรับ ปริมาณที่สามารถวัดได้ เช่น น้ำหนัก ส่วนสูง หรือเวลา

ตัวอย่าง

  • เวลาการให้บริการลูกค้า: ตัวแปร \(T\) อาจมีค่าอยู่ระหว่าง 0 ถึง 10 นาที

  • อุณหภูมิของเมือง: ตัวแปร \(Z\) อาจมีค่าอยู่ในช่วง 25°C ถึง 35°C

  • อัตราผลตอบแทนจากการลงทุน: ตัวแปร \(r \in (-100\%, \infty)\)

เมื่อเราสามารถนิยามรูปแบบฟังก์ชันเฉพาะของการกระจายได้ เราจะเรียกสิ่งนั้นว่า การแจกแจงความน่าจะเป็น (Probability Distribution)

การแจกแจงความน่าจะเป็น (Probability Distribution)

การแจกแจงความน่าจะเป็น คือการอธิบายว่าค่าของตัวแปรสุ่มแต่ละค่ามีโอกาสเกิดขึ้นบ่อยเพียงใด หรือมีความเป็นไปได้มากน้อยเพียงใด

สมบัติของการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง (Properties of a Discrete Probability Distribution)

ให้ \(X\) เป็นตัวแปรสุ่ม และให้ \(P(X)\) เป็นความน่าจะเป็นของค่าที่เป็นไปได้แต่ละค่าของ \(X\)
โดยต้องเป็นไปตามเงื่อนไขดังต่อไปนี้:

  1. \(0 \leq P(X) \leq 1\) สำหรับทุกค่าของ \(X\)
  2. \(\sum P(X) = 1\) (ผลรวมของความน่าจะเป็นทั้งหมดต้องเท่ากับ 1)

ตัวอย่าง

การทอยลูกเต๋า

ให้ตัวแปรสุ่ม \(X\) แทนค่าตัวเลขที่ปรากฏบนลูกเต๋าหกหน้า
(\(X = 1, 2, 3, 4, 5, 6\))

\[ P(X) = \begin{cases} \frac{1}{6}, & X = 1, 2, 3, 4, 5, 6 \\ 0, & \text{อื่น ๆ} \end{cases} \]

คำถามที่ 1:

จงหาความน่าจะเป็นที่จำนวนที่ทอยได้จะ น้อยกว่า 4

\[ P(X < 4) = P(1) + P(2) + P(3) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{3}{6} = 0.5 \]

คำถามที่ 2:

จงหาความน่าจะเป็นที่จำนวนที่ทอยได้จะเป็น เลขคู่

เลขคู่บนลูกเต๋า: 2, 4, 6

\[ P(\text{เลขคู่}) = P(2) + P(4) + P(6) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{3}{6} = 0.5 \]

คำถามที่ 3:

จงหาความน่าจะเป็นที่จำนวนที่ทอยได้จะ มากกว่าหรือเท่ากับ 5

ตัวเลขที่เป็นไปได้: 5, 6

\[ P(X \geq 5) = P(5) + P(6) = \frac{1}{6} + \frac{1}{6} = \frac{2}{6} = \frac{1}{3} \approx 0.333 \]

การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องที่สำคัญ

  1. การแจกแจงแบบเบอร์นูลลี (Bernoulli Distribution):
    ใช้สำหรับเหตุการณ์ที่มีเพียงสองผลลัพธ์ เช่น “สำเร็จ / ล้มเหลว”

  2. การแจกแจงแบบทวินาม (Binomial Distribution):
    ใช้จำลองการทดลองที่เป็นอิสระหลายครั้ง โดยแต่ละครั้งมีสองผลลัพธ์ที่เป็นไปได้

  3. การแจกแจงแบบปัวซอง (Poisson Distribution):
    ใช้จำลองจำนวนเหตุการณ์ที่เกิดขึ้นภายในช่วงเวลาหรือพื้นที่คงที่

การแจกแจงแบบเบอร์นูลลี (Bernoulli Distribution)

คำจำกัดความ (Definition):

การแจกแจงแบบเบอร์นูลลี เป็น การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง
สำหรับตัวแปรสุ่มที่มี เพียงสองผลลัพธ์ที่เป็นไปได้เท่านั้น ได้แก่:

  • ความสำเร็จ (Success) — มักแทนด้วยค่า 1

  • ความล้มเหลว (Failure) — มักแทนด้วยค่า 0

การแจกแจงนี้จำลองผลลัพธ์ของ การทดลองเพียงครั้งเดียว
ซึ่งผลลัพธ์สามารถเกิดได้เพียงหนึ่งในสองกรณีเท่านั้น

นิยามทางคณิตศาสตร์ (Mathematical Definition):

ให้ \(X \sim \text{Bernoulli}(p)\) โดยที่

  • \(X \in \{0, 1\}\)

  • \(p\) คือ ความน่าจะเป็นของความสำเร็จ (เช่น \(P(X = 1) = p\))

  • \(1 - p\) คือ ความน่าจะเป็นของความล้มเหลว (เช่น \(P(X = 0) = 1 - p\))

  • \(0 \leq p \leq 1\)

ฟังก์ชันมวลความน่าจะเป็น (Probability Mass Function; PMF):

\[ P(X = x) = p^x (1 - p)^{1 - x}, \quad \text{เมื่อ } x \in \{0, 1\} \]

สมบัติ (Properties):

  • ค่าเฉลี่ย (Mean): \(\mathbb{E}[X] = p\)

  • ความแปรปรวน (Variance): \(\text{Var}(X) = p(1 - p)\)

ตัวอย่าง (Examples):

  • การโยนเหรียญ (หัว = 1, ก้อย = 0)

  • การสอบผ่านหรือไม่ผ่าน (ผ่าน = 1, ไม่ผ่าน = 0)

  • การคลิกโฆษณา (คลิก = 1, ไม่คลิก = 0)

  • การตรวจสอบสินค้าในโรงงาน (มีตำหนิ = 1, ไม่มีตำหนิ = 0)

ทำไมการแจกแจงแบบเบอร์นูลลีจึงสำคัญ?

  • เป็น พื้นฐานสำคัญ สำหรับการแจกแจงอื่น ๆ เช่น การแจกแจงแบบทวินาม (Binomial distribution)
    ซึ่งใช้จำลองจำนวนความสำเร็จจากการทดลองแบบเบอร์นูลลีหลายครั้งที่เป็นอิสระต่อกัน

  • ถูกนำไปใช้ในหลายสาขา เช่น การจำแนกแบบทวิภาค (Binary Classification),
    การเรียนรู้ของเครื่อง (Machine Learning), เศรษฐศาสตร์,
    และ การควบคุมคุณภาพ (Quality Control) เป็นต้น

ตัวอย่าง (Example)

ให้ \(X \sim \text{Bernoulli}(p)\)
เราจะใช้ค่าของ \(p\) (ความน่าจะเป็นของความสำเร็จ) ที่แตกต่างกันในแต่ละตัวอย่าง

ตัวอย่างที่ 1: การโยนเหรียญที่ยุติธรรม

หัว = 1 (ความสำเร็จ) และ ก้อย = 0 (ความล้มเหลว) ดังนั้น \(p = 0.5\)

คำถาม: ค่า \(P(X = 1)\) คือเท่าใด?
คำตอบ: \(P(X = 1) = p = 0.5\)

คำถาม: ค่า \(P(X = 0)\) คือเท่าใด?
คำตอบ: \(P(X = 0) = 1 - p = 0.5\)

คำถาม: ค่าคาดหมาย (Expected Value) คือเท่าใด?
คำตอบ: \(\mathbb{E}[X] = p = 0.5\)

ตัวอย่างที่ 2: การควบคุมคุณภาพในโรงงาน

เครื่องจักรผลิตชิ้นส่วน โดยมีความน่าจะเป็นที่ชิ้นส่วนนั้นจะเป็น ของเสีย (Defective) เท่ากับ 0.1

ให้ \(X = 1\) เมื่อชิ้นส่วนเป็นของเสีย และ \(X = 0\) เมื่อไม่เป็นของเสีย

คำถาม: ความน่าจะเป็นที่ชิ้นส่วนจะเป็นของเสียคือเท่าใด?
คำตอบ: \(P(X = 1) = p = 0.1\)

คำถาม: ความแปรปรวนของการแจกแจงนี้คือเท่าใด?
คำตอบ: \(\text{Var}(X) = p(1 - p) = 0.1 \times 0.9 = 0.09\)

ตัวอย่างที่ 3: การคลิกโฆษณาออนไลน์

มีความน่าจะเป็นที่ผู้ใช้จะคลิกโฆษณาเท่ากับ 0.25

ให้ \(X = 1\) เมื่อมีการคลิก และ \(X = 0\) เมื่อไม่มีการคลิก

คำถาม: ค่า \(P(X = 1)\) คือเท่าใด?
คำตอบ: \(P(X = 1) = p = 0.25\)
คำถาม: ค่า \(P(X = 0)\) คือเท่าใด?
คำตอบ: \(P(X = 0) = 1 - p = 0.75\). คำถาม: ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) คือเท่าใด?
คำตอบ: \(\text{SD}(X) = \sqrt{p(1 - p)} = \sqrt{0.25 \times 0.75} = \sqrt{0.1875} \approx 0.433\)

การแจกแจงแบบทวินาม (Binomial Distribution)

การแจกแจงแบบทวินาม เป็น การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง ซึ่งอธิบายจำนวน ความสำเร็จ ที่เกิดขึ้นจากจำนวนการทดลองแบบ เบอร์นูลลีที่เป็นอิสระ (Independent Bernoulli Trials) โดยแต่ละการทดลองมีเพียงสองผลลัพธ์เท่านั้นคือ ความสำเร็จ หรือ ความล้มเหลว

คำจำกัดความ (Definition):

หากตัวแปรสุ่ม \(X \sim \text{Binomial}(n, p)\) ดังนั้น

  • \(n\): จำนวนครั้งของการทดลอง
  • \(p\): ความน่าจะเป็นของความสำเร็จในการทดลองแต่ละครั้ง
  • \(X\): จำนวนครั้งที่ประสบความสำเร็จจาก \(n\) การทดลอง
  • \(X \in \{0, 1, 2, \ldots, n\}\)

ฟังก์ชันมวลความน่าจะเป็น (Probability Mass Function; PMF):

\[ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} \]

โดยที่

  • \(\binom{n}{k} = \dfrac{n!}{k!(n - k)!}\)
  • \(k\): จำนวนครั้งของความสำเร็จ
  • \(p\): ความน่าจะเป็นของความสำเร็จ
  • \((1 - p)\): ความน่าจะเป็นของความล้มเหลว

ค่าเฉลี่ยและความแปรปรวน (Mean and Variance):

  • ค่าเฉลี่ย (Expected Value):

\[\mathbb{E}[X] = np\]

  • ความแปรปรวน (Variance):

\[\text{Var}(X) = np(1 - p)\]

ตัวอย่างในชีวิตจริง (Examples in Real Life):

สถานการณ์ การทดลอง (Trial) ความสำเร็จ (Success)
การโยนเหรียญ 10 ครั้ง แต่ละครั้งที่โยน ได้หัว (Head)
การสำรวจความคิดเห็น 20 คน แต่ละคนที่ตอบ ชอบผลิตภัณฑ์ (Likes product)
การตรวจสอบคุณภาพสินค้า 100 ชิ้น แต่ละชิ้นสินค้า ไม่ชำรุด (Not defective)

เมื่อใดควรใช้การแจกแจงแบบทวินาม (When to Use Binomial Distribution):

  • จำนวนการทดลอง \(n\) ถูกกำหนดตายตัว
  • แต่ละการทดลองมี เพียงสองผลลัพธ์ที่เป็นไปได้: สำเร็จหรือไม่สำเร็จ
  • ความน่าจะเป็นของความสำเร็จ (\(p\)) เหมือนกันในแต่ละครั้งของการทดลอง

ตัวอย่าง (Example)

ตัวอย่างที่ 1: การโยนเหรียญที่ยุติธรรม 5 ครั้ง

คุณโยนเหรียญที่ ยุติธรรม 5 ครั้ง จงหาความน่าจะเป็นที่จะได้ หัว 3 ครั้งพอดี

ให้ \(X \sim \text{Binomial}(n = 5, p = 0.5)\)

วิธีทำทีละขั้นตอน (Step-by-step): \(n = 5\), \(k = 3\), \(p = 0.5\)

\[ \begin{aligned} P(X = 3) &= \binom{5}{3}(0.5)^3(1 - 0.5)^{5 - 3}\\ &= \frac{5!}{3!2!}(0.5)^3(0.5)^2\\ &= 10 \times 0.125 \times 0.25 = 0.3125 \end{aligned} \]

คำตอบ (Answer): \(P(X = 3) = 0.3125\)

ตัวอย่างที่ 2: สินค้าที่ชำรุดในชุดการผลิต

เครื่องจักรผลิตสินค้าที่มีอัตราของเสีย 10%
หากตรวจสอบสินค้า 8 ชิ้น จงหาความน่าจะเป็นที่มี ของเสีย 2 ชิ้นพอดี

ให้ \(X \sim \text{Binomial}(n = 8, p = 0.1)\)

วิธีทำทีละขั้นตอน (Step-by-step):

  • \(n = 8\), \(k = 2\), \(p = 0.1\)

\[ \begin{aligned} P(X = 2) &= \binom{8}{2}(0.1)^2(0.9)^6\\ &= \frac{8!}{2!6!}(0.01)(0.531441)\\ &= 28 \times 0.01 \times 0.531441 = 0.1488 \end{aligned} \]

คำตอบ (Answer): \(P(X = 2) \approx 0.1488\)

ตัวอย่างที่ 3: การคลิกโฆษณาออนไลน์

ผู้ใช้แต่ละคนที่เห็นโฆษณามีโอกาสคลิกเท่ากับ 25%
จากผู้ชมทั้งหมด 12 คน จงหาความน่าจะเป็นที่มี 4 คนพอดี ที่คลิกโฆษณา

ให้ \(X \sim \text{Binomial}(n = 12, p = 0.25)\)

วิธีทำทีละขั้นตอน (Step-by-step):

  • \(n = 12\), \(k = 4\), \(p = 0.25\)

\[ \begin{aligned} P(X = 4) &= \binom{12}{4}(0.25)^4(0.75)^8\\ &= 495 \times 0.00390625 \times 0.100112915\\ &= 495 \times 0.000390625 \approx 0.1937 \end{aligned} \]

คำตอบ (Answer): \(P(X = 4) \approx 0.1937\)

Calculating the Probability in a Binomial Distribution

การแจกแจงแบบปัวซอง (Poisson Distribution)

การแจกแจงแบบปัวซอง เป็น การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง ที่ใช้จำลองจำนวนของ เหตุการณ์ (events) ที่เกิดขึ้นภายใน ช่วงเวลาหรือพื้นที่คงที่ ภายใต้สมมติฐานดังต่อไปนี้:

  1. เหตุการณ์เกิดขึ้นอย่าง เป็นอิสระต่อกัน
  2. อัตราเฉลี่ยของการเกิดเหตุการณ์ \(\lambda\) มีค่า คงที่
  3. เหตุการณ์สองเหตุการณ์ ไม่สามารถเกิดขึ้นพร้อมกันในเวลาเดียวกันได้

คำจำกัดความ (Definition):

หากตัวแปรสุ่ม \(X \sim \text{Poisson}(\lambda)\)
จะอธิบาย ความน่าจะเป็นของการเกิดเหตุการณ์จำนวน \(k\) ครั้งพอดี ภายในช่วงเวลาหรือพื้นที่ที่กำหนด

  • \(\lambda\): จำนวนเหตุการณ์เฉลี่ยต่อช่วงเวลา (เช่น ต่อชั่วโมง, ต่อวัน, ต่อกม² ฯลฯ)
  • \(X\): จำนวนเหตุการณ์ที่สังเกตได้
  • \(X \in \{0, 1, 2, \ldots\}\)

ฟังก์ชันมวลความน่าจะเป็น (Probability Mass Function; PMF): \[ P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!} \]

โดยที่:

  • \(e \approx 2.71828\) (ค่าคงที่ของออยเลอร์, Euler’s number)
  • \(k\): จำนวนเหตุการณ์ (0, 1, 2, …)
  • \(\lambda\): อัตราเฉลี่ยของการเกิดเหตุการณ์

ค่าเฉลี่ยและความแปรปรวน (Mean and Variance):

  • \(\mathbb{E}[X] = \lambda\)
  • \(\text{Var}(X) = \lambda\)

เมื่อใดควรใช้การแจกแจงแบบปัวซอง (When to Use Poisson Distribution):

  • ใช้ในการนับจำนวน เหตุการณ์ที่เกิดขึ้นไม่บ่อย (rare events) ในช่วงเวลา หรือในพื้นที่
  • เหตุการณ์เกิดขึ้นแบบ สุ่ม (random) และ เป็นอิสระต่อกัน (independent)
  • อัตราการเกิดเหตุการณ์ (rate) มีค่า คงที่ตลอดเวลา

ตัวอย่างในชีวิตจริง (Real-life Examples):

สถานการณ์ ตัวแปรแบบปัวซอง (Poisson variable)
จำนวนสายโทรศัพท์ที่เข้าศูนย์บริการต่อชั่วโมง จำนวนสายโทรศัพท์ (Number of calls)
จำนวนคำผิดในแต่ละหน้าของหนังสือ จำนวนคำผิด (Number of typos)
จำนวนผู้ป่วยที่มาถึงห้องฉุกเฉินในแต่ละคืน จำนวนผู้ป่วย (Number of patients)
จำนวนอีเมลที่ได้รับในแต่ละวัน จำนวนอีเมล (Number of emails)

ตัวอย่าง (Example)

ตัวอย่างที่ 1: ศูนย์บริการลูกค้า (Call Center)

ศูนย์บริการลูกค้าได้รับสายโทรศัพท์ เฉลี่ย 4 สายต่อชั่วโมง
จงหาความน่าจะเป็นดังต่อไปนี้:

a) \(P(X = 2)\): มีสายโทรศัพท์เข้า 2 สายพอดี

\[ P(X = 2) = \frac{e^{-4} \cdot 4^2}{2!} = \frac{e^{-4} \cdot 16}{2} = 8 \cdot e^{-4} \approx 8 \cdot 0.0183 = 0.1465 \]

b) \(P(X \leq 2)\): มีสายโทรศัพท์เข้า ไม่เกิน 2 สาย

\[P(X \leq 2) = P(0) + P(1) + P(2)\]

\[ \begin{aligned} P(0) &= \frac{e^{-4} \cdot 4^0}{0!} = e^{-4} = 0.0183 \\ P(1) &= \frac{e^{-4} \cdot 4^1}{1!} = 4 \cdot e^{-4} = 0.0733 \\ P(2) &= 0.1465 \ \text{(จากข้อ a)} \\ P(X \leq 2) &= 0.0183 + 0.0733 + 0.1465 = 0.2381 \end{aligned} \]

c) \(P(X \geq 3)\): มีสายโทรศัพท์เข้า ตั้งแต่ 3 สายขึ้นไป

\[ P(X \geq 3) = 1 - P(X \leq 2) \]

\[ P(X \geq 3) = 1 - 0.2381 = 0.7619 \]

ตัวอย่างที่ 2: ห้องฉุกเฉินในโรงพยาบาล (Hospital ER)

โดยเฉลี่ยมี ผู้ป่วยมาถึงห้องฉุกเฉิน 3 คนต่อคืน
จงหาความน่าจะเป็นดังต่อไปนี้:

a) \(P(X = 5)\): มีผู้ป่วยมาถึง 5 คนพอดี

\[ P(X = 5) = \frac{e^{-3} \cdot 3^5}{5!} = \frac{e^{-3} \cdot 243}{120} \approx 0.0498 \cdot 2.025 = 0.1008 \]

b) \(P(X \leq 5)\): มีผู้ป่วยมาถึง ไม่เกิน 5 คน

\[P(X \leq 5) = \sum_{k=0}^{5} P(k)\]

\[ \begin{aligned} P(0) &= e^{-3} = 0.0498 \\ P(1) &= 3 \cdot e^{-3} = 0.1494 \\ P(2) &= \frac{9}{2} e^{-3} = 0.2240 \\ P(3) &= \frac{27}{6} e^{-3} = 0.2240 \\ P(4) &= \frac{81}{24} e^{-3} = 0.1680 \\ P(5) &= 0.1008 \\ P(X \leq 5) &= 0.0498 + 0.1494 + 0.2240\\ &~~~+ 0.2240 + 0.1680 + 0.1008 = 0.9160 \end{aligned} \]

c) \(P(X \geq 2)\): มีผู้ป่วยมาถึง อย่างน้อย 2 คน

\[ P(X \geq 2) = 1 - P(0) - P(1) \]

\[ P(X \geq 2) = 1 - (0.0498 + 0.1494) = 1 - 0.1992 = 0.8008 \]

Calculating the Probability in a Poisson Distribution

หมายเหตุสำคัญ (Important Note)

ในโปรแกรม Jamovi คุณสามารถติดตั้งและใช้งานโมดูลภายนอกที่ชื่อว่า distrACTION เพื่อคำนวณค่าความน่าจะเป็นสำหรับทั้งการแจกแจงแบบ Binomial และ Poisson ได้

distrACTION Module

distrACTION Module

สมบัติของการแจกแจงความน่าจะเป็นแบบต่อเนื่อง (Properties of a Continuous Probability Distribution)

ให้ \(f(x)\) เป็น ฟังก์ชันความหนาแน่นของความน่าจะเป็น (Probability Density Function; PDF)
ซึ่งต้องเป็นไปตามเงื่อนไขดังต่อไปนี้:

  1. \(f(x) \geq 0\) สำหรับทุกค่า \(x\)
  2. \(\int_{-\infty}^{\infty} f(x) \, dx = 1\)

ความน่าจะเป็นที่ตัวแปรสุ่ม \(X\) จะอยู่ในช่วง \(a \leq X \leq b\)
คำนวณได้ดังนี้:

\[ \begin{aligned} P(a < X < b) &= P(a \leq X < b) \\ &= P(a < X \leq b) \\ &= P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx \end{aligned} \]

ตัวอย่างสำคัญ (Key Example)

การแจกแจงปกติ (Normal Distribution)

\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}, \quad \mu \in \mathbb{R},\ \sigma^2 > 0,\ x \in \mathbb{R} \]

  • \(\mu\) คือ ค่าเฉลี่ย (mean)
  • \(\sigma^2\) คือ ความแปรปรวน (variance)
  • รูปร่างของกราฟเป็นโค้งระฆัง (bell curve) และมีสมมาตร

Calculating the Probability in a Normal Distribution

การแจกแจงความน่าจะเป็นแบบต่อเนื่องที่สำคัญ

  1. การแจกแจงปกติ (Normal Distribution):
    ใช้กันอย่างแพร่หลายในทางสถิติ

  2. การแจกแจงแบบสม่ำเสมอ (Uniform Distribution):
    ทุกค่าภายในช่วงที่กำหนดมีความน่าจะเป็นเท่ากัน

  3. การแจกแจงแบบเอ็กซ์โปเนนเชียล (Exponential Distribution):
    มักใช้จำลองเวลาการรอคอยของเหตุการณ์ (waiting times)

สถิติ (Statistics)

สถิติ คือ ศาสตร์แห่งการเก็บรวบรวม วิเคราะห์ แปลผล และนำเสนอข้อมูล เพื่อสนับสนุนการตัดสินใจ หรือเพื่อทำความเข้าใจปรากฏการณ์ต่าง ๆ ได้ดียิ่งขึ้น

สถิติมีอยู่สองสาขาหลัก ได้แก่

1. สถิติเชิงพรรณนา (Descriptive Statistics)

ใช้เพื่อ สรุปและอธิบายข้อมูล เช่น

  • ค่าเฉลี่ย (Mean)
  • ค่ามัธยฐาน (Median)
  • ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)
  • ความแปรปรวน (Variance)
  • สหสัมพันธ์ของเพียร์สัน (Pearson Correlation)
  • ตารางแจกแจงความถี่ (Frequency Table)
  • กราฟและแผนภูมิต่าง ๆ (บทก่อนหน้า)

ค่าเฉลี่ย (Mean or Average)

คำจำกัดความ (Definition):

ค่าเฉลี่ย (Mean) หรือที่เรียกว่า ค่าเฉลี่ยเลขคณิต (Average) เป็นมาตรวัดแนวโน้มเข้าสู่ส่วนกลาง (Measure of Central Tendency) ซึ่งแสดงถึง ค่ากลางหรือตัวแทนของชุดข้อมูลทั้งหมด

\[\text{Mean} = \frac{\text{ผลรวมของข้อมูลทั้งหมด}}{\text{จำนวนข้อมูล}}\]

\[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\]

โดยที่:

  • \(\bar{x}\) = ค่าเฉลี่ย
  • \(x_i\) = ค่าของข้อมูลแต่ละตัว
  • \(n\) = จำนวนข้อมูลทั้งหมด

วิธีการใช้ค่าเฉลี่ย (How to Use the Mean)

  1. การสรุปข้อมูล (Summarizing Data)
    • ค่าเฉลี่ยให้ค่าตัวแทนของข้อมูลทั้งชุด
    • ตัวอย่าง: ค่าเฉลี่ยส่วนสูงของนักเรียนในห้องเรียน
  2. การเปรียบเทียบระหว่างกลุ่ม (Comparing Groups)
    • ใช้เปรียบเทียบค่าคะแนนเฉลี่ยระหว่างสองกลุ่ม เช่น นักเรียนสองห้อง หรือผลิตภัณฑ์สองชนิด
  3. การประยุกต์ในวิธีการทางสถิติอื่น ๆ (Used in Other Statistical Methods)
    • ค่าเฉลี่ยเป็นพื้นฐานในการคำนวณ:

      • ความแปรปรวน (Variance) และ ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)
      • ค่า Z (Z-scores)
      • การวิเคราะห์การถดถอย (Regression Analysis)
      • การทดสอบสมมติฐาน (Hypothesis Testing)

ตัวอย่าง (Example)

สมมติว่ามีคะแนนสอบดังนี้:
70, 80, 90, 85, 75

\[ \text{Mean} = \frac{70 + 80 + 90 + 85 + 75}{5} = \frac{400}{5} = 80 \]

ดังนั้น คะแนนเฉลี่ยคือ 80

เมื่อไม่ควรใช้ค่าเฉลี่ย (When Not to Use the Mean)

  • หากข้อมูลมี การเบ้ (Skewed data) หรือมี ค่าผิดปกติ (Outliers) มาก
    ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางของข้อมูลได้ดี
    ในกรณีเช่นนี้ควรใช้ ค่ามัธยฐาน (Median) แทน

ค่ามัธยฐาน (Median)

คำจำกัดความ (Definition):

ค่ามัธยฐาน (Median) คือ ค่ากลางของข้อมูล
เมื่อเรียงข้อมูลจากน้อยไปมากหรือจากมากไปน้อย
ซึ่งจะทำให้ข้อมูลถูกแบ่งออกเป็นสองส่วนที่มีจำนวนเท่ากัน

  • ถ้าจำนวนข้อมูลเป็น เลขคี่ — ค่ามัธยฐานคือ ค่าตรงกลาง
  • ถ้าจำนวนข้อมูลเป็น เลขคู่ — ค่ามัธยฐานคือ ค่าเฉลี่ยของสองค่ากลาง

วิธีคำนวณค่ามัธยฐาน (How to Calculate the Median)

  1. จัดเรียงข้อมูล จากค่าน้อยไปมาก (หรือจากมากไปน้อย)

  2. หาค่ากลางของข้อมูล:

    • ถ้า \(n\) เป็นเลขคี่:

\[ \text{Median} = x_{(\frac{n+1}{2})} \]

  • ถ้า \(n\) เป็นเลขคู่:

\[ \text{Median} = \frac{x_{(n/2)} + x_{(n/2 + 1)}}{2} \]

วิธีการใช้ค่ามัธยฐาน (How to Use the Median)

  1. การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measure of Central Tendency)
    • แสดงค่าที่เป็นตัวแทนของข้อมูล โดยเฉพาะในกรณีที่ข้อมูลมีการเบ้ (skewed)
  2. กรณีที่ข้อมูลมีค่าผิดปกติ (Outliers)
    • ค่ามัธยฐานจะไม่ถูกกระทบจากค่าที่สุดโต่งเหมือนค่าเฉลี่ย
  3. การสรุปเชิงพรรณนา (Descriptive Statistics)
    • ใช้ในการสรุปข้อมูลเช่น รายได้ ราคาบ้าน หรืออายุของประชากร เป็นต้น

ตัวอย่างที่ 1: จำนวนข้อมูลเป็นเลขคี่

  • ข้อมูล: 5, 7, 9
  • หลังจัดเรียง: 5, 7, 9
  • ค่ามัธยฐาน = 7 (ค่ากลางของข้อมูล)

ตัวอย่างที่ 2: จำนวนข้อมูลเป็นเลขคู่

  • ข้อมูล: 3, 5, 7, 9
  • หลังจัดเรียง: 3, 5, 7, 9
  • ค่ามัธยฐาน = (5 + 7) / 2 = 6

ความแปรปรวน (Variance)

คำจำกัดความ (Definition):

ความแปรปรวน (Variance) เป็นตัวชี้วัดที่บอกว่าค่าข้อมูลในชุดหนึ่ง ๆ
แตกต่างจากค่าเฉลี่ยมากน้อยเพียงใด
ซึ่งช่วยบอกถึง การกระจายตัว (Spread) หรือ ความแปรผัน (Dispersion) ของข้อมูล

  • หากมี ค่าความแปรปรวนต่ำ หมายความว่าข้อมูลส่วนใหญ่กระจุกใกล้ค่าเฉลี่ย
  • หากมี ค่าความแปรปรวนสูง หมายความว่าข้อมูลกระจายออกจากค่าเฉลี่ยในช่วงกว้าง

สูตรการคำนวณ (Formula)

สำหรับ กลุ่มตัวอย่าง (Sample): \[ s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]

สำหรับ ประชากรทั้งหมด (Population): \[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \]

โดยที่:

  • \(x_i\) = ค่าของข้อมูลแต่ละตัว
  • \(\bar{x}\) = ค่าเฉลี่ยของกลุ่มตัวอย่าง
  • \(\mu\) = ค่าเฉลี่ยของประชากร
  • \(n\), \(N\) = จำนวนข้อมูลในกลุ่มตัวอย่างหรือประชากร
  • \(s^2\), \(\sigma^2\) = ค่าความแปรปรวน

ตัวอย่าง (Example)

ข้อมูล: 4, 6, 8
ค่าเฉลี่ย (Mean) = (4 + 6 + 8) / 3 = 6
ค่าความเบี่ยงเบนจากค่าเฉลี่ย (Deviations): -2, 0, +2
ค่าความเบี่ยงเบนกำลังสอง (Squared deviations): 4, 0, 4

ความแปรปรวนของกลุ่มตัวอย่าง (Sample Variance):
\[ \frac{4 + 0 + 4}{3 - 1} = \frac{8}{2} = 4 \]

วิธีการใช้ความแปรปรวน (How to Use Variance)

  1. เพื่อทำความเข้าใจการกระจายของข้อมูล (Understand Data Spread)
    • ใช้วัดความสม่ำเสมอหรือความผันแปรของข้อมูล
  2. เพื่อเปรียบเทียบความแปรผันระหว่างกลุ่ม (Compare Variability)
    • ใช้เปรียบเทียบความเสี่ยงหรือความสม่ำเสมอของชุดข้อมูลหรือการลงทุนต่าง ๆ
  3. ในการประยุกต์ทางสถิติและการเรียนรู้ของเครื่อง (In Statistics and Machine Learning)
    ความแปรปรวนถูกใช้ใน:
    • ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) — รากที่สองของ Variance
    • การวิเคราะห์ความแปรปรวน (ANOVA)
    • การวิเคราะห์การถดถอย (Regression Analysis)
    • แบบจำลองความเสี่ยงทางการเงิน (Risk Models in Finance) หรือที่เรียกว่า ความผันผวน (Volatility)

หน่วยของค่าความแปรปรวน (Units of Variance)

  • หน่วยของความแปรปรวนจะเป็น กำลังสองของหน่วยดั้งเดิม
    เช่น ถ้าข้อมูลวัดเป็นเมตร หน่วยของความแปรปรวนจะเป็น “เมตร²”

  • ดังนั้นจึงนิยมใช้ ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)
    ซึ่งเป็นรากที่สองของความแปรปรวน เพื่อให้ตีความได้ง่ายกว่า

ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)

คำจำกัดความ (Definition):

ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) เป็นตัวชี้วัดว่า
ข้อมูลในชุด กระจายออกจากค่าเฉลี่ยมากน้อยเพียงใด
โดยเป็น รากที่สองของค่าความแปรปรวน (Variance)

  • หากมี ค่าส่วนเบี่ยงเบนมาตรฐานต่ำ หมายความว่าข้อมูลส่วนใหญ่ อยู่ใกล้ค่าเฉลี่ย
  • หากมี ค่าส่วนเบี่ยงเบนมาตรฐานสูง หมายความว่าข้อมูล กระจายตัวออกจากค่าเฉลี่ยมาก

สูตรการคำนวณ (Formula)

สำหรับ กลุ่มตัวอย่าง (Sample): \[ s = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \]

สำหรับ ประชากรทั้งหมด (Population): \[ \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2} \]

โดยที่:

  • \(x_i\) = ค่าของข้อมูลแต่ละตัว
  • \(\bar{x}\) = ค่าเฉลี่ยของกลุ่มตัวอย่าง
  • \(\mu\) = ค่าเฉลี่ยของประชากร
  • \(s\), \(\sigma\) = ค่าส่วนเบี่ยงเบนมาตรฐาน
  • \(n\), \(N\) = จำนวนข้อมูลในกลุ่มตัวอย่างหรือประชากร

ตัวอย่าง (Example)

ข้อมูล: 4, 6, 8
ค่าเฉลี่ย (Mean) = 6

ความแปรปรวนของกลุ่มตัวอย่าง =
\[ \frac{(4-6)^2 + (6-6)^2 + (8-6)^2}{3 - 1} = 4 \]

ดังนั้น ส่วนเบี่ยงเบนมาตรฐาน =
\[ \sqrt{4} = 2 \]

วิธีการใช้ส่วนเบี่ยงเบนมาตรฐาน (How to Use Standard Deviation)

  1. อธิบายการกระจายของข้อมูล (Describe Variability)
    • แสดงว่าข้อมูลแต่ละค่ากระจุกหรือกระจายรอบค่าเฉลี่ยมากน้อยเพียงใด
  2. เปรียบเทียบความสม่ำเสมอ (Compare Consistency)
    • ส่วนเบี่ยงเบนมาตรฐานน้อย = ผลลัพธ์มีความสม่ำเสมอมากขึ้น
      (เช่น คะแนนสอบ, คุณภาพสินค้า)
  3. การประยุกต์ในทางสถิติ (In Statistical Analysis)
    ใช้ใน:
    • การสร้างช่วงความเชื่อมั่น (Confidence Intervals)
    • การทดสอบสมมติฐาน (Hypothesis Testing) เช่น z-test, t-test
    • แผนภูมิควบคุมคุณภาพ (Control Charts)
    • การประเมินความเสี่ยงทางการเงิน (Risk Assessment in Finance)

หน่วยของส่วนเบี่ยงเบนมาตรฐาน (Units of Standard Deviation)

  • มี หน่วยเดียวกับข้อมูลเดิม
    เช่น ถ้าข้อมูลวัดเป็นเซนติเมตร ส่วนเบี่ยงเบนมาตรฐานก็จะอยู่ในหน่วยเซนติเมตร

  • ทำให้ ตีความได้ง่ายกว่า ความแปรปรวน

สหสัมพันธ์ของเพียร์สัน (Pearson Correlation)

คำจำกัดความ (Definition):

ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน (Pearson Correlation Coefficient)
แทนด้วยสัญลักษณ์ \(r\) ใช้วัด ความแข็งแรง (strength) และ ทิศทาง (direction)
ของ ความสัมพันธ์เชิงเส้น (Linear Relationship) ระหว่างตัวแปรเชิงปริมาณสองตัว

  • ค่าของ \(r\) จะอยู่ในช่วง –1 ถึง +1

สูตรการคำนวณ (Formula):

\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \cdot \sqrt{\sum (y_i - \bar{y})^2}} \]

โดยที่:

  • \(x_i, y_i\) = ค่าของตัวแปรทั้งสอง
  • \(\bar{x}, \bar{y}\) = ค่าเฉลี่ยของแต่ละตัวแปร

ตัวอย่าง (Example):

สมมติคุณเก็บข้อมูลเกี่ยวกับ เวลาศึกษา (ชั่วโมง) และ คะแนนสอบ ของนักเรียน:

เวลาในการอ่านหนังสือ (X) คะแนนสอบ (Y)
1 50
2 60
3 70
4 80
5 90

ค่าสหสัมพันธ์ของเพียร์สัน (\(r\)) จะเท่ากับ +1
ซึ่งแสดงถึง ความสัมพันธ์เชิงเส้นทางบวกที่สมบูรณ์แบบ (Perfect Positive Linear Relationship)

การแปลผลของค่า \(r\) (Interpretation of \(r\)):

ค่า \(r\) การแปลผล (Interpretation)
\(+1\) สัมพันธ์เชิงเส้นทางบวกสมบูรณ์แบบ (Perfect positive)
\(0.7\) ถึง \(0.9\) สัมพันธ์เชิงเส้นทางบวกอย่างมาก (Strong positive)
\(0.3\) ถึง \(0.7\) สัมพันธ์เชิงเส้นทางบวกปานกลาง (Moderate positive)
\(0\) ไม่มีความสัมพันธ์เชิงเส้น (No linear correlation)
\(-0.3\) ถึง \(-0.7\) สัมพันธ์เชิงเส้นทางลบปานกลาง (Moderate negative)
\(-0.7\) ถึง \(-0.9\) สัมพันธ์เชิงเส้นทางลบอย่างมาก (Strong negative)
\(-1\) สัมพันธ์เชิงเส้นทางลบสมบูรณ์แบบ (Perfect negative)

วิธีการใช้ค่าสหสัมพันธ์ของเพียร์สัน (How to Use Pearson Correlation)

  1. การวัดความสัมพันธ์ระหว่างตัวแปร (Measure Relationships)
    • ใช้ประเมินว่าตัวแปรสองตัวมีความสัมพันธ์กันมากน้อยเพียงใด
      เช่น ส่วนสูงกับน้ำหนัก หรือ รายได้กับการใช้จ่าย
  2. การคัดเลือกตัวแปรในโมเดล (Feature Selection)
    • ในการเรียนรู้ของเครื่อง (Machine Learning) ใช้เพื่อตรวจหาตัวแปรที่มีความสัมพันธ์กันมากเกินไป
      (ปัญหา Multicollinearity) และกำจัดตัวแปรซ้ำซ้อนออก
  3. การทดสอบสมมติฐาน (Hypothesis Testing)
    • สามารถทดสอบได้ว่าค่าสหสัมพันธ์มี ความแตกต่างจากศูนย์อย่างมีนัยสำคัญหรือไม่
      โดยใช้ t-test

เมื่อไม่ควรใช้ค่าสหสัมพันธ์ของเพียร์สัน (When Not to Use Pearson Correlation)

  • เมื่อความสัมพันธ์ระหว่างตัวแปรเป็น แบบไม่เชิงเส้น (Nonlinear)
  • เมื่อข้อมูล ไม่เป็นการแจกแจงแบบปกติ (Not Normally Distributed)
  • เมื่อตัวแปรเป็น [ลำดับ (Ordinal)] หรือ จัดหมวดหมู่ (Categorical)
    → ในกรณีนี้ควรใช้ Spearman หรือ Kendall’s Correlation แทน

2. สถิติอนุมาน (Inferential Statistics)

ใช้เพื่อ วิเคราะห์ข้อมูลเพื่อสรุปผลหรือคาดการณ์เกี่ยวกับประชากร (Population)
โดยอาศัยข้อมูลจากกลุ่มตัวอย่าง (Sample)

  • การทดสอบสมมติฐาน (Hypothesis Testing)
  • การประมาณค่าพารามิเตอร์ (Parameter Estimation)
  • การวิเคราะห์การถดถอย (Regression Analysis)

การประยุกต์ใช้ทางสถิติ (Applications of Statistics)

1. ธุรกิจและการตลาด (Business and Marketing)

  • วิเคราะห์แนวโน้มตลาดและพฤติกรรมของลูกค้า
  • พยากรณ์ยอดขายสินค้าโดยใช้การวิเคราะห์อนุกรมเวลา (Time Series Analysis)
  • ใช้การทดสอบ A/B (A/B Testing) เพื่อเปรียบเทียบประสิทธิภาพของโฆษณาหรือแคมเปญการตลาด

2. เศรษฐศาสตร์และการเงิน (Economics and Finance)

  • วิเคราะห์ภาวะเศรษฐกิจ เช่น การคำนวณอัตราเงินเฟ้อและอัตราการว่างงาน
  • ประเมินความเสี่ยงและผลตอบแทนของพอร์ตการลงทุน (Portfolio Analysis)
  • ใช้แบบจำลองเศรษฐมิติ (Econometric Models) เพื่อศึกษาปัจจัยที่มีผลต่อเศรษฐกิจ

3. วิทยาศาสตร์และวิศวกรรมศาสตร์ (Science and Engineering)

  • ออกแบบการทดลอง (Design of Experiments) เพื่อพัฒนาผลิตภัณฑ์ใหม่
  • วิเคราะห์ข้อมูลจากการทดลองในสาขาฟิสิกส์ เคมี และชีววิทยา
  • ควบคุมคุณภาพโดยใช้สถิติ (Statistical Quality Control: SQC)

4. การแพทย์และสาธารณสุข (Medicine and Public Health)

  • วิเคราะห์ประสิทธิผลของยาและวัคซีนโดยใช้ชีวสถิติ (Biostatistics)
  • ศึกษาความเสี่ยงของโรคผ่านการวิเคราะห์ข้อมูลระบาดวิทยา (Epidemiological Data Analysis)
  • ใช้การเรียนรู้ของเครื่อง (Machine Learning) และปัญญาประดิษฐ์ (AI) เพื่อวิเคราะห์เวชระเบียนและช่วยในการวินิจฉัย

5. วิทยาการข้อมูลและปัญญาประดิษฐ์ (Data Science and Artificial Intelligence)

  • วิเคราะห์ข้อมูลขนาดใหญ่ (Big Data) เพื่อสร้างความเข้าใจเชิงลึกและสนับสนุนการตัดสินใจด้วยข้อมูล
  • ใช้เทคนิคการเรียนรู้ของเครื่อง (Machine Learning) เพื่อสร้างแบบจำลองพยากรณ์
  • ทำเหมืองข้อความ (Text Mining) และวิเคราะห์ข้อมูลจากสื่อสังคมออนไลน์

6. การศึกษาและการวิจัย (Education and Research)

  • วิเคราะห์ผลการเรียนของนักศึกษาและประเมินประสิทธิภาพของหลักสูตร
  • ใช้สถิติออกแบบงานวิจัยเพื่อให้ได้ข้อสรุปที่เชื่อถือได้
  • วิเคราะห์ข้อมูลการทดลองเพื่อทดสอบสมมติฐานทางวิทยาศาสตร์

เกณฑ์ค่าเฉลี่ย–ความแปรปรวน (Mean-Variance Criteria)

แนวคิดนี้เป็น กรอบการตัดสินใจ (Decision-Making Framework) ที่ใช้ในสาขา การเงิน (Finance), เศรษฐศาสตร์ (Economics) และ สถิติ (Statistics)
โดยเฉพาะอย่างยิ่งในการ คัดเลือกพอร์ตการลงทุนและการวิเคราะห์การลงทุน (Portfolio Selection and Investment Analysis) ซึ่งมีพื้นฐานมาจากแนวคิดของ Harry Markowitz ในทฤษฎี Modern Portfolio Theory (MPT)

คำจำกัดความ (Definition):

เกณฑ์ค่าเฉลี่ย–ความแปรปรวน (Mean-Variance Criteria)
ใช้เพื่อประเมินและเปรียบเทียบทางเลือกต่าง ๆ (เช่น พอร์ตการลงทุน กลยุทธ์ หรือการตัดสินใจ)
โดยพิจารณาจากปัจจัยสำคัญสองประการคือ:

  • ค่าเฉลี่ย (Mean) = ผลตอบแทนคาดหวัง (Expected Return)
  • ความแปรปรวน (Variance) = ความเสี่ยง (Risk หรือความผันผวนของผลตอบแทน)

เราต้องการผลตอบแทนเฉลี่ยสูงและความแปรปรวนต่ำ

กฎการตัดสินใจ (Decision Rule)

เมื่อมีทางเลือกสองทางคือ A และ B:

  • A จะถูกเลือกแทน B หาก:

    • \(\mu_A \geq \mu_B\) และ \(\sigma^2_A \leq \sigma^2_B\),
    • โดยมีอย่างน้อยหนึ่งเงื่อนไขที่เป็นการไม่เท่ากัน (strict inequality)

ซึ่งหมายความว่า A ให้ผลตอบแทนสูงกว่าหรือเท่ากับ B และมีความเสี่ยงต่ำกว่าหรือเท่ากับ B

ในกรณีอื่น ๆ หมายความว่า เราไม่สามารถตัดสินใจได้อย่างชัดเจน (indifferent decision)

ตัวอย่าง (Example)

ทางเลือก (Option) ค่าเฉลี่ย (ผลตอบแทน) ความแปรปรวน (ความเสี่ยง)
A 8% 4
B 7% 5
C 9% 6
  • A เหนือกว่า B (ให้ผลตอบแทนสูงกว่าและมีความเสี่ยงต่ำกว่า) → ตัด B ออก
  • A เทียบกับ C: A ปลอดภัยกว่า, C ให้ผลตอบแทนสูงกว่า
    → การตัดสินใจขึ้นอยู่กับ ระดับการยอมรับความเสี่ยง (Risk Tolerance)

ตัวอย่างเกณฑ์ค่าเฉลี่ย–ความแปรปรวน

ข้อมูลที่ถูกทำให้เป็นมาตรฐานและปรับสเกล (Normalized and Standardized Data)

ข้อมูลที่ถูกปรับสเกล (What is Normalized Data)?

คำนิยาม (Definition): Normalization คือกระบวนการ ปรับสเกล (Rescaling) ของข้อมูลให้อยู่ในช่วงที่กำหนด โดยทั่วไปคือช่วง 0 ถึง 1 (หรือบางครั้ง -1 ถึง 1)

การทำ Normalization จะ เปลี่ยนสเกลของข้อมูล แต่ ไม่เปลี่ยนรูปร่างของการกระจายข้อมูล

สูตรทั่วไป (Min–Max Scaling):

\[ x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}} \]

โดยที่:

  • \(x\) = ค่าดั้งเดิม
  • \(x_{\min}\), \(x_{\max}\) = ค่าต่ำสุดและค่าสูงสุดของข้อมูล
  • \(x'\) = ค่าที่ถูกปรับให้อยู่ในช่วง 0 ถึง 1

เมื่อควรใช้ Normalization (When to Use Normalization)

  • เมื่อต้องการให้ตัวแปรทุกตัวมี ความสำคัญเท่ากันในโมเดล
    เช่น k-NN หรือ Neural Networks

  • เมื่อข้อมูล ไม่เป็นการแจกแจงแบบปกติ (Not Normally Distributed)

  • เมื่อตัวแปรต่าง ๆ มี หน่วยหรือสเกลแตกต่างกัน
    เช่น ส่วนสูง (เซนติเมตร) กับ น้ำหนัก (กิโลกรัม)

ข้อมูลที่ถูกทำให้เป็นมาตรฐาน (What is Standardized Data)?

คำนิยาม (Definition): Standardization คือการแปลงข้อมูลให้อยู่ในรูปที่มี:

  • ค่าเฉลี่ย (Mean) \(\bar{x} = 0\)
  • ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) \(\sigma = 1\)

กระบวนการนี้เรียกว่า Z-score Normalization

สูตรการคำนวณ:

\[ z = \frac{x - \mu}{\sigma} \]

โดยที่:

  • \(\mu\) = ค่าเฉลี่ยของข้อมูล
  • \(\sigma\) = ส่วนเบี่ยงเบนมาตรฐานของข้อมูล
  • \(z\) = ค่ามาตรฐาน (Standardized Value)

เมื่อควรใช้ Standardization (When to Use Standardization)

  • เมื่อข้อมูลมีการแจกแจงแบบ ปกติ (Normally Distributed) หรือใกล้เคียง
  • เมื่ออัลกอริทึม สมมติว่าข้อมูลมีการกระจายรอบศูนย์ (Centered Data)
    เช่น PCA, การถดถอยเชิงเส้น (Linear Regression), การถดถอยโลจิสติก (Logistic Regression), และ SVM

การคำนวณค่าที่ถูกปรับสเกลและทำให้เป็นมาตรฐาน

References

  • Devore, J. L. (2019). Probability and statistics for engineering and the sciences (9th ed.). Cengage Learning.

  • Ross, S. M. (2020). Introduction to probability and statistics for engineers and scientists (6th ed.). Academic Press.

  • Montgomery, D. C., & Runger, G. C. (2021). Applied statistics and probability for engineers (7th ed.). Wiley.

  • Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Cengage Learning.

  • Wasserman, L. (2004). All of statistics: A concise course in statistical inference. Springer.