\(\)Data Wrangling\(\)
การทำความสะอาดข้อมูล

อ.ดร. สมศักดิ์ จันทร์เอม

วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่

13 พฤศจิกายน 2568

Data Wrangling

การจัดการข้อมูล (Data Wrangling) หรือที่เรียกว่า การทำความสะอาดข้อมูล (Data Cleaning) หรือ การปรับปรุงข้อมูล (Data Remediation) คือกระบวนการในการ แปลงและปรับแต่งข้อมูล ให้อยู่ในรูปแบบที่เหมาะสมและพร้อมสำหรับการนำไปใช้งานหรือวิเคราะห์ต่อไป

กิจกรรมทั่วไปในการจัดการข้อมูล (Common Data Wrangling Activities)

การรวมข้อมูล (Merging): รวมข้อมูลจากหลายแหล่งเข้าด้วยกันเป็นชุดข้อมูลเดียวเพื่อใช้ในการวิเคราะห์
การระบุค่าที่หายไป (Identifying Missing Values): ตรวจหาค่าที่ขาดหาย (เช่น ช่องว่างในสเปรดชีต) เพื่อเติมหรือเอาออก
การลบข้อมูลที่ไม่จำเป็น (Removing Irrelevant Data): ลบข้อมูลที่ไม่เกี่ยวข้องกับโครงการหรือวัตถุประสงค์ของการวิเคราะห์
การตรวจจับค่าผิดปกติ (Detecting Outliers): ค้นหาค่าที่สุดโต่งเกินไปในข้อมูล และอธิบายหรือเอาออกเพื่อให้การวิเคราะห์ถูกต้องมากขึ้น

Data Frames

Data Frame คือชุดข้อมูลที่แสดงในรูปแบบ ตาราง (Tabular Format) โดยที่แต่ละคอลัมน์สามารถเก็บข้อมูลได้หลายประเภท เช่น

ตัวอักษร (Character)
ตัวเลข (Numeric)
ตรรกะ (Logical)
วันที่ (Date)
เป็นต้น

ข้อมูลของประเทศไทยและประเทศจีนจาก Gapminder

การปรับรูปแบบข้อมูล (Reshaping Data)

การปรับรูปแบบข้อมูล (Reshaping Data) หมายถึงการปรับเปลี่ยนหรือแปลงโครงสร้างของชุดข้อมูล เพื่อให้เหมาะสมยิ่งขึ้นสำหรับการวิเคราะห์หรือการนำเสนอ

แนวคิดสำคัญของการปรับรูปแบบข้อมูล

การปรับรูปแบบมักเกี่ยวข้องกับการแปลงข้อมูลจากรูปแบบหนึ่งไปสู่อีกรูปแบบหนึ่ง เช่น:

Wide format → Long format (แปลงข้อมูลจากรูปแบบแนวนอนให้เป็นแนวตั้ง)
Long format → Wide format (แปลงข้อมูลจากแนวตั้งให้เป็นแนวนอน)

Wide format → Long format

viewof clicks = Inputs.button("Click to show result")

คอลัมน์ lifeExp, pop และ gdpPercap ซึ่งเดิมแยกกันอยู่ จะถูกรวมให้อยู่ในคอลัมน์เดียว ที่ชื่อว่า metric
ค่าของตัวแปรเหล่านี้จะถูกย้ายไปอยู่ในคอลัมน์ใหม่ที่ชื่อว่า value

Long format → Wide format

ค่าที่เคยถูกเก็บไว้ในคอลัมน์ metric ตอนนี้จะถูก แยกกลับออกมาเป็นคอลัมน์แยกต่างหาก ได้แก่ lifeExp, pop, และ gdpPercap
ค่าจากคอลัมน์ value จะถูก กระจายกลับไปยังตัวแปรที่สอดคล้องกัน

viewof clicks2 = Inputs.button("Click to show result")

การรวมหลายคอลัมน์ให้เป็นคอลัมน์เดียว (Combine Multiple Columns into a Single Column)

การรวมตัวแปร country และ year เข้าด้วยกันให้อยู่ในคอลัมน์เดียว

viewof clicks3 = Inputs.button("Click to show result")

การแยกคอลัมน์เดียวออกเป็นหลายคอลัมน์ (Split a Column into Multiple Columns)

viewof clicks4 = Inputs.button("Click to show result")

การเรียงลำดับข้อมูลจากน้อยไปมากหรือมากไปน้อยตามคอลัมน์ที่ต้องการ

คุณสามารถเรียงลำดับข้อมูลตามคอลัมน์ เช่น year, lifeExp, หรือ pop ได้ (คลิกที่หัวคอลัมน์เพื่อจัดเรียงข้อมูล)

การเปลี่ยนชื่อตัวแปร (ห้ามใช้ชื่อซ้ำกัน)

เปลี่ยนชื่อตัวแปร country

viewof name1 = Inputs.text({
label: "To"
, placeholder: "country", value : "country"})

เปลี่ยนชื่อตัวแปร year

viewof name2 = Inputs.text({
  label: "To"
, placeholder: "year", value: "year" })

เปลี่ยนชื่อตัวแปร lifeExp

viewof name3 = Inputs.text({
label: "To"
, placeholder: "lifeExp", value: "lifeExp"})

เปลี่ยนชื่อตัวแปร pop

viewof name4 = Inputs.text({
label: "To"
, placeholder:"pop", value:"pop"})

เปลี่ยนชื่อตัวแปร gdpPercap

viewof name5 = Inputs.text({
label: "To"
, placeholder: "gdpPercap", value: "gdpPercap"})

การเลือกบางส่วนของข้อมูลแถว (Subset Observations / Rows)

เลือกแถวที่ตรงตามเงื่อนไขทางตรรกะ (logical condition)
สุ่มเลือกบางส่วนของชุดข้อมูลเป็นสัดส่วน (fraction)
สุ่มเลือกจำนวนแถวที่กำหนด (โดยไม่เกินจำนวนทั้งหมด)
เลือกแถวตามลำดับตำแหน่งที่ระบุไว้

Filter Rows by Logical Condition

การกรองแถวด้วยเงื่อนไขทางตรรกะ

เลือกแถวที่ตรงตามเงื่อนไขทางตรรกะเช่น: จากปี
ขึ้นไป(จากจำนวนทั้งหมด แถว)

viewof years = Inputs.radio(
  ["1952", "1957", "1962", "1967", "1972", "1977", "1982", "1987", "1992", "1997", "2002"], 
  {
    label: "Select data from year", 
    value: "1962"
  }
)

viewof count = Inputs.radio(
  ["Thailand", "China", "Both countries"], 
  {
    label: "Select country", 
    value: "Both countries"
  }
)

การสุ่มเลือกบางส่วนของชุดข้อมูล

สุ่มเลือกตัวอย่างข้อมูลเป็นสัดส่วนจากทั้งชุดข้อมูล เช่น ของข้อมูลทั้งหมด (จากจำนวนทั้งหมด แถว)

viewof prop = Inputs.radio(
  ["10%", "20%", "30%", "40%", "50%", "60%", "70%", "80%", "90%"], 
  {
    label: "Select sampling proportion", 
    value: "50%"
  }
)

viewof count2 = Inputs.radio(
  ["Thailand", "China", "Both countries"], 
  {
    label: "Select country", 
    value: "Both countries"
  }
)

การสุ่มเลือกจำนวนแถวที่กำหนด (โดยไม่เกินจำนวนที่มีอยู่)

Randomly sample rows

viewof value = Inputs.range([1, 24], {label: "Select sample size", step: 1, value: 10})

การเลือกแถวตามตำแหน่งที่ระบุ

Select rows from to

viewof value2 = Inputs.range([1, 24], {
label: "From row", 
step: 1, value: 10})

viewof value3 = Inputs.range([1, 24], {label: 
"To row",
step: 1, value: 15})

การเลือกบางส่วนของตัวแปร (โดยใช้เงื่อนไขของตัวแปร)

เลือกคอลัมน์ตามชื่อตัวแปรที่ระบุ
เลือกคอลัมน์ที่มีข้อความบางส่วนอยู่ในชื่อคอลัมน์
เลือกคอลัมน์ที่ลงท้ายด้วยอักขระหรือข้อความที่กำหนด

เลือกทุกคอลัมน์
เลือกคอลัมน์ที่ตรงกับรูปแบบที่กำหนด (Regular Expression)
เลือกคอลัมน์จากรายการชื่อที่ระบุไว้
เลือกทุกคอลัมน์ ยกเว้นบางคอลัมน์ที่กำหนดไว้

การเลือกคอลัมน์ตามชื่อตัวแปร

Select Variables

viewof vars = Inputs.checkbox(
  ["country", "year", "lifeExp", "pop", "gdpPercap"],
  {
    value: ["country","year"],
    label: ""
  }
)

// ถ้า vars ว่าง ให้กำหนดค่าเป็น ["k"] ถ้ามีค่าแล้ว ให้ใช้ vars
selected_vars = (vars?.length ?? 0) === 0 ? ["k"] : vars

การเลือกคอลัมน์ที่มีข้อความบางส่วนที่ระบุ

Search Column Names

viewof name6 = Inputs.text({
label: "Search keywords"
, placeholder:"pop", value:"pop"})

หากต้องการค้นหาหลายคำสำคัญ ให้คั่นแต่ละคำด้วยเครื่องหมายจุลภาค โดยไม่เว้นวรรค สามารถใช้ได้สูงสุด 5 คำสำคัญ เช่น: pop, life, count

การสรุปข้อมูล (Summarise Data)

1 เลือกตัวแปรที่คุณต้องการคำนวณ

viewof vari = Inputs.checkbox(
  ["lifeExp", "pop", "gdpPercap"],
  { value: ["lifeExp"], label: ""}
)
selected_vari = (vari ?? []).length === 0 ? ["null"] : vari

2 เลือกสถิติที่คุณต้องการคำนวณ

viewof stats = Inputs.checkbox(
  ["mean", "median", "variance", "min", "max"],
  { value: ["mean","variance"], label: ""}
)
selected_stats = (stats ?? []).length === 0 ? ["null"] : stats

3 ต้องการจัดกลุ่มการคำนวณตามตัวแปร country หรือไม่?

viewof country3 = Inputs.radio(["Yes", "No"], 
{label: ""
,value: "Yes"}
)

การสร้างตัวแปรใหม่ (Create New Variables)

ตัวอย่างของตัวแปรใหม่ที่สามารถสร้างได้

1. Total GDP of a Country (gdpTotal)

\[\tiny \text{gdpTotal} = \text{gdpPercap} \times \text{pop}\]

ความหมาย: คำนวณ GDP รวมของประเทศ โดยใช้สูตร gdpPercap × pop

2. Convert Population to Millions (pop_million)

\[\tiny \text{pop_million} = \dfrac{\text{pop}}{1,000,000}\]

ความหมาย: แปลงหน่วยประชากรจาก “คน” เป็น “ล้านคน” โดยหารค่า pop ด้วย 1,000,000

New Data Set

Data Set A

Data Set B

กำหนดให้:

ชุดข้อมูล A มีตัวแปร x1 และ x2
ชุดข้อมูล B มีตัวแปร x1 และ x3

การรวมชุดข้อมูล (Combining Data Sets)

Left join: ใช้สำหรับรวมข้อมูลจากสองตาราง (data frames) โดยจะเก็บทุกแถวจากตารางหลัก (ด้านซ้าย) และนำแถวที่ตรงกันจากตารางรอง (ด้านขวา) มารวมกัน โดยอ้างอิงจาก คีย์ร่วม (shared key)

Right join: ใช้สำหรับรวมข้อมูลจากสองตาราง (data frames) โดยจะเก็บทุกแถวจากตารางรอง (ด้านขวา) และนำแถวที่ตรงกันจากตารางหลัก (ด้านซ้าย) มารวมกัน โดยอ้างอิงจาก คีย์ร่วม (shared key)

Inner join: ใช้สำหรับรวมข้อมูลจากสองตาราง (data frames) โดยจะเก็บเฉพาะแถวที่มีค่าของคีย์ตรงกันในคอลัมน์ที่ใช้ในการเชื่อมต่อเท่านั้น

Full join: ใช้สำหรับรวมข้อมูลจากสองตาราง (data frames) โดยจะเก็บทุกแถวจากทั้งสองตาราง ไม่ว่าจะมีค่าคีย์ตรงกันหรือไม่ก็ตาม หากค่าคีย์ในตารางหนึ่งไม่มีในอีกตารางหนึ่ง ระบบจะใส่ค่า NA แทนค่าที่ขาดหายไป

ทำไมเราจึงต้องใช้การเข้ารหัสแบบ One-Hot

ปัญหาของข้อมูลเชิงประเภท (Categorical Data)

โมเดล Machine Learning ไม่สามารถตีความค่าข้อความ เช่น "Regular", "VIP", "New" ได้โดยตรง
การใช้ค่าตัวเลข เช่น 1, 2, 3 จะทำให้เกิด ลำดับที่ไม่จริง (False Ordinal Relationships) ซึ่งอาจสื่อว่า "VIP" > "Regular" ทั้งที่ในความเป็นจริงอาจไม่ถูกต้อง

การเข้ารหัสแบบ One-Hot ช่วยแก้ปัญหานี้ได้

แปลงค่าประเภทให้เป็น ตัวแปรแบบไบนารีอิสระ (Independent Binary Variables)
หลีกเลี่ยงการตีความว่า มีลำดับหรือระยะห่างระหว่างประเภท
ทำให้ข้อมูลสามารถใช้กับ อัลกอริทึม เช่น Logistic Regression, Decision Trees, Neural Networks ได้อย่างถูกต้อง

Example: Customer Type

viewof clicks20 = Inputs.button("Click to show result")

Data

\(\rightarrow\)

One hot encode

กรณีการใช้งานทางธุรกิจ (Business Use Cases)

การแบ่งกลุ่มลูกค้า (Customer Segmentation)
การพยากรณ์การยกเลิกบริการหรือพฤติกรรมการซื้อ (Predicting Churn or Purchase Behavior)
การจำแนกประเภทของธุรกรรมหรือการร้องเรียน (Classifying Transactions or Complaints by Category)

ทำไมเราจึงต้องทำการปรับขนาดข้อมูล (Normalize Data)?

1. เพื่อให้การเปรียบเทียบเป็นธรรม (Ensures Fair Comparison)

ตัวแปรเช่น ยอดขาย (Sales) (หน่วยเป็นพัน) และ อายุของลูกค้า (Customer Age) (หน่วยเป็นปี) มี สเกล (Scale) ที่แตกต่างกัน
หากไม่ทำการปรับขนาดข้อมูล (Normalization) ค่าที่มีขนาดใหญ่กว่าจะมีอิทธิพลเหนือกระบวนการเรียนรู้ของโมเดล

2. ช่วยเพิ่มประสิทธิภาพของโมเดล (Improves Model Performance)

อัลกอริทึมอย่าง K-Means, K-NN, SVM, Neural Networks อาศัย ระยะทาง (Distance) หรือ ค่าความชัน (Gradients) ในการคำนวณ
การปรับขนาดข้อมูล (Normalization) ช่วยให้โมเดล เรียนรู้ได้เร็วขึ้น (Faster Convergence) และให้ผลลัพธ์ที่ แม่นยำมากขึ้น (More Accurate Results)

3. ป้องกันอคติจากขนาดของตัวแปร (Prevents Bias from Feature Magnitude)

ตัวแปรที่มีค่าตัวเลขขนาดใหญ่ (เช่น รายได้) อาจ มีอิทธิพลมากเกินไป (Overpower) ต่อตัวแปรที่มีสเกลเล็กกว่า (เช่น ความถี่ในการซื้อสินค้า)
การทำ Normalization ช่วยให้ตัวแปรแต่ละตัว มีน้ำหนักเท่าเทียมกัน (Equal Weight)

Normalize vs Standardize Fomula

1. การปรับขนาดแบบมิน-แมกซ์ (Min-Max Normalization)

ปรับค่าข้อมูลให้อยู่ในช่วงคงที่ โดยทั่วไปคือ \([0, 1]\):

\[ x' = \frac{x - \min(x)}{\max(x) - \min(x)} \]

เหมาะสำหรับกรณีที่ ช่วงของค่า (Range) มีความสำคัญ เช่น ในโมเดล Neural Networks

viewof clicks21 = Inputs.button("Click to show result")

Data

\(\rightarrow\)

Min-Max Normalization:

2. การปรับมาตรฐานแบบ Z-Score (Z-Score Standardization)

หรือเรียกว่า การปรับขนาดแบบมาตรฐาน (Standard Scaling):

\[ x' = \frac{x - \mu}{\sigma} \]

โดยที่:

\(\mu\) คือค่าเฉลี่ย (Mean)
\(\sigma\) คือส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)

เหมาะสำหรับกรณีที่ข้อมูลมี หน่วยที่แตกต่างกัน หรือมี ค่าผิดปกติ (Outliers)

viewof clicks22 = Inputs.button("Click to show result")

Data

\(\rightarrow\)

Standardization:

References

Wickham, H., François, R., Henry, L., Müller, K., & Vaughan, D. (2023). dplyr: A Grammar of Data Manipulation (เวอร์ชัน 1.1.4) [ซอฟต์แวร์คอมพิวเตอร์]. สืบค้นจาก https://dplyr.tidyverse.org
Wickham, H., Vaughan, D., & Girlich, M. (2024). tidyr: Tidy Messy Data (เวอร์ชัน 1.3.1) [ซอฟต์แวร์คอมพิวเตอร์]. สืบค้นจาก https://tidyr.tidyverse.org

\(~~~~~~~~~~\)Data Wrangling\(~~~~~~~~~~\) การทำความสะอาดข้อมูล

Data Wrangling

กิจกรรมทั่วไปในการจัดการข้อมูล (Common Data Wrangling Activities)

Data Frames

ข้อมูลของประเทศไทยและประเทศจีนจาก Gapminder

การปรับรูปแบบข้อมูล (Reshaping Data)

Wide format → Long format

Long format → Wide format

การรวมหลายคอลัมน์ให้เป็นคอลัมน์เดียว (Combine Multiple Columns into a Single Column)

การแยกคอลัมน์เดียวออกเป็นหลายคอลัมน์ (Split a Column into Multiple Columns)

การเรียงลำดับข้อมูลจากน้อยไปมากหรือมากไปน้อยตามคอลัมน์ที่ต้องการ

การเปลี่ยนชื่อตัวแปร (ห้ามใช้ชื่อซ้ำกัน)

การเลือกบางส่วนของข้อมูลแถว (Subset Observations / Rows)

Filter Rows by Logical Condition

การกรองแถวด้วยเงื่อนไขทางตรรกะ

การสุ่มเลือกบางส่วนของชุดข้อมูล

การสุ่มเลือกจำนวนแถวที่กำหนด (โดยไม่เกินจำนวนที่มีอยู่)

การเลือกแถวตามตำแหน่งที่ระบุ

การเลือกบางส่วนของตัวแปร (โดยใช้เงื่อนไขของตัวแปร)

การเลือกคอลัมน์ตามชื่อตัวแปร

การเลือกคอลัมน์ที่มีข้อความบางส่วนที่ระบุ

การสรุปข้อมูล (Summarise Data)

การสร้างตัวแปรใหม่ (Create New Variables)

ตัวอย่างของตัวแปรใหม่ที่สามารถสร้างได้

New Data Set

การรวมชุดข้อมูล (Combining Data Sets)

ทำไมเราจึงต้องใช้การเข้ารหัสแบบ One-Hot

การเข้ารหัสแบบ One-Hot ช่วยแก้ปัญหานี้ได้

กรณีการใช้งานทางธุรกิจ (Business Use Cases)

ทำไมเราจึงต้องทำการปรับขนาดข้อมูล (Normalize Data)?

Normalize vs Standardize Fomula

References

\(\)Data Wrangling\(\)
การทำความสะอาดข้อมูล