ซอฟต์แวร์สำหรับการทำเหมืองข้อมูลโดยไม่ต้องเขียนโปรแกรม

อ.ดร. สมศักดิ์ จันทร์เอม

วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่

3 ธันวาคม 2568

🧰 เครื่องมือซอฟต์แวร์ทั้งหมดที่ใช้ในรายวิชานี้

Excel

Microsoft Excel คือโปรแกรมสเปรดชีตที่พัฒนาโดย Microsoft ใช้สำหรับ จัดเก็บข้อมูล, วิเคราะห์ข้อมูล, และ สร้างภาพข้อมูล ในรูปแบบ ตารางข้อมูล (Tabular Form)

Excel ใช้ทำอะไรได้บ้าง?

  • การจัดการข้อมูล (Data Management): เก็บข้อมูลในแถวและคอลัมน์

  • การคำนวณทางคณิตศาสตร์ (Mathematical Calculations): ใช้สูตร เช่น SUM, AVERAGE, IF

  • กราฟและแผนภูมิ (Charts & Graphs): สร้างกราฟแท่ง กราฟเส้น และอื่น ๆ

  • การวิเคราะห์ข้อมูล (Data Analysis): ใช้ PivotTable, Data Validation, Conditional Formatting

  • การทำงานอัตโนมัติ (Automation): ใช้ Macros และ VBA (Visual Basic for Applications) เพื่อทำงานซ้ำอัตโนมัติ

นามสกุลไฟล์ของ Excel

  • .xlsx: รูปแบบไฟล์มาตรฐาน

  • .xls: รูปแบบเดิม (ก่อนปี 2007)

  • .csv: ข้อมูลแบบข้อความ (comma-separated values)

Jamovi

https://www.jamovi.org/download.html

https://www.jamovi.org/download.html

Jamovi คือซอฟต์แวร์โอเพนซอร์สสำหรับการวิเคราะห์ทางสถิติ ใช้งานง่าย เหมือน SPSS แต่ ฟรี และ ทรงพลังมาก

คุณสมบัติเด่นของ Jamovi

  • อินเทอร์เฟซที่ใช้งานง่าย: หน้าตาคล้าย Excel และ SPSS

  • รองรับการวิเคราะห์สถิติ: เช่น t-test, ANOVA, regression, chi-square

  • การสร้างภาพข้อมูล (Visualization): มีกราฟแท่ง กราฟกระจาย ฮิสโตแกรม

  • รองรับภาษา R: ขยายฟังก์ชันด้วยโค้ด R ผ่านโมดูล Rj

  • ฟรีและโอเพนซอร์ส: ไม่ต้องเสียค่าลิขสิทธิ์

รูปแบบไฟล์ที่ Jamovi รองรับ

  • .omv: ไฟล์โปรเจกต์ของ Jamovi

  • สามารถนำเข้า .csv, .xlsx, .sav (SPSS), และ .txt

Orange Data Mining

https://orangedatamining.com/download/

https://orangedatamining.com/download/

Orange เป็นซอฟต์แวร์โอเพนซอร์สสำหรับ การวิเคราะห์ข้อมูล และ การทำเหมืองข้อมูล (Data Mining) ที่ใช้งานง่ายด้วยระบบลากวาง (drag-and-drop)

คุณสมบัติเด่นของ Orange

  • อินเทอร์เฟซแบบกราฟิก (GUI): ใช้งานได้โดยไม่ต้องเขียนโค้ด

  • การวิเคราะห์ข้อมูลขั้นสูง: เช่น clustering, PCA, classification

  • รองรับ Machine Learning: เช่น Decision Tree, SVM, Neural Network

  • การสร้างภาพข้อมูล (Visualization): มี scatter plot, heatmap, box plot

  • รองรับการเขียน Python Script: ใช้งานร่วมกับ scikit-learn, pandas

  • ฟรีและโอเพนซอร์ส: ใช้งานได้ทั้ง Windows, macOS, และ Linux

รูปแบบไฟล์ที่ Orange รองรับ

  • .csv, .xlsx – ข้อมูลแบบตาราง

  • .tab, .txt – ข้อความ

  • เชื่อมต่อฐานข้อมูล SQL ได้โดยตรง

เครื่องมือการเขียนโปรแกรมเพื่อพัฒนาทักษะด้านข้อมูล

ภาษา R และ Python เป็นภาษายอดนิยมสำหรับ การวิเคราะห์ข้อมูล, วิทยาศาสตร์ข้อมูล, และ ปัญญาประดิษฐ์ (AI/ML)

R คืออะไร

R เป็นภาษาสำหรับ สถิติและการวิเคราะห์ข้อมูล ที่ใช้กันแพร่หลายในแวดวงวิชาการและงานวิจัย

คุณสมบัติหลักของ R

เหมาะสำหรับงานสถิติและการวิเคราะห์ข้อมูล: มีแพ็กเกจครบ เช่น ggplot2, dplyr, tidyverse, caret

การสร้างภาพข้อมูลที่สวยงาม: ใช้ ggplot2 และ plotly

รองรับ Machine Learning และ AI: มี caret, mlr, randomForest

นิยมใช้ในงานวิจัย: เศรษฐศาสตร์ สังคมศาสตร์ ชีวสถิติ

รองรับการรายงานเชิงโต้ตอบ: ใช้งานร่วมกับ Quarto, R Markdown, Shiny

นามสกุลไฟล์ของ R

  • .R: สคริปต์ R

  • .Rmd: R Markdown

  • .qmd: Quarto Markdown

สามารถรันโค้ด R ได้

Python

Python คืออะไร

Python เป็นภาษาการเขียนโปรแกรมยอดนิยม ใช้งานได้หลากหลาย เช่น Data Science, AI/ML, Web Development, และ Automation

คุณสมบัติหลักของ Python

อ่านง่าย ใช้งานสะดวก: เหมาะสำหรับผู้เริ่มต้น

เหมาะกับงาน Machine Learning & AI: มีไลบรารี scikit-learn, TensorFlow, PyTorch

รองรับการวิเคราะห์ข้อมูลขั้นสูง: ใช้ pandas, numpy, matplotlib, seaborn

รองรับ Web Development: เช่น Flask, Django, FastAPI

มีคลังไลบรารีจำนวนมาก: เช่น OpenCV (ภาพ), NLTK, spaCy (NLP)

นามสกุลไฟล์ของ Python

  • .py: สคริปต์ Python

  • .ipynb: Jupyter Notebook

สามารถรันโค้ด Python ได้

R vs Python: การเปรียบเทียบ

คุณสมบัติ R 🟦 Python 🟧
การวิเคราะห์ข้อมูล ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
การสร้างภาพข้อมูล ⭐⭐⭐⭐⭐ ⭐⭐⭐
การวิเคราะห์ทางสถิติ ⭐⭐⭐⭐⭐ ⭐⭐⭐
Machine Learning ⭐⭐⭐ ⭐⭐⭐⭐⭐
Deep Learning ⭐⭐ ⭐⭐⭐⭐⭐
Web Development ⭐⭐⭐⭐⭐
Big Data Integration ⭐⭐ ⭐⭐⭐⭐⭐
ความเหมาะกับผู้เริ่มต้น ⭐⭐⭐ ⭐⭐⭐⭐

ควรเลือกภาษาใดดี?

  • ถ้ามุ่งเน้น การวิเคราะห์ทางสถิติ หรือ งานวิจัย → ใช้ R

  • ถ้ามุ่งเน้น Machine Learning, AI, หรือ การพัฒนาแอปพลิเคชัน → ใช้ Python

  • หากต้องการใช้ ทั้งสองภาษา → สามารถเชื่อม R และ Python เข้าด้วยกันได้!

ตัวอย่าง Workflow การวิเคราะห์ปัญหาเดียวกัน

การพยากรณ์คะแนนสอบจากตัวแปร GPA, ชั่วโมงอ่านหนังสือ และเพศ) โดยใช้ Excel, Jamovi, Orange Data Mining และ R เพื่อให้เห็นภาพเปรียบเทียบการทำงานระหว่างเครื่องมือทั้ง 4 แบบเป็นลำดับขั้น

ข้อมูลและไฟล์ทั้งหมด \(\leftarrow\) Click Link to Download

การพยากรณ์คะแนนสอบ (Exam Score Prediction)

วัตถุประสงค์: สร้างแบบจำลอง Multiple Linear Regression เพื่อทำนายคะแนนสอบ

  • ExamScore – คะแนนสอบ (ตัวแปรตาม)

  • GPA – เกรดเฉลี่ย

  • StudyHours – จำนวนชั่วโมงอ่านหนังสือต่อสัปดาห์

  • Gender – เพศ (Male/Female)

ID GPA StudyHours Gender ExamScore
1 2.8 5 Male 62
2 3.2 8 Female 74
3 3.6 10 Female 85
4 3.0 6 Male 67
5 3.8 12 Female 92
6 2.6 4 Male 58
7 3.4 9 Male 78
8 3.1 7 Female 70
9 3.7 11 Female 88
10 2.9 5 Male 64
11 3.5 10 Female 83
12 2.7 3 Male 55
13 3.3 8 Female 76
14 3.9 13 Female 95
15 3.0 6 Male 66

Workflow ใน Excel (Data.xlsx)

เหมาะกับ: ผู้ใช้ทั่วไป / ต้องการวิเคราะห์แบบง่าย / ไม่เขียนโค้ด

  1. ใส่ข้อมูลในตาราง Excel คอลัมน์: GPA, StudyHours, Gender (แปลงเป็น 0/1), ExamScore

  2. เปิด Data Data AnalysisRegression

  3. ระบุ:

    • Y Range: ExamScore

    • X Range: GPA, StudyHours, Gender

  4. เลือก:

    • Residual Plots

    • Normal Probability Plot (ตามต้องการ)

  5. กด OK

  • ค่าสัมประสิทธิ์ (Coefficients)

  • R², Adjusted R²

  • ANOVA table

  • Standard error, t-value, p-value

  • Residual Plot

สรุป

Excel ทำได้เร็ว แต่จำกัดการวิเคราะห์ขั้นสูงและการตีความอัตโนมัติ

2) Workflow ใน Jamovi (Jamovi.omv)

เหมาะกับ: นักวิจัย / นักศึกษา / คนที่ต้องการ GUI แบบ SPSS แต่ฟรีและง่ายกว่า

  1. เปิด Jamovi → Open ไฟล์ข้อมูล (.csv, .xlsx)

  2. ไปที่เมนู Regression → Linear Regression

  3. เลือก:

    • Dependent Variable: ExamScore
    • Covariates: GPA, StudyHours
    • Factors: Gender
  4. ในแท็บ Model, ติ๊ก:

    • Estimates
    • Model Fit (R², AIC, BIC)
    • ANOVA
  5. ใน Plots:

    • Added variable plots
    • Residual vs fitted
    • QQ plot
  • Coefficients พร้อมผลทดสอบความมีนัยสำคัญ
  • ตาราง ANOVA
  • R² และข้อมูลความเหมาะสมของโมเดล
  • กราฟวินิจฉัยโมเดลแบบสวยงาม
  • ค่าประมาณแบบจำลองอัตโนมัติ

สรุป

ใช้งานง่ายเหมือน SPSS แต่มี visualization ที่ดีกว่า

3) Workflow ใน Orange Data Mining (Orange.ows และ Data2.xlsx)

เหมาะกับ: งาน Machine Learning / ทำ Pipeline แบบลาก–วาง

  1. เปิด Orange → สร้าง workflow ใหม่

  2. วาง File widget แล้วเลือกไฟล์ข้อมูล

  3. เชื่อมต่อไปที่:

    • Data Table (ตรวจสอบข้อมูล)
    • Select Columns (กำหนด Feature + Target)
  4. เลือกโมเดล:

    • Linear Regression
  5. วาง Test & Score เพื่อประเมินโมเดล

  6. วาง Predictions เพื่อทำนายข้อมูลใหม่

  7. (อาจเพิ่ม Scatter Plot, Box Plot, Distributions)

  • ค่า RMSE, MAE, R²
  • Coefficients (สำหรับ Linear Regression)
  • ทำนายคะแนนสอบได้ทันที

สรุป

เหมาะกับทำ ML workflow แบบง่าย แสดงผลลัพธ์เชิง Machine Learning มากกว่าสถิติแบบดั้งเดิม

4) Workflow ใน R

เหมาะกับ: นักวิเคราะห์ข้อมูลระดับกลาง–สูง / งาน reproducible / สถิติขั้นสูง

  • ค่าสัมประสิทธิ์ + p-value
  • R², Adjusted R²
  • Residual diagnostics
  • การทำนาย
  • สามารถทำโมเดลขั้นสูง เช่น LASSO, Random Forest, cross-validation

สรุป

ยืดหยุ่นที่สุด เหมาะกับงานวิจัย/วิชาการ และวิเคราะห์ลึกระดับสูง

สรุปเปรียบเทียบ Workflow

เครื่องมือ ระดับความง่าย ความสามารถ เหมาะกับ
Excel ⭐⭐⭐⭐⭐ ง่ายที่สุด พื้นฐาน regression งานทั่วไป / ผู้เริ่มต้น
Jamovi ⭐⭐⭐⭐ สถิติครบ พร้อมกราฟ นักวิจัย / นักศึกษา
Orange ⭐⭐⭐ ML pipeline งาน machine learning
R ขั้นสูงสุด นักวิเคราะห์เชิงลึก / งานวิจัย