ซอฟต์แวร์สำหรับการทำเหมืองข้อมูลโดยไม่ต้องเขียนโปรแกรม

อ.ดร. สมศักดิ์ จันทร์เอม

วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่

3 ธันวาคม 2568

🧰 เครื่องมือซอฟต์แวร์ทั้งหมดที่ใช้ในรายวิชานี้

Excel

Microsoft Excel คือโปรแกรมสเปรดชีตที่พัฒนาโดย Microsoft ใช้สำหรับ จัดเก็บข้อมูล, วิเคราะห์ข้อมูล, และ สร้างภาพข้อมูล ในรูปแบบ ตารางข้อมูล (Tabular Form)

Excel ใช้ทำอะไรได้บ้าง?

การจัดการข้อมูล (Data Management): เก็บข้อมูลในแถวและคอลัมน์
การคำนวณทางคณิตศาสตร์ (Mathematical Calculations): ใช้สูตร เช่น SUM, AVERAGE, IF
กราฟและแผนภูมิ (Charts & Graphs): สร้างกราฟแท่ง กราฟเส้น และอื่น ๆ
การวิเคราะห์ข้อมูล (Data Analysis): ใช้ PivotTable, Data Validation, Conditional Formatting
การทำงานอัตโนมัติ (Automation): ใช้ Macros และ VBA (Visual Basic for Applications) เพื่อทำงานซ้ำอัตโนมัติ

นามสกุลไฟล์ของ Excel

.xlsx: รูปแบบไฟล์มาตรฐาน
.xls: รูปแบบเดิม (ก่อนปี 2007)
.csv: ข้อมูลแบบข้อความ (comma-separated values)

Jamovi

Jamovi คือซอฟต์แวร์โอเพนซอร์สสำหรับการวิเคราะห์ทางสถิติ ใช้งานง่าย เหมือน SPSS แต่ ฟรี และ ทรงพลังมาก

คุณสมบัติเด่นของ Jamovi

อินเทอร์เฟซที่ใช้งานง่าย: หน้าตาคล้าย Excel และ SPSS
รองรับการวิเคราะห์สถิติ: เช่น t-test, ANOVA, regression, chi-square
การสร้างภาพข้อมูล (Visualization): มีกราฟแท่ง กราฟกระจาย ฮิสโตแกรม
รองรับภาษา R: ขยายฟังก์ชันด้วยโค้ด R ผ่านโมดูล Rj
ฟรีและโอเพนซอร์ส: ไม่ต้องเสียค่าลิขสิทธิ์

รูปแบบไฟล์ที่ Jamovi รองรับ

.omv: ไฟล์โปรเจกต์ของ Jamovi
สามารถนำเข้า .csv, .xlsx, .sav (SPSS), และ .txt

Orange Data Mining

Orange เป็นซอฟต์แวร์โอเพนซอร์สสำหรับ การวิเคราะห์ข้อมูล และ การทำเหมืองข้อมูล (Data Mining) ที่ใช้งานง่ายด้วยระบบลากวาง (drag-and-drop)

คุณสมบัติเด่นของ Orange

อินเทอร์เฟซแบบกราฟิก (GUI): ใช้งานได้โดยไม่ต้องเขียนโค้ด
การวิเคราะห์ข้อมูลขั้นสูง: เช่น clustering, PCA, classification
รองรับ Machine Learning: เช่น Decision Tree, SVM, Neural Network
การสร้างภาพข้อมูล (Visualization): มี scatter plot, heatmap, box plot
รองรับการเขียน Python Script: ใช้งานร่วมกับ scikit-learn, pandas
ฟรีและโอเพนซอร์ส: ใช้งานได้ทั้ง Windows, macOS, และ Linux

รูปแบบไฟล์ที่ Orange รองรับ

.csv, .xlsx – ข้อมูลแบบตาราง
.tab, .txt – ข้อความ
เชื่อมต่อฐานข้อมูล SQL ได้โดยตรง

เครื่องมือการเขียนโปรแกรมเพื่อพัฒนาทักษะด้านข้อมูล

ภาษา R และ Python เป็นภาษายอดนิยมสำหรับ การวิเคราะห์ข้อมูล, วิทยาศาสตร์ข้อมูล, และ ปัญญาประดิษฐ์ (AI/ML)

R คืออะไร

R เป็นภาษาสำหรับ สถิติและการวิเคราะห์ข้อมูล ที่ใช้กันแพร่หลายในแวดวงวิชาการและงานวิจัย

คุณสมบัติหลักของ R

✅ เหมาะสำหรับงานสถิติและการวิเคราะห์ข้อมูล: มีแพ็กเกจครบ เช่น ggplot2, dplyr, tidyverse, caret

✅ การสร้างภาพข้อมูลที่สวยงาม: ใช้ ggplot2 และ plotly

✅ รองรับ Machine Learning และ AI: มี caret, mlr, randomForest

✅ นิยมใช้ในงานวิจัย: เศรษฐศาสตร์ สังคมศาสตร์ ชีวสถิติ

✅ รองรับการรายงานเชิงโต้ตอบ: ใช้งานร่วมกับ Quarto, R Markdown, Shiny

นามสกุลไฟล์ของ R

.R: สคริปต์ R
.Rmd: R Markdown
.qmd: Quarto Markdown

สามารถรันโค้ด R ได้

Python

Python คืออะไร

Python เป็นภาษาการเขียนโปรแกรมยอดนิยม ใช้งานได้หลากหลาย เช่น Data Science, AI/ML, Web Development, และ Automation

คุณสมบัติหลักของ Python

✅ อ่านง่าย ใช้งานสะดวก: เหมาะสำหรับผู้เริ่มต้น

✅ เหมาะกับงาน Machine Learning & AI: มีไลบรารี scikit-learn, TensorFlow, PyTorch

✅ รองรับการวิเคราะห์ข้อมูลขั้นสูง: ใช้ pandas, numpy, matplotlib, seaborn

✅ รองรับ Web Development: เช่น Flask, Django, FastAPI

✅ มีคลังไลบรารีจำนวนมาก: เช่น OpenCV (ภาพ), NLTK, spaCy (NLP)

นามสกุลไฟล์ของ Python

.py: สคริปต์ Python
.ipynb: Jupyter Notebook

สามารถรันโค้ด Python ได้

R vs Python: การเปรียบเทียบ

คุณสมบัติ	R 🟦	Python 🟧
การวิเคราะห์ข้อมูล	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
การสร้างภาพข้อมูล	⭐⭐⭐⭐⭐	⭐⭐⭐
การวิเคราะห์ทางสถิติ	⭐⭐⭐⭐⭐	⭐⭐⭐
Machine Learning	⭐⭐⭐	⭐⭐⭐⭐⭐
Deep Learning	⭐⭐	⭐⭐⭐⭐⭐
Web Development	❌	⭐⭐⭐⭐⭐
Big Data Integration	⭐⭐	⭐⭐⭐⭐⭐
ความเหมาะกับผู้เริ่มต้น	⭐⭐⭐	⭐⭐⭐⭐

ควรเลือกภาษาใดดี?

ถ้ามุ่งเน้น การวิเคราะห์ทางสถิติ หรือ งานวิจัย → ใช้ R
ถ้ามุ่งเน้น Machine Learning, AI, หรือ การพัฒนาแอปพลิเคชัน → ใช้ Python
หากต้องการใช้ ทั้งสองภาษา → สามารถเชื่อม R และ Python เข้าด้วยกันได้!

ตัวอย่าง Workflow การวิเคราะห์ปัญหาเดียวกัน

การพยากรณ์คะแนนสอบจากตัวแปร GPA, ชั่วโมงอ่านหนังสือ และเพศ) โดยใช้ Excel, Jamovi, Orange Data Mining และ R เพื่อให้เห็นภาพเปรียบเทียบการทำงานระหว่างเครื่องมือทั้ง 4 แบบเป็นลำดับขั้น

ข้อมูลและไฟล์ทั้งหมด \(\leftarrow\) Click Link to Download

การพยากรณ์คะแนนสอบ (Exam Score Prediction)

วัตถุประสงค์: สร้างแบบจำลอง Multiple Linear Regression เพื่อทำนายคะแนนสอบ

ตัวแปรที่ใช้
ตาราง

ExamScore – คะแนนสอบ (ตัวแปรตาม)
GPA – เกรดเฉลี่ย
StudyHours – จำนวนชั่วโมงอ่านหนังสือต่อสัปดาห์
Gender – เพศ (Male/Female)

ID	GPA	StudyHours	Gender	ExamScore
1	2.8	5	Male	62
2	3.2	8	Female	74
3	3.6	10	Female	85
4	3.0	6	Male	67
5	3.8	12	Female	92
6	2.6	4	Male	58
7	3.4	9	Male	78
8	3.1	7	Female	70
9	3.7	11	Female	88
10	2.9	5	Male	64
11	3.5	10	Female	83
12	2.7	3	Male	55
13	3.3	8	Female	76
14	3.9	13	Female	95
15	3.0	6	Male	66

Workflow ใน Excel (Data.xlsx)

เหมาะกับ: ผู้ใช้ทั่วไป / ต้องการวิเคราะห์แบบง่าย / ไม่เขียนโค้ด

ขั้นตอน
ผลลัพธ์ที่ได้
ภาพ

ใส่ข้อมูลในตาราง Excel คอลัมน์: GPA, StudyHours, Gender (แปลงเป็น 0/1), ExamScore
เปิด Data → Data Analysis → Regression
ระบุ:
- Y Range: ExamScore
- X Range: GPA, StudyHours, Gender
เลือก:
- Residual Plots
- Normal Probability Plot (ตามต้องการ)
กด OK

ค่าสัมประสิทธิ์ (Coefficients)
R², Adjusted R²
ANOVA table
Standard error, t-value, p-value
Residual Plot

สรุป

Excel ทำได้เร็ว แต่จำกัดการวิเคราะห์ขั้นสูงและการตีความอัตโนมัติ

2) Workflow ใน Jamovi (Jamovi.omv)

เหมาะกับ: นักวิจัย / นักศึกษา / คนที่ต้องการ GUI แบบ SPSS แต่ฟรีและง่ายกว่า

ขั้นตอน
ผลลัพธ์ที่ได้
Workflow

เปิด Jamovi → Open ไฟล์ข้อมูล (.csv, .xlsx)
ไปที่เมนู Regression → Linear Regression
เลือก:
- Dependent Variable: ExamScore
- Covariates: GPA, StudyHours
- Factors: Gender
ในแท็บ Model, ติ๊ก:
- Estimates
- Model Fit (R², AIC, BIC)
- ANOVA
ใน Plots:
- Added variable plots
- Residual vs fitted
- QQ plot

Coefficients พร้อมผลทดสอบความมีนัยสำคัญ
ตาราง ANOVA
R² และข้อมูลความเหมาะสมของโมเดล
กราฟวินิจฉัยโมเดลแบบสวยงาม
ค่าประมาณแบบจำลองอัตโนมัติ

สรุป

ใช้งานง่ายเหมือน SPSS แต่มี visualization ที่ดีกว่า

3) Workflow ใน Orange Data Mining (Orange.ows และ Data2.xlsx)

เหมาะกับ: งาน Machine Learning / ทำ Pipeline แบบลาก–วาง

ขั้นตอน
ผลลัพธ์ที่ได้
Workflow

เปิด Orange → สร้าง workflow ใหม่
วาง File widget แล้วเลือกไฟล์ข้อมูล
เชื่อมต่อไปที่:
- Data Table (ตรวจสอบข้อมูล)
- Select Columns (กำหนด Feature + Target)
เลือกโมเดล:
- Linear Regression
วาง Test & Score เพื่อประเมินโมเดล
วาง Predictions เพื่อทำนายข้อมูลใหม่
(อาจเพิ่ม Scatter Plot, Box Plot, Distributions)

ค่า RMSE, MAE, R²
Coefficients (สำหรับ Linear Regression)
ทำนายคะแนนสอบได้ทันที

สรุป

เหมาะกับทำ ML workflow แบบง่าย แสดงผลลัพธ์เชิง Machine Learning มากกว่าสถิติแบบดั้งเดิม

4) Workflow ใน R

เหมาะกับ: นักวิเคราะห์ข้อมูลระดับกลาง–สูง / งาน reproducible / สถิติขั้นสูง

ขั้นตอน
ผลลัพธ์ที่ได้
ผลการทำงาน

ค่าสัมประสิทธิ์ + p-value
R², Adjusted R²
Residual diagnostics
การทำนาย
สามารถทำโมเดลขั้นสูง เช่น LASSO, Random Forest, cross-validation

สรุป

ยืดหยุ่นที่สุด เหมาะกับงานวิจัย/วิชาการ และวิเคราะห์ลึกระดับสูง

สรุปเปรียบเทียบ Workflow

เครื่องมือ	ระดับความง่าย	ความสามารถ	เหมาะกับ
Excel	⭐⭐⭐⭐⭐ ง่ายที่สุด	พื้นฐาน regression	งานทั่วไป / ผู้เริ่มต้น
Jamovi	⭐⭐⭐⭐	สถิติครบ พร้อมกราฟ	นักวิจัย / นักศึกษา
Orange	⭐⭐⭐	ML pipeline	งาน machine learning
R	⭐	ขั้นสูงสุด	นักวิเคราะห์เชิงลึก / งานวิจัย