\(~~~~~~~~~~\)Text Mining\(~~~~~~~~~~\)
การทำเหมืองข้อความ

อ.ดร. สมศักดิ์ จันทร์เอม

วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่

14 พฤศจิกายน 2568

วัตถุประสงค์การเรียนรู้ (Learning Objectives)

นักศึกษาจะสามารถ…

  1. อธิบายแนวคิดพื้นฐานและหลักการทำงานของ การประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP) ได้

  2. อธิบายพื้นฐานของ การวิเคราะห์อารมณ์ (Sentiment Analysis) ได้

  3. ระบุและเข้าใจการประยุกต์ใช้ การวิเคราะห์อารมณ์ในชีวิตประจำวัน ได้

  4. ใช้เครื่องมือพื้นฐานสำหรับการวิเคราะห์อารมณ์ได้

  5. ตีความผลลัพธ์ของการวิเคราะห์อารมณ์ได้อย่างชัดเจนและเข้าใจง่าย

อะไรคือการทำเหมืองข้อความ

การทำเหมืองข้อความ (Text Mining) หรือที่เรียกว่า การทำเหมืองข้อมูลจากข้อความ (Text Data Mining) หรือ การวิเคราะห์ข้อความ (Text Analytics) คือกระบวนการดึงข้อมูลเชิงลึก รูปแบบ และความรู้ที่มีประโยชน์จากข้อมูลข้อความที่ไม่มีโครงสร้าง

Text Mining ผสานเทคนิคจาก การประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP), การเรียนรู้ของเครื่อง (Machine Learning), และ สถิติ (Statistics) เพื่อแปลงข้อความให้เป็นข้อมูลที่มีโครงสร้างและสามารถนำไปวิเคราะห์ต่อได้

การประยุกต์ใช้การทำเหมืองข้อความ (Application of Text Mining)

ด้านธุรกิจ (Business)

✅ สถานการณ์

บริษัท อีคอมเมิร์ซ (e-commerce) เช่น Amazon ต้องการปรับปรุงคุณภาพสินค้าและความพึงพอใจของลูกค้า โดยได้รับ รีวิวสินค้าจำนวนหลายพันรายการต่อวัน ซึ่งเป็นข้อมูลข้อความที่ไม่มีโครงสร้าง

🔑 กระบวนการ (Process)

  1. การรวบรวมข้อมูล (Data Collection):

    • รวบรวมรีวิวจากเว็บไซต์ แอปพลิเคชัน หรือแพลตฟอร์มภายนอก
  2. การเตรียมข้อมูล (Preprocessing):

    • ลบคำหยุด (Stop Words) เช่น “the”, “is”
    • ลบเครื่องหมายวรรคตอนและข้อมูลที่ไม่เกี่ยวข้อง
    • ทำการ Stemming/Lemmatization เช่น “running” → “run”
  3. เทคนิคการทำเหมืองข้อความ (Text Mining Techniques):

    • การวิเคราะห์อารมณ์ (Sentiment Analysis) → แยกรีวิวว่าเป็นบวก 😊, ลบ 😡, หรือกลาง ๆ 😐
    • การจำแนกหัวข้อ (Topic Modeling - LDA) → หาหัวข้อหลัก เช่น “การจัดส่ง”, “ราคา”, “คุณภาพ”
    • การดึงคำสำคัญ (Keyword Extraction - TF–IDF) → เน้นคำที่พบมากในคำชมและคำติ
  4. การนำไปใช้ทางธุรกิจ (Business Action):

    • หากหลายรีวิวพูดถึง “ส่งช้า” → ทีมโลจิสติกส์สามารถตรวจสอบการขนส่งได้
    • หากรีวิวบวกพูดถึง “แพ็กเกจดี” → ทีมการตลาดสามารถใช้จุดนี้ในโฆษณา
  • Amazon ใช้ Text Mining เพื่อ วิเคราะห์รีวิวสินค้า (Product Review Analysis)

    • การวิเคราะห์อารมณ์ช่วยจัดอันดับสินค้าและแนะนำสินค้าที่เหมาะสม
    • รีวิวเชิงลบทำให้เกิดการแจ้งเตือนต่อทีมควบคุมคุณภาพ
  • Starbucks ใช้ Text Mining บน Twitter และ Instagram

    • ตรวจจับรสชาติยอดนิยมและข้อร้องเรียน
    • ปรับกลยุทธ์ทางการตลาด เช่น เปิดตัวเครื่องดื่มตามฤดูกาล

ด้านสาธารณสุข (Healthcare)

สาธารณสุข: การทำเหมืองข้อมูลจากเวชระเบียนและบันทึกทางคลินิกเพื่อสนับสนุนการวินิจฉัยโรค

✅ สถานการณ์

โรงพยาบาลและคลินิกสร้างข้อมูลข้อความที่ไม่มีโครงสร้างจำนวนมหาศาล เช่น

  • เวชระเบียนอิเล็กทรอนิกส์ (Electronic Health Records: EHRs)
  • บันทึกทางคลินิกของแพทย์
  • รายงานผลตรวจทางห้องปฏิบัติการ
  • รายงานภาพรังสีทางการแพทย์

ข้อมูลเหล่านี้มีคุณค่ามาก แต่ยากต่อการวิเคราะห์ด้วยวิธีการแบบแมนนวล


🔑 กระบวนการ

  1. การรวบรวมข้อมูล (Data Collection)

    • ดึงข้อมูลจากเวชระเบียน รายงานการจำหน่ายผู้ป่วย และบันทึกของแพทย์
  2. การเตรียมข้อมูล (Preprocessing)

    • ลบคำหยุด (Stopwords) และทำให้คำศัพท์ทางการแพทย์เป็นมาตรฐานเดียวกัน
    • จัดการคำย่อ เช่น HTN → Hypertension (โรคความดันโลหิตสูง)
  3. เทคนิคการทำเหมืองข้อความ (Text Mining Techniques)

    • Named Entity Recognition (NER): ระบุชื่อโรค อาการ และการรักษาที่ปรากฏในข้อความ
    • Text Classification: จำแนกบันทึกทางการแพทย์ตามประเภทของการวินิจฉัย
    • Clustering & Pattern Mining: ค้นหารูปแบบร่วม เช่น diabetes + hypertension (เบาหวาน + ความดัน)
    • Predictive Modeling: ทำนายความเสี่ยงจากข้อมูลในอดีต เช่น ความเสี่ยงของการกลับมารักษาซ้ำ
  4. ผลกระทบทางธุรกิจและสาธารณสุข (Business/Healthcare Impact)

    • ช่วยให้แพทย์สามารถ ตรวจจับรูปแบบของโรค และวินิจฉัยได้เร็วขึ้น
    • สนับสนุนการสร้าง แผนการรักษาเฉพาะบุคคล (Personalized Treatment Plan)
    • ปรับปรุง ความปลอดภัยของผู้ป่วย โดยการตรวจจับการโต้ตอบของยา (Drug Interaction)

  • IBM Watson Health: ใช้เทคนิค Text Mining เพื่อสกัดข้อมูลสำคัญจากบันทึกทางคลินิกเพื่อช่วยแพทย์ในการวินิจฉัยโรค

  • โรงพยาบาล Mount Sinai (นิวยอร์ก): ประยุกต์ใช้ NLP กับข้อมูล EHR เพื่อทำนายความเสี่ยงของภาวะหัวใจล้มเหลวได้เร็วกว่าวิธีดั้งเดิม

ด้านการเงิน (Finance)

การเงิน: การตรวจจับการทุจริตและการวิเคราะห์อารมณ์ของข่าวเพื่อคาดการณ์ราคาหุ้น


✅ สถานการณ์

สถาบันการเงินต้องจัดการกับข้อมูลข้อความที่ไม่มีโครงสร้างจำนวนมหาศาล เช่น

  • บันทึกธุรกรรมของลูกค้า
  • รายการบัตรเครดิต
  • ข่าวการเงินและรายงานของนักวิเคราะห์
  • โพสต์บนโซเชียลมีเดียเกี่ยวกับหุ้น

ข้อมูลเหล่านี้มีสัญญาณที่ซ่อนอยู่ซึ่งสามารถใช้ตรวจจับการฉ้อโกงและช่วยในการพยากรณ์การลงทุนได้


🔑 วิธีการทำงานของ Text Mining ในภาคการเงิน

  1. การตรวจจับการฉ้อโกง (Fraud Detection)

    • แหล่งข้อมูล (Data Sources): คำอธิบายธุรกรรม ชื่อร้านค้า และบันทึกข้อร้องเรียนของลูกค้า

    • เทคนิคที่ใช้:

      • การประมวลผลภาษาธรรมชาติ (NLP) เพื่อวิเคราะห์ข้อความของธุรกรรม
      • การตรวจจับความผิดปกติ (Anomaly Detection) เพื่อระบุพฤติกรรมที่น่าสงสัย
      • แบบจำลองการจำแนกประเภท (Classification Models) เช่น ธุรกรรมปกติ ✅ เทียบกับ ธุรกรรมน่าสงสัย ❌
    • ผลลัพธ์: แจ้งเตือนการฉ้อโกงแบบเรียลไทม์ ลดความสูญเสียทางการเงิน


  1. การวิเคราะห์อารมณ์ของข่าวเพื่อคาดการณ์ราคาหุ้น (News Sentiment for Stock Prediction)

    • แหล่งข้อมูล (Data Sources): พาดหัวข่าว บทความทางการเงิน และโพสต์ใน Twitter

    • เทคนิคที่ใช้:

      • การวิเคราะห์อารมณ์ (Sentiment Analysis) — แบ่งข้อความเป็นบวก/ลบ/เป็นกลาง
      • การระบุชื่อเอนทิตี (Named Entity Recognition - NER) เพื่อระบุชื่อบริษัทและตัวย่อหุ้น
      • การวิเคราะห์ความสัมพันธ์กับการเคลื่อนไหวของตลาด
    • ผลลัพธ์: ช่วยให้นักลงทุนคาดการณ์ทิศทางราคาหุ้นและสร้างกลยุทธ์การเทรดที่ขับเคลื่อนด้วยอารมณ์ตลาด


  • JPMorgan Chase 🏦

    • ใช้ Text Mining + Machine Learning วิเคราะห์อีเมล แชต และเอกสารของลูกค้านับล้านรายการเพื่อค้นหาสัญญาณการฉ้อโกงหรือการซื้อขายภายใน (Insider Trading)
  • Bloomberg Terminal & Reuters 📰

    • ใช้ การวิเคราะห์อารมณ์แบบเรียลไทม์ จากข่าวการเงินทั่วโลก
    • เทรดเดอร์ได้รับการแจ้งเตือนเมื่ออารมณ์ของตลาดต่อหุ้นหรือสินค้าเปลี่ยนแปลงอย่างฉับพลัน
  • S&P Global Market Intelligence 📈

    • ใช้ NLP วิเคราะห์ข้อความจากการประชุมประกาศผลประกอบการ (Earnings Call Transcripts)
    • นักวิเคราะห์สามารถตรวจจับโทนเสียงและอารมณ์ของผู้บริหาร เพื่อใช้เป็นสัญญาณล่วงหน้าของประสิทธิภาพบริษัท

ด้านการศึกษาและการวิจัย (Education & Research)

การศึกษาและการวิจัย: การสรุปบทความ การตรวจสอบการคัดลอกผลงาน และการวิเคราะห์การเรียนรู้ (Learning Analytics) 🎓📚


✅ สถานการณ์

มหาวิทยาลัยและนักวิจัยต้องจัดการกับข้อมูลข้อความจำนวนมหาศาลที่ไม่มีโครงสร้าง เช่น

  • งานวิจัยและบทความทางวิชาการ
  • รายงานและเรียงความของนักศึกษา
  • บันทึกการเรียนออนไลน์และโพสต์ในกระดานสนทนา

Text Mining ช่วยให้สามารถประมวลผลและวิเคราะห์ข้อมูลเหล่านี้ได้อย่างมีประสิทธิภาพ


🔑 วิธีการทำงานของ Text Mining ในการศึกษาและการวิจัย

  1. การสรุปบทความ (Summarizing Articles)

    • อัลกอริทึม NLP ช่วยสร้างสรุปย่อจากงานวิจัยขนาดยาว
    • ช่วยให้นักศึกษาและนักวิจัยประหยัดเวลาในการค้นหาข้อมูลในฐานข้อมูลขนาดใหญ่
    • ตัวอย่าง: Elsevier ใช้ AI เพื่อสรุปเนื้อหาในแพลตฟอร์มวิชาการของตน
  2. การตรวจสอบการคัดลอกผลงาน (Plagiarism Detection)

    • ระบบจะเปรียบเทียบงานของนักศึกษากับเอกสารจำนวนหลายล้านฉบับ
    • ตรวจจับข้อความที่คัดลอกหรือมีการเขียนใหม่อย่างมีนัยสำคัญ
    • ตัวอย่าง: Turnitin ใช้เทคนิค Text Mining + Similarity Analysis เพื่อเปรียบเทียบข้อความ
  3. การวิเคราะห์การเรียนรู้ (Learning Analytics)

    • วิเคราะห์โพสต์ในฟอรัม รายงาน หรือคำตอบแบบทดสอบของผู้เรียน
    • ระบุ “นักศึกษาที่มีความเสี่ยง” จากรูปแบบการเขียนหรือระดับการมีส่วนร่วม
    • ตัวอย่าง: Moodle Analytics และ Coursera ใช้ NLP เพื่อติดตามพัฒนาการของผู้เรียน

  • Turnitin → ระบบตรวจสอบการคัดลอกผลงานจากเอกสารนักศึกษาหลายล้านฉบับทั่วโลก
  • Coursera & edX → วิเคราะห์การสนทนาในฟอรัมเพื่อปรับปรุงการออกแบบหลักสูตร
  • Semantic Scholar (Allen Institute for AI) → ใช้ NLP เพื่อสรุปและแนะนำบทความวิจัยที่เกี่ยวข้อง

การประมวลผลภาษาธรรมชาติ (Natural Language Processing)

การประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP) เป็นสาขาหนึ่งของ ปัญญาประดิษฐ์ (Artificial Intelligence: AI) ที่มุ่งเน้นให้คอมพิวเตอร์สามารถเข้าใจ ตีความ และสร้าง ภาษามนุษย์ (Human Language) ทั้งในรูปแบบคำพูดและข้อความได้

NLP ผสานเทคนิคจาก ภาษาศาสตร์ (Linguistics), วิทยาการคอมพิวเตอร์ (Computer Science), และ การเรียนรู้ของเครื่อง (Machine Learning) เพื่อเชื่อมช่องว่างระหว่างการสื่อสารของมนุษย์กับการทำความเข้าใจของคอมพิวเตอร์

ความสามารถหลักของ NLP

  1. การเตรียมข้อความ (Text Preprocessing) → การตัดคำ (Tokenization), การทำรากคำ (Stemming), การทำ Lemmatization, การลบคำหยุด (Stop-word Removal)

  2. การจำแนกข้อความ (Text Classification) → การตรวจจับสแปม การวิเคราะห์อารมณ์ การติดป้ายหัวข้อ

  3. การระบุเอนทิตีในข้อความ (Named Entity Recognition: NER) → การระบุชื่อบุคคล สถานที่ วันที่ องค์กร

  4. การแปลภาษาอัตโนมัติ (Machine Translation) → เช่น Google Translate, DeepL

  5. การวิเคราะห์อารมณ์ (Sentiment Analysis) → การตรวจจับอารมณ์ เช่น บวก ลบ หรือเป็นกลาง

  6. การรู้จำเสียงพูด (Speech Recognition) → แปลงเสียงพูดเป็นข้อความ เช่น Siri, Alexa

  7. การสร้างข้อความ (Text Generation) → แชตบอตและโมเดลภาษาขนาดใหญ่ เช่น ChatGPT, Gemini ✨

การวิเคราะห์อารมณ์ (Sentiment Analysis)

การวิเคราะห์อารมณ์ (Sentiment Analysis) เป็นเทคนิคที่ใช้ในการตรวจจับ “โทนอารมณ์” ของข้อความ โดยช่วยให้คอมพิวเตอร์สามารถระบุได้ว่าข้อความนั้นมีอารมณ์แบบ เชิงบวก, เชิงลบ หรือ เป็นกลาง

ตัวอย่างประโยคและค่าคะแนนอารมณ์

โดยทั่วไป เราจะกำหนด ค่าคะแนนอารมณ์ (Sentiment Score) ให้กับข้อความ ซึ่งค่าจะอยู่ระหว่าง –1 (เชิงลบมาก) ถึง +1 (เชิงบวกมาก)

ประโยค:

“The movie was fantastic and inspiring.” (ภาพยนตร์เรื่องนี้ยอดเยี่ยมและสร้างแรงบันดาลใจ)

  • ค่าคะแนนอารมณ์ (Sentiment Value): +0.85 (เชิงบวกอย่างมาก)

ประโยค:

“The service was terrible and disappointing.” (การบริการแย่มากและน่าผิดหวัง)

  • ค่าคะแนนอารมณ์ (Sentiment Value): –0.80 (เชิงลบอย่างมาก)

ประโยค:

“The food was okay, nothing special.” (อาหารก็พอใช้ได้ ไม่ได้พิเศษอะไร)

  • ค่าคะแนนอารมณ์ (Sentiment Value): 0.05 (เป็นกลาง / เชิงบวกเล็กน้อย)

การวิเคราะห์อารมณ์แบบมาตรฐาน (Standard Sentiment Analysis: SSA)

งานหลัก (Task): จำแนกข้อความออกเป็น 3 ประเภทหลัก ได้แก่ เชิงบวก (Positive), เชิงลบ (Negative), หรือ เป็นกลาง (Neutral)

ตัวอย่าง (Example)

  • ข้อความ: “The food was delicious.”เชิงบวก (Positive)
  • ข้อความ: “The service was slow.”เชิงลบ (Negative)

2. การวิเคราะห์อารมณ์เชิงละเอียด (Fine-grained Sentiment Analysis – SSA Upgrade)

งานหลัก (Task): แยกระดับอารมณ์ (Sentiment Polarity) ออกเป็นหลายระดับ เพื่อให้เข้าใจความเข้มของอารมณ์ได้ชัดเจนยิ่งขึ้น

  • เชิงบวกมาก (Very Positive): 😍 / 🤩 / 🥳 / ⭐⭐⭐⭐⭐
  • เชิงบวก (Positive): 🙂 / 😊 / ⭐⭐⭐⭐
  • เป็นกลาง (Neutral): 😐 / 😶 / ⭐⭐⭐
  • เชิงลบ (Negative): 🙁 / 😟 / ⭐⭐
  • เชิงลบมาก (Very Negative): 😡 / 😠 / 😭 / ⭐

ประโยค (Sentence)

  • ข้อความ: “The movie was absolutely amazing!”เชิงบวกมาก (Very Positive)
  • ข้อความ: “The product is okay.”เป็นกลาง (Neutral)
  • ข้อความ: “This was the worst experience ever!”เชิงลบมาก (Very Negative)

3. การตรวจจับอารมณ์ (Emotion Detection)

งานหลัก (Task): ใช้เทคนิค NLP ร่วมกับแบบจำลองทางจิตวิทยา เพื่อจำแนกอารมณ์ของข้อความอย่างเฉพาะเจาะจง

  • ความสุข (Happiness)
  • ความโกรธ (Anger)
  • ความเศร้า (Sadness)
  • ความกลัว (Fear)
  • ความประหลาดใจ (Surprise)
  • ความรังเกียจ (Disgust)
  • อื่น ๆ (etc.)
  1. I’m so excited for my new job!Joy/Excitement 😀🤩

  2. I’m scared about the results.Fear 😨

  3. This food tastes terrible.Disgust 🤢

  4. Wow, I didn’t expect that surprise party!Surprise 😲

4. การวิเคราะห์อารมณ์ตามแง่มุม (Aspect-Based Sentiment Analysis: ABSA)

การวิเคราะห์แบบนี้จะมองหา แง่มุมหรือคุณลักษณะเฉพาะของสินค้า/บริการ เพื่อระบุว่าอารมณ์ในข้อความนั้นเกี่ยวข้องกับส่วนใดของสินค้า

งานหลัก (Task): ระบุส่วนของสินค้า/บริการที่อารมณ์ถูกกล่าวถึง

ตัวอย่างการวิเคราะห์อารมณ์ตามแง่มุม (Aspect Sentiments):

  • กล้อง (Camera)เชิงบวก (Positive)
  • แบตเตอรี่ (Battery)เชิงลบ (Negative)
  • ราคา (Price)เป็นกลาง (Neutral)

สรุป (Summary)

  • SSA → จำแนกเป็น เชิงบวก / เชิงลบ / เป็นกลาง
  • Fine-grained → เพิ่มระดับความเข้มของอารมณ์ (เชิงบวกมาก → เชิงลบมาก)
  • Emotion Detection → ระบุอารมณ์เฉพาะ (เช่น ความสุข ความโกรธ ความกลัว ฯลฯ)
  • ABSA → เชื่อมโยงอารมณ์กับคุณลักษณะเฉพาะของสินค้า/บริการ

Interactive Sentiment Analysis (Demo)

Example

  • I absolutely love this product—super easy to use! 🙂

  • The app is good, but the battery life is not great.

  • This update is incredibly fast and really impressive.

  • It’s not bad, just a bit slow sometimes.

  • The UX is terrible… I’m so disappointed. 👎

  • ใช้งานง่ายมาก ชอบฟีเจอร์ใหม่ที่สุด!

  • ไม่ดีเท่าไหร่ แถมค้างบ่อยๆ จนหงุดหงิด 😡

  • บริการโอเคนะ แต่ไม่ได้เร็วมาก

  • ราคาแพงไปนิด แต่คุณภาพก็ดีมากจริงๆ

  • Nothing special—works as expected.

Workflow of Sentiment Analysis

ขั้นตอนการเตรียมข้อความ (Preprocessing Steps): การทำความสะอาด การทำให้เป็นมาตรฐาน และการจัดโครงสร้าง

  1. Tokenization

    • การแบ่งประโยคออกเป็นหน่วยย่อย (tokens) เช่น คำหรือวลี
    • ตัวอย่าง: “The movie was great” → [“The”, “movie”, “was”, “great”]
  2. Lowercasing / Normalization

    • การแปลงข้อความทั้งหมดให้เป็นตัวพิมพ์เล็ก เพื่อลดความซ้ำซ้อน
    • ตัวอย่าง: Great และ great จะถือว่าเป็นคำเดียวกัน
  3. Stop-word Removal

    • การลบคำที่พบได้บ่อยแต่ไม่มีความหมายสำคัญ
    • ตัวอย่าง: “the”, “is”, “and”, “of
  1. Stemming

    • การตัดคำให้เหลือรูปคำราก โดยการตัดส่วนต่อท้ายออก
    • ตัวอย่าง: running”, “runsrun
  2. Lemmatization

    • การแปลงคำให้เป็นรูปพื้นฐานโดยอิงตามไวยากรณ์และพจนานุกรม
    • ตัวอย่าง: bettergood, am/are/isbe
  3. Punctuation & Special Character Removal

    • การลบสัญลักษณ์ ตัวเลข หรือเครื่องหมายวรรคตอนที่ไม่จำเป็น
    • ตัวอย่าง: “!!!” → “”
  4. Handling Negations

    • การรักษาความหมายของคำปฏิเสธ เช่น not good เพื่อไม่ให้ความหมายเปลี่ยนไป

🔎 การสกัดคุณลักษณะ (Feature Extraction)

Feature Extraction คือกระบวนการแปลงข้อความที่ผ่านการเตรียมแล้วให้เป็น เวกเตอร์ตัวเลข (Numerical Vectors) เพื่อให้โมเดล Machine Learning หรือ Deep Learning สามารถเข้าใจและนำไปวิเคราะห์ได้

เทคนิคหลัก (Main Techniques)

1. Bag of Words (BoW)

  • แนวคิด (Concept): แทนข้อความด้วยการนับจำนวนครั้งที่คำแต่ละคำปรากฏ โดยไม่สนใจลำดับหรือไวยากรณ์
  • ข้อดี (Pros): เข้าใจง่ายและใช้งานง่าย
  • ข้อเสีย (Cons): สูญเสียบริบทของคำ และทำให้ได้ข้อมูลที่กระจัดกระจาย (Sparse Data)

ตัวอย่าง (Example):

  • ข้อความ: The movie was great, great acting
  • คุณลักษณะ: {the:1, movie:1, was:1, great:2, acting:1}

2. TF–IDF

Term Frequency – Inverse Document Frequency

  • แนวคิด (Concept): กำหนดค่าน้ำหนักให้คำตามความถี่ที่ปรากฏในเอกสารหนึ่ง เทียบกับความถี่ของคำนั้นในเอกสารทั้งหมด
  • ข้อดี (Pros): ลดความสำคัญของคำที่พบบ่อย เช่น the, is
  • ข้อเสีย (Cons): ยังไม่สามารถจับความหมายในเชิงบริบทของคำได้

ตัวอย่าง (Example): คำว่า quality ในรีวิวสินค้าจะมีค่าน้ำหนักสูงกว่าคำว่า the

3. Word Embeddings

  • แนวคิด (Concept): แปลงคำให้เป็นเวกเตอร์แบบหนาแน่น (Dense Vectors) โดยคำที่มีความหมายใกล้เคียงกันจะอยู่ใกล้กันในพื้นที่เวกเตอร์
  • โมเดลยอดนิยม (Models): Word2Vec, GloVe, fastText
  • ข้อดี (Pros): จับความสัมพันธ์เชิงความหมายของคำได้ดี
  • ข้อเสีย (Cons): เวกเตอร์ที่ผ่านการฝึก (Pre-trained) อาจไม่ครอบคลุมคำเฉพาะทางในบางสาขา

ตัวอย่าง (Example):

  • king – man + woman ≈ queen

4. Contextual Embeddings

  • แนวคิด (Concept): ใช้โมเดลภาษาขั้นสูง (เช่น BERT, RoBERTa, GPT embeddings) เพื่อจับความหมายของคำตามบริบทในประโยค
  • ข้อดี (Pros): เข้าใจบริบท (Context-aware) และให้ประสิทธิภาพสูงสุดในงาน NLP ปัจจุบัน
  • ข้อเสีย (Cons): ต้องใช้พลังการประมวลผลสูง (Computationally expensive)

ตัวอย่าง (Example): คำว่า bank ใน river bankbank ใน financial bank

Model

การจำแนกประเภท (Classification)

  • ข้อมูลนำเข้า (Input): ข้อความดิบ เช่น รีวิว ทวีต ข่าว
  • กระบวนการ (Process): โมเดลการจำแนกประเภท เช่น Naive Bayes, Logistic Regression, SVM, Neural Network
  • ผลลัพธ์ (Output): ป้ายกำกับแบบไม่ต่อเนื่อง เช่น Positive / Negative / Neutral, Spam / Not Spam

การถดถอย (Regression)

  • ข้อมูลนำเข้า (Input): ข้อความดิบ เช่น รีวิว ข่าวการเงิน หรือโพสต์บนโซเชียลมีเดีย
  • กระบวนการ (Process): โมเดลการถดถอย เช่น Linear Regression, Ridge/Lasso, SVR, Neural Networks
  • ผลลัพธ์ (Output): ค่าตัวเลขต่อเนื่อง เช่น Predicted Rating = 4.2, Stock Change = –1.5%, Engagement Score = 2000 likes

การจัดกลุ่ม (Clustering)

  • ข้อมูลนำเข้า (Input): ข้อความดิบ เช่น รีวิวลูกค้า บทความวิจัย หรือผลการสำรวจ
  • กระบวนการ (Process): โมเดลการจัดกลุ่ม เช่น k-Means, Hierarchical Clustering, DBSCAN, หรือการจำแนกหัวข้อ (Topic Modeling) เช่น LDA
  • ผลลัพธ์ (Output): กลุ่มของข้อความที่มีความคล้ายคลึงกัน เช่น Delivery Issues, Price Concerns, Product Quality

ผลลัพธ์และการแสดงภาพข้อมูล

หลังจากผ่านขั้นตอน การเตรียมข้อมูล (Preprocessing), การสกัดคุณลักษณะ (Feature Extraction), และ การจำแนกประเภท (Classification) ระบบจะสร้างผลลัพธ์ที่สามารถ ตีความและแสดงผลในรูปแบบภาพ (Interpreted and Visualized) ได้

🔹 ผลลัพธ์หลัก (Key Outputs)

  1. ป้ายกำกับอารมณ์ (Sentiment Label)

    • เป็นผลลัพธ์หลักจากการจำแนกประเภท
    • หมวดหมู่: เชิงบวก (Positive), เชิงลบ (Negative), เป็นกลาง (Neutral) หรือในแบบละเอียดอาจมีตั้งแต่ “เชิงบวกมาก → เชิงลบมาก”
    • ตัวอย่าง: “The product is excellent”Positive
  1. คะแนนอารมณ์ / ความน่าจะเป็น (Sentiment Score / Probability)

    • ค่าตัวเลขแทนอารมณ์โดยมีระดับความเข้มของอารมณ์

    • ช่วงค่า: –1.0 (เชิงลบมาก) ถึง +1.0 (เชิงบวกมาก)

    • ตัวอย่าง:

      • “I love this phone” → +0.85
      • “The service is awful” → –0.90
  1. การวิเคราะห์อารมณ์ตามแง่มุม (Aspect-Based Sentiment)

    • แสดงอารมณ์ที่สัมพันธ์กับคุณลักษณะเฉพาะของสินค้า

    • ตัวอย่าง: “The phone’s camera is great but the battery is bad”

      • Camera → Positive (+0.8)
      • Battery → Negative (–0.7)

📊 เทคนิคการแสดงผล (Visualization Techniques)

  1. แผนภูมิวงกลม (Pie Charts)

    • แสดงสัดส่วนของรีวิวที่เป็นเชิงบวก เชิงลบ และเป็นกลาง
  2. แผนภูมิแท่ง (Bar Charts)

    • เปรียบเทียบอารมณ์ระหว่างสินค้า แบรนด์ หรือช่วงเวลา
  3. กราฟอนุกรมเวลา (Time-Series Plots)

    • แสดงแนวโน้มของอารมณ์ตามช่วงเวลา เช่น ทวีตระหว่างเหตุการณ์สำคัญ
  4. Word Clouds

    • เน้นคำเชิงบวก/เชิงลบที่พบบ่อยในข้อความ
  5. แดชบอร์ด (Dashboards)

    • รวมกราฟและตัวชี้วัดสำคัญ (KPIs) เพื่อช่วยผู้บริหารตัดสินใจได้อย่างรวดเร็ว

Interactive Bag of Words

Interactive Word Cloud (demo)