ปัญญาประดิษฐ์กับการตรวจสอบข่าวปลอม กรณีศึกษา “เช็กให้รู้” ระบบอัจฉริยะต้นแบบช่วยการตัดสินใจข้อมูลข่าวปลอมด้านสุขภาพ (Fact Checking Intelligent Platform)

ปัญญาประดิษฐ์กับการตรวจสอบข่าวปลอม กรณีศึกษา “เช็กให้รู้” ระบบอัจฉริยะต้นแบบช่วยการตัดสินใจข้อมูลข่าวปลอมด้านสุขภาพ (Fact Checking Intelligent Platform)

 

เขียนโดย
บุหงา ชัยสุวรรณ
คณะนิเทศศาสตร์และนวัตกรรมการจัดการ สถาบันบัณฑิตพัฒนบริหารศาสตร์

 

ปัญญาประดิษฐ์มีกับการสร้างข่าวปลอม

ปัญญาประดิษฐ์เป็นสิ่งที่มีประโยชน์อย่างยิ่งต่อการพัฒนาสังคม ในขณะเดียวกันก็อาจนำให้เกิดปัญหาได้  โดยเฉพาะเทคโนโลยี  Deepfake AI  ซึ่งเป็นที่จับตาดูในการสร้างการสร้างข่าวปลอมในพื้นที่สื่อสังคมออนไลน์

 

Deepfake AI  คือ การนำปัญญาประดิษฐ์มาผ่านกิจกรรม Deep Learning เพื่อทำให้ระบบปัญญาประดิษฐ์เกิดการเรียนรู้ ลักษณะเด่น หรือ อัตลักษณ์ของบุคคลแต่ละคนอย่างลึกซึ้ง เช่น รูปหน้า ใบหน้า สีผิว รูปร่าง และท่าทางการเคลื่อนไหว แล้วจึงให้โปรแกรมแสดงผลออกมาตามคำสั่งท่าทางที่เหมือนคนๆนั้น ทั้งๆที่คนๆนั้นไม่ได้ทำเช่นนั้นด้วยตนเอง

 

ตัวอย่าง Deepfake AI

1. ในต้นปี 2021 ศิลปิน Visual effect สร้างคลิปเลียนแบบ Tom Cruise  ด้วยการช่วยเหลือของเทคโนโลยี machine  learning ที่เรียกว่า Deepfake  ทำให้มี Tom Cruise  ตัวปลอมใน TikTok และมีผู้ติดตามมากมาย

2. ช่วงปลายปี 2020  สถานีโทรทัศน์ Channel 4 ทำคลิป ด้วย Deepfakes สร้างสมเด็จพระราชินีนาถเอลิซาเบ็ธที่ 2 แห่งสหราชอาณาจักรทรงมีพระราชกระแสถึงเหตุการณ์ที่ผ่านมาในปี 2563 รวมถึงเรื่องอื้อฉาวในราชวงศ์ ซึ่งปกติแล้วสมเด็จพระราชินีนาถฯ จะไม่ทรงแสดงความเห็นในลักษณะนี้  โดยใช้การอัดเสียงโดยบุคคลอื่นและตัดต่อให้พระองค์เต้นตามแอพ TikTok  ทั้งนี้ Channel 4 กล่าวว่าการออกอากาศคลิปข่าวเทียมนี้ มุ่งสร้างการตระหนักถึงภัยคุกคามของข่าวปลอมในยุคดิจิทัล  แต่ก็มีผู้แย้งว่า คลิปนี้เห็นได้ชัดเจนว่าเป็นสมเด็จพระราชินีนาถฯ  ตัวปลอม เนื่องจากไม่มีทางที่พระองค์จะทำเช่นนั้น

แต่ทั้งสองกรณีก็แสดงให้เห็นว่า เทคโนโลยีดังกล่าวสามารถทำให้เกิดความเข้าใจผิดได้ ซึ่งเป็นการสร้างข่าวปลอมด้วยภาพและเสียงเคลื่อนไหว ที่ยากที่จะตรวจสอบได้ ยากกว่าการตรวจสอบข่าวปลอมจากข้อความที่เขียนขึ้น

 

 

ปัญญาประดิษฐ์กับการตรวจสอบข่าวปลอม

 

แม้ปัญญาประดิษฐ์จะทำให้เกิดข่าวปลอมได้ง่ายขึ้น เราก็สามารถพัฒนาประดิษฐ์ให้เรียนรู้สมองของเรา และช่วยเราแยกแยะข่าวปลอมได้เช่นกัน

 

ระบบเช็กให้รู้นี้ เป็นการทำงานระยะแรกของการพัฒนาต้นแบบระบบตรวจสอบข่าวปลอมเพื่อช่วยในการพิจารณารู้เท่าทันสื่อของงคนไทย ของประชาชน เป็นการประสานระหว่างองค์ความรู้ทางด้านนิเทศศาสตร์ ในการพัฒนาเกณฑ์ในการตรวจสอบข่าวปลอม และด้านเทคโนโลยีปัญญาประดิษฐ์ ระบบ Natural Language Processing (NLP) หรือ การประมวลผลภาษาธรรมชาติหรือภาษามนุษย์ ทำให้คอมพิวเตอร์เข้าใจภาษาไทยได้ พัฒนาโดย คณะนิเทศศาสตร์และนวัตกรรมการจัดการ สถาบันบัณฑิตพัฒนบริหารศาสตร์ ร่วมกับ บริษัท แบ็คยาร์ด จำกัด ร่วมกับ สำนักงานคณะกรรมการอาหารและยา (อย.)  รายการชัวร์ก่อนแชร์ บริษัท อสมท จำกัด (มหาชน)  ภายใต้การสนับสนุนเงินทุนวิจัยจากกองทุนพัฒนาสื่อปลอดภัยและสร้างสรรค์ตามยุทธศาสตร์การรับมือกับปัญหาข่าวปลอม และการตรวจสอบข่าวปลอม

 

กระบวนการพัฒนาต้นแบบระบบตรวจสอบข่าวปลอมด้วยปัญญาประดิษฐ์  เช็กให้รู้ มี ดังต่อไปนี้

 

1. การเก็บข้อมูล (Data) และแหล่งข้อมูล

          การจัดทำฐานข้อมูลสำหรับการพัฒนาต้นแบบระบบตรวจสอบข่าวปลอมปัญญาประดิษฐ์ ได้รวบรวมข้อมูลข่าวมาจากแหล่งข้อมูลที่หลากหลาย โดยสามารถแบ่งออกเป็น 2 ส่วน คือ จากแหล่งข้อมูลที่น่าเชื่อถือ จำนวน 233,953 เอกสาร และจากแหล่งข้อมูลที่ไม่น่าเชื่อถือ จำนวน 6,761 เอกสาร

          โดยมีวิธีการเก็บข้อมูลจากแหล่งต่าง ๆ 3 รูปแบบ อันได้แก่

          1. วิธีการเก็บข้อมูลจาก Social Analytic Platform ซึ่งเป็นระบบที่สามารถเก็บข้อมูลจากสื่อออนไลน์

          2. วิธีการเก็บข้อมูลด้วย Crawler คือ การเขียนโปรแกรมเพื่อดึงข้อมูลข่าวจากเว็บไซต์ที่กำหนดโดยตรง

          3. วิธีการเก็บข้อมูลแบบ Manual เป็นการค้นหาข่าวโดยใช้คนทำแบบ Manual ด้วยการค้นหาข่าวผ่าน Search Engine

 

2. การวิเคราะห์ข้อมูล

2.1 มิติและเทคโนโลยีในการวิเคราะห์ข้อมูล

ในการวิเคราะห์ข้อมูลนั้นได้นำผลที่ได้จากการสนทนากลุ่มในขั้นตอนที่ 1 มาใช้ในการพัฒนามิติในการวิเคราะห์ข้อมูลที่มีส่วนช่วยในการตัดสินใจว่าข่าวหรือบทความว่าเป็นบทความที่มีโอกาสเป็นข่าวปลอมหรือไม่ ดังนี้ โดยมี 6 มิติดังต่อไปนี้

1. มิติโครงสร้างข่าว ซึ่งประกอบด้วย วันเดือนปี ที่ระบุในข่าว ประเภท แพลตฟอร์ม รูปแบบของข้อความ พาดหัว URL ของตัวข่าว ผู้เผยแพร่ระบุด้วยชื่อ และรายการอ้างอิง

2. มิติบริบท ซึ่งประกอบด้วย Social Engagement เช่น จำนวนการไลค์ จำนวนการแชร์

3. มิติเนื้อหา ซึ่งประกอบด้วย

  • Clickbait – พาดหัวข่าวที่เป็นคำเชิญชวน เร้าใจ ใช้พาดหัวด้วยเครื่องหมาย และมีเนื้อหาไม่สอดคล้องกับพาดหัวข่าว
  • Blame - พาดหัวข่าวที่มีข้อความเกี่ยวกับการโทษผู้อื่น การโทษองค์กร
  • Satire – เนื้อหาที่เสียดสี ล้อเลียน
  • False Connection – เนื้อหาที่มีการโยงสองสิ่งไม่ได้เกี่ยวข้องกันเข้าด้วยกัน
  • Buying – เนื้อหาที่มีการเชิญชวนให้ซื้อสินค้า
  • Convincing – เนื้อหาที่มีเชิญชวนให้ทำตาม
  • Imposter – เนื้อหาที่มีการอ้างถึงแหล่งข้อมูลทั้งในรูปแบบบุคคล องค์กร
  • Fabricated – เนื้อหาที่มีการสร้างข้อมูลเท็จ
  • เนื้อหาที่เอาพาดหัวเก่ามาดัดแปลง
  • เนื้อหาที่มีคำฝ่าฝืนกฎหมายสำนักงานคณะกรรมการอาหารและยา (อย.)

          4. มิติด้านภาษา ซึ่งประกอบด้วย มีการสะกดผิด มีตัวอักษรไทยปนกับตัวอักษรต่างประเทศ มีการใช้ตัวเลขแทนตัวอักษรบางตัว และมีการเว้นวรรคที่ผิดปกติ

          5.  มิติด้านโฆษณาและผู้สนับสนุน ซึ่งประกอบด้วย การมีพื้นที่โฆษณามากกว่าเนื้อหาข่าว

6. มิติด้านสุขภาพ คือ ข่าวปลอมจะมีการใช้คำที่อธิบายคุณสมบัติของสินค้าหรือบริการที่ไม่ได้รับอนุญาตจากกฎหมายที่เกี่ยวข้องกับผลิตภัณฑ์ด้านสุขภาพ เช่น พรบ.อาหารและยา เป็นต้น

          ทั้งนี้มิติเนื้อหาผู้พัฒนาได้มีการวิเคราะห์ข้อมูลโดยการใช้การจำแนกแบบการเรียนรู้เชิงลึก (Deep Learning) ในขณะที่มิติอื่น ๆ ใช้การเรียนรู้วิธีฐานกฎ (Rule-based)  

          โดยเทคโนโลยีทั้งหมดที่ทางทีมผู้พัฒนาใช้ในการพัฒนาโมเดลในการคัดแยกตรวจสอบข่าวปลอม ประกอบด้วย 6 เทคโนโลยี ดังนี้

          1. Python เป็นภาษาที่ใช้ในการเขียนโปรแกรมภาษาหนึ่ง ที่ถูกออกแบบมาให้สามารถเข้าใจได้ง่าย และถูกพัฒนาขึ้นมาโดยไม่ยืดติดกับแพลตฟอร์ม กล่าวคือสามารถรันภาษา Python ได้ทั้งบนระบบ Unix, Linux, Windows NT, Windows 2000, Windows XP หรือแม้แต่ระบบ FreeBSD เป็นที่นิยมสำหรับการพัฒนาโมเดลทางด้าน Machine learning และ Deep learning ในปัจจุบัน

          2. Jupyter Notebook เป็น Web Application ที่ทำให้เราสามารถใช้เขียนภาษา Python ได้ง่ายขึ้น

          3. Pytorch เป็น Framework สำหรับการพัฒนาโมเดลทางด้าน Machine learning และ Deep learning

          4. Scikitlearn เป็น Framework สำหรับการพัฒนาโมเดลทางด้าน Machine learning

          5. Pandas คือ Library หนึ่งของ Python ที่มีความสามารถในการจัดเตรียม ทำความสะอาดข้อมูลไว้สำหรับการทำ Data Visualization และสำหรับการพัฒนา Model ต่อไป

          6. Plotly เป็น Library ของ Python ที่ใช้ในการนำข้อมูลมาแสดงผลออกมาเป็นกราฟ หรือภาพในรูปแบบต่าง ๆ

2.2 การพัฒนาระบบการจำแนกข้อมูลด้วยผู้เชี่ยวชาญ (Annotation Tool)

ระบบการจำแนกข้อมูลด้วยผู้เชี่ยวชาญ (Annotation Tool) เป็นระบบที่ผู้ใช้งานทำการป้ายระบุ (Tagging)  คำ ประโยค หรือเอกสารว่าเป็นแถบป้ายระบุข้อมูล (Tag) ใดในเอกสาร (Document) เพื่อนำผลลัพธ์ไปใช้ในการวิเคราะห์ต่างๆ เช่น การนำไปใช้ฝึกสอน Clickbait Model เพื่อหาเอกสารที่เป็น Clickbait ซึ่งเป็นส่วนหนึ่งในการหาความน่าจะเป็น (Probability) ของข่าวว่าเป็นข่าวจริง หรือข่าวปลอม

เทคโนโลยีที่ใช้พัฒนาระบบ Annotation Tool ประกอบด้วย 4 เทคโนโลยี ประกอบไปด้วย

1. Flask คือ Micro Web Framework ที่เขียนด้วย Python เป็น Framework ที่ออกแบบให้มีขนาดเล็กไม่ซับซ้อนมีฟังก์ชั่นเท่าที่จำเป็น จึงทำให้ง่ายและไวต่อการพัฒนาโปรแกรม นอกจากนั้น Flask ยังรองรับ Extensions ที่ช่วยเพิ่มความสามารถอื่น ๆ ได้อีกมากมาย

2. SQLAlchemy คือ Library ของ Python ที่ใช้สำหรับเชื่อมต่อกับระบบจัดการฐานข้อมูล SQL โดยควบคุมฐานข้อมูลในรูปแบบที่สั่งข้อมูลเหมือนเป็นออบเจ็กต์ตามแนวคิดเชิงวัตถุ ซึ่งในระบบนี้เราจะใช้ร่วมกับ PostgreSQL

3. Pandas คือ Library หนึ่งของ Python ที่มีความสามารถในการจัดเตรียม ทำความสะอาดข้อมูลไว้สำหรับการทำ Data Visualization และสำหรับการพัฒนา Model ต่อไป

4. Vue คือ Javascript Framework เน้นเรื่องการทำ User Interface และเหมาะกับการทำ Single-Page Application (SPA) จุดเด่นของ Vue คือจะโฟกัสที่ View Layer เท่านั้น และยังง่ายต่อใช้ง่ายร่วมกับ Javascript Library อื่น ๆ

การนำระบบ Annotation Tool มาช่วยในการจำแนกคุณลักษณะของข้อมูล เป็นการใช้ผู้เชี่ยวชาญในการทำการป้ายระบุ ในการกำหนดคุณลักษณะของข้อมูลที่อาจทำให้เกิดเป็นข่าวปลอมที่จะนำไปใช้ในการทำการป้ายระบุข้อมูลในระบบ Annotation Tool เพื่อนำผลลัพธ์ไปใช้ในการสอนโมเดลเพื่อหาเอกสารที่เป็นคุณลักษณะของข้อมูลนั้น ๆ

2.3 วิธีการจำแนกและวิเคราะห์ข้อมูลตรวจสอบข่าวปลอม

การวิเคราะห์จำแนกตรวจสอบข่าวปลอมจะใช้รูปแบบต่าง ๆ ที่ค้นหามาได้ในโมเดล Rule-based และโมเดล Deep learning มาเป็นข้อมูลตั้งต้นสำหรับการฝึกฝนโมเดลใหม่ ที่ทำหน้าที่จำแนกข่าวปลอม

โมเดลในการจำแนกข่าวปลอมจะใช้ Ensemble Model ซึ่งเป็นผลก็คือการนำโมเดลหลาย ๆ ตัวมาคิดคะแนนการทำนายผลร่วมกัน โดยทางผู้พัฒนาจะใช้โมเดล 3 ตัวคือ Random Forest, AdaBoost และ Gradient Boosting ในการทำนายผลและใช้วิธีการคิดคะแนนการทำนายผลร่วมกันแบบอ่อน (Soft Voting) โดยจะแบ่งข้อมูลออกเป็น 2 ส่วนคือ ส่วนที่ใช้สำหรับการฝึกฝน (Train Set) เป็นจำนวน 80% ของข้อมูลที่มีทั้งหมด และส่วนที่ใช้สำหรับการทดสอบ (Test Set) เป็นจำนวน 20% ของข้อมูลที่มีทั้งหมด

2.4 การทดสอบความถูกต้องแม่นยำของการวิเคราะห์ข้อมูลตรวจสอบข่าวปลอม

การทดสอบโมเดลเพื่อทำนายความน่าเชื่อถือของข่าว ผลการทดสอบสามารถทำนายได้ถูกต้องอย่างน้อยร้อยละ 80

 

3. การพัฒนาเว็บไซต์ศูนย์ตรวจสอบข้อมูลข่าวปลอม

ผู้ที่ต้องการใช้ระบบสามารถ วางลิงค์ข่าว หรือเนื้อหาข่าวที่ต้องการตรวจสอบว่าเป็นข่าวปลอมหรือไม่ได้ที่หน้าแรกของเว็บไซด์

จะเกิดหน้าจอแสดงผลลัพธ์ของการวิเคราะห์ในลักษณะของกราฟวงกลมที่ระบุความน่าจะเป็นที่จะเป็นข่าวปลอม โดยขึ้นตัวเลขเปอร์เซ็นต์ระดับที่ต้องระมัดระวัง อีกทั้ง ผลลัพธ์ยังแสดงให้เห็นหลักเกณฑ์การตรวจสอบข่าวปลอมที่ระบบตรวจสอบได้เพื่อให้ผู้ใช้งานสามารถทราบได้ว่าบทความหรือเนื้อหาข่าวมีแนวโน้มที่จะเป็นข่าวปลอมจากหลักเกณฑ์ใดบ้าง ซึ่งจะช่วยให้ผู้ตรวจสอบสามารถฝึกฝนการวิเคราะห์ ทักษะต่างๆ ของตนเองได้  เป็นการพัฒนาทักษะในการรู้เท่าทันสื่อของประชาชนอีกทางหนึ่ง

 

นอกเหนือจากผลลัพธ์ของการตรวจสอบข่าวว่าเป็นข่าวปลอมในระดับใดแล้ว หน้าแสดงผลลัพธ์ยังมีเนื้อหาอื่น ๆ ที่เกี่ยวข้อง ได้แก่ คำแนะนำ และการส่งเนื้อหาให้ผู้เชี่ยวชาญตรวจสอบเพิ่มเติม และบทความอื่น ๆ ที่เกี่ยวข้องเพื่อความรู้เพิ่มเติมแก่ผู้ใช้งาน

 

สามารถร่วมทดลองใช้เว็บตรวจสอบข่าวปลอม “เช็กให้รู้” ระบบอัจฉริยะต้นแบบช่วยการตัดสินใจข้อมูลข่าวปลอมด้านสุขภาพ (Fact Checking Intelligent Platform) เพื่อกระตุ้นทักษะการรู้เท่าทันสื่อข่าวปลอมด้านสุขภาพ  ได้ที่ https://checkhairoo.nida.ac.th/