กูเกิล เตรียมสร้างชุดข้อมูลภาษา 10 ชาติอาเซียนรวมไทย ใช้พัฒนา LLM

กูเกิล เตรียมสร้างชุดข้อมูลภาษา 10 ชาติอาเซียนรวมไทย ใช้พัฒนา LLM

กูเกิล ร่วมมือ AI Singapore เปิดตัวโครงการ SEALD สร้างชุดข้อมูลภาษาในอาเซียน เพื่อพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) โดยภาษาชุดแรกคือ อินโดนีเซีย ไทย ทมิฬ ฟิลิปปินส์ และพม่า

AI Singapore (AISG) และ ทีมวิจัยของกูเกิลได้ริเริ่ม Project SEALD (Southeast Asian Languages in One Network Data) ซึ่งเป็นความร่วมมือด้านการวิจัยเพื่อยกระดับชุดข้อมูลที่สามารถใช้ในการฝึก พัฒนา และประเมินโมเดลภาษาขนาดใหญ่ (Large Language Model - LLM) ในภาษาต่างๆ ที่ใช้พูดในเอเชียตะวันออกเฉียงใต้

ความร่วมมือนี้มุ่งที่จะปรับปรุงการรับรู้บริบททางวัฒนธรรม และความสามารถของโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ และการนำไปต่อยอดสร้างประโยชน์ให้กับสังคมทั่วทั้งภูมิภาค

พัฒนาให้มีความครอบคลุม

Project SEALD ครอบคลุมภาษาไทย อินโดนีเซีย ทมิฬ ฟิลิปปินส์ และพม่า โครงการจะช่วยสร้างคลังข้อมูลที่หลากหลาย ภาษาที่ใช้จะมีคุณภาพสูงเพื่อสนับสนุนการฝึกโมเดลต่างๆ ที่อยู่ภายใต้ SEA-LION (Southeast Asian Languages in One Network) ซึ่งเป็นโครงการริเริ่มของ AISG ในการพัฒนากลุ่มโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกล่วงหน้า และปรับแต่งคำสั่งมาโดยเฉพาะ เพื่อให้สามารถนำเสนอบริบททางวัฒนธรรม และความแตกต่างทางภาษาได้ดียิ่งขึ้น โดยความร่วมมือครอบคลุม ดังนี้ 

  1. การพัฒนาโมเดลสำหรับการแปลทั่วไป และการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่
  2.  การสร้างแนวทางปฏิบัติแนะนำสำหรับชุดข้อมูลการปรับแต่งคำสั่ง
  3. การสร้างเครื่องมือสำหรับการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่ในวงกว้าง
  4. การเผยแพร่สูตรสำหรับการฝึกล่วงหน้าสำหรับภาษาต่างๆ ในเอเชียตะวันออกเฉียงใต้

AISG และกูเกิลจะเผยแพร่ชุดข้อมูล และเอาต์พุตจาก Project SEALD ในรูปแบบโอเพนซอร์ส เพื่อพัฒนาความก้าวหน้าของระบบนิเวศโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ และได้ร่วมมือกับพาร์ตเนอร์ทั้งจากภาควิชาการ ภาคอุตสาหกรรม ภาครัฐ ตลอดจนสถาบันการศึกษาในประเทศต่างๆ นำเทคนิคที่ล้ำสมัยมาประเมิน และการเปรียบเทียบ ส่งเสริมการพัฒนาต่อยอดเพื่อสาธารณประโยชน์

 

นอกจากนี้ AISG ยังร่วมมือกับ Google Cloud เพื่อการใช้งานบน Model Garden บน Vertex AI ของ Google Cloud ซึ่งช่วยให้องค์กรต่างๆ สามารถเข้าถึงโมเดลของบุคคลที่หนึ่ง และบุคคลที่สาม รวมถึงโมเดลแบบเปิด ที่มีคุณลักษณะตรงตามมาตรฐานด้านคุณภาพ และความปลอดภัยขององค์กรที่เข้มงวดของ Google Cloud 

องค์กรสามารถใช้เครื่องมือที่ออกแบบมาเพื่อองค์กรผ่านทาง Vertex AI เพื่อปรับแต่งโมเดลสามารถนำไปใช้งานตามที่ต้องการ และ AISG ก็ยังคงเปิดให้ใช้งานโมเดลภาษาขนาดใหญ่ที่อยู่ภายใต้โครงการ SEA-LION บน Hugging Face ซึ่งได้ร่วมมือกับ Google Cloud ช่วยให้นักพัฒนาซอฟต์แวร์ฝึก ปรับแต่ง และให้บริการโมเดลแบบเปิดได้อย่างรวดเร็วและคุ้มค่า 

AISG นำร่องความร่วมมือกับประเทศอื่นๆ ในเอเชียตะวันออกเฉียงใต้ ตัวอย่างเช่น AISG ได้ร่วมมือกับพาร์ตเนอร์ในประเทศไทย ฟิลิปปินส์ และอินโดนีเซีย เพื่อสร้างทรัพยากรด้านไวยากรณ์ และอรรถศาสตร์ของภาษาในระดับภูมิภาค

มีการลงนามบันทึกข้อตกลงความร่วมมือ (MOU) หรือหนังสือแสดงเจตจำนงกับหน่วยงานต่างๆ ในอินโดนีเซีย มาเลเซีย และเวียดนาม เพื่อพัฒนาชุดข้อมูล และแอปพลิเคชันสำหรับโมเดลภาษาขนาดใหญ่ในระดับภูมิภาค 

ทีมวิจัยของกูเกิลในเอเชียแปซิฟิกมีโครงการส่งเสริมความครอบคลุมของโมเดลภาษาขนาดใหญ่ที่คล้ายคลึงกัน ซึ่งกำลังดำเนินการอยู่ในประเทศอินเดีย ภายใต้ความร่วมมือกับสถาบันวิทยาศาสตร์แห่งอินเดีย (Indian Institute of Science) ผ่านทาง Project Vaani ซึ่งเป็นโครงการริเริ่มที่รวบรวม ถอดเสียง และจัดหาข้อมูลเสียงแบบโอเพนซอร์สจากทั่วทั้ง 773 อำเภอของอินเดีย

Yolyn Ang รองประธานฝ่ายพันธมิตรด้านความรู้และข้อมูลของ Google ประจำภูมิภาคเอเชียแปซิฟิก กล่าวว่า กูเกิลภูมิใจที่ได้ร่วมมือกับ AISG เพื่อส่งเสริม และผลักดันการพัฒนาโมเดลเอไอในสิงคโปร์ และประเทศอื่นๆ ในเอเชียตะวันออกเฉียงใต้ ด้วยการมุ่งเน้นไปที่ภาษาที่พูด และใช้ในภูมิภาค

ความเข้าใจทางวัฒนธรรม Project SEALD จะช่วยพัฒนาคลังข้อมูลที่มีอยู่ และเกณฑ์มาตรฐานการประเมินผลสำหรับภาษาเหล่านี้อย่างมีนัยสำคัญ ซึ่งจะช่วยเปิดโอกาสใหม่ๆ และทำให้เอไอครอบคลุม เข้าถึงได้ และมีประโยชน์มากขึ้นสำหรับทุกคน และธุรกิจต่างๆ 

ด้าน รศ.ดร.สรณะ นุชอนงค์ คณบดีสำนักวิชาวิทยาศาสตร์และเทคโนโลยีสารสนเทศ สถาบันวิทยสิริเมธี (VISTEC) ประเทศไทย กล่าวว่า VISTEC รู้สึกยินดีเป็นอย่างยิ่งที่ได้เป็นส่วนหนึ่งของการพัฒนาการประมวลผลภาษาธรรมชาติในอาเซียนภายใต้ Project SEALD ซึ่งเป็นกลไกสำคัญในการทำงานร่วมกันเพื่อกำหนดทิศทางเชิงกลยุทธ์สำหรับชุมชน NLP ที่หลากหลายให้เป็นหนึ่งเดียว

Project SEALD จะช่วยลดข้อจำกัดด้านทรัพยากรสำหรับการผนวกรวมภาษาที่ใช้ในเอเชียตะวันออกเฉียงใต้เข้ากับนวัตกรรมเอไอ ด้วยการนำเสนอโมเดลภาษาที่ได้รับการฝึกล่วงหน้า ชุดข้อมูล และเกณฑ์มาตรฐานใหม่ๆ 

ทั้งนี้ หากท่านสนใจเข้าร่วม Project SEALD สามารถติดต่อได้ที่ [email protected] 

 

 

 

พิสูจน์อักษร....สุรีย์  ศิลาวงษ์