Advancing LLM R&D in Southeast Asia: Bridging Innovation and Collaboration

: Advancing LLM R&D in Southeast Asia: Bridging Innovation and Collaboration

Advancing LLM R&D in Southeast Asia: Bridging Innovation and Collaboration

SCBX Unlocking AI EP 9: Advancing ThaiLLM Development and Applications

จากที่โลกนี้มีกำแพงด้านภาษาขวางกั้น การจะสื่อสารกับชาวต่างชาติต้องใช้ความรู้และสั่งสมประสบการณ์นานพอตัว แต่การมาถึงของ Generative AI และการพัฒนาอย่างก้าวกระโดดของ LLM ทำลายกำแพงทางภาษาอย่างราบคาบ

จนตอนนี้ไม่แค่ในสหรัฐอเมริกา หรือในยุโรปเท่านั้นที่กำลังพัฒนา LLM ที่ฉลาดและล้ำสมัย แต่ในเอเชีย โดยเฉพาะในภูมิภาคเอเชียตะวันออกเฉียงใต้นั้นก็กำลังพัฒนาเช่นกัน แถมหลายประเทศยังร่วมมือกันอย่างน่าจับตามองด้วย

ศ.ดร.สรณะ นุชอนงค์ Director of VISTEC-depa หนึ่งในผู้บุกเบิกด้าน LLM ในไทย มาบรรยายเรื่อง Advancing LLM R&D in Southeast Asia: Bridging Innovation and Collaboration ในงาน SCBX Unlocking AI EP 9: Advancing ThaiLLM Development and Applications เพื่ออธิบายว่าการศึกษา วิจัย และพัฒนาด้าน LLM ในแถบเอเชียตะวันออกเฉียงใต้ตอนนี้รุดหน้าไปไกลเพียงใด

หนึ่งในโครงการที่เด่นมากอยู่ที่ประเทศสิงคโปร์ ชื่อว่า SEALD (Southeast Asian Languages in One Network Data) หรือเรียกง่ายๆ ว่า AI Singapore เป็นโครงการที่เชิญชวนนักวิจัยในประเทศเพื่อนบ้านมาร่วมมือกันสร้าง LLM ที่โดดเด่นด้านภาษาท้องถิ่นของเอเชีย

เนื่องจากประเทศในแถบเอเชียตะวันออกเฉียงใต้ล้วนมีภาษาหลักของแต่ละประเทศอยู่แล้ว ไม่เพียงแค่นั้นยังมีภาษาถิ่น หรือภาษารอง อีกนับพันภาษา การที่โครงการมุ่งพัฒนา LLM ที่มีข้อมูลของภาษาต่างๆ ในภูมิภาคนี้ ถือเป็นการใช้ความหลากหลาย หรือ Diversity ให้เกิดประโยชน์นั่นเอง

ทั้งนี้ หากนักวิจัยจะทำ R&D พัฒนา LLM อย่างมีประสิทธิภาพ จะต้องมีการวัดผลที่ดีด้วย แต่ปัญหาของการพัฒนา LLM ทุกวันนี้คือยังวัดผลได้ยาก ไม่แค่เฉพาะในแถบเอเชีย แต่แม้กระทั่ง LLM ภาษาอังกฤษเองก็ยังมีปัญหานี้อยู่

โดย ศ.ดร.สรณะ แจกแจงว่ามี 4 อุปสรรคสำคัญในการวัดผลดังนี้

  1. Sparse Evaluation Data – มีเพียงไม่ถึง 10 ภาษาเท่านั้น ที่ถูกนำมาใช้พัฒนาและให้ AI เรียนรู้
  2. Resource Gap – ในจำนวน 1,308 ภาษาในแถบเอเชียตะวันออกเฉียงใต้ มี 700 ภาษาที่มีข้อมูลหรือ Datasets ที่ถูกต้องสำหรับใช้วัดผลน้อย แค่ 1-2 Datasets เท่านั้น
  3. Quality of Resources คุณภาพของข้อมูลที่อยู่ในอินเทอร์เน็ต ยังไม่ได้รับการยืนยันว่าถูกต้องเพียงพอจะนำไปใช้งานต่อได้
  4. Cultural Relevance ข้อมูล หรือศัพท์เฉพาะเกี่ยวกับภาษารองหลายภาษา แปลมาจากภาษาอังกฤษอีกที อาจไม่สอดคล้องกับวัฒนธรรมหรือบริบทจริงๆ ของพื้นที่นั้น

ทั้งนี้รัฐบาลสิงคโปร์เข้าใจปัญหานี้ดี จึงพัฒนาโครงการ SEACrowd ขึ้นมาเพื่อรวบรวม Datasets ของประเทศในแถบเอเชียตะวันออกเฉียงใต้อย่างเป็นทางการ และมีนักวิจัยของ Vistec เข้าไปมีร่วมในโครงการด้วย

ศ.ดร.สรณะ คาดหวังว่า SEACrowd จะเป็น Benchmark ที่ดีที่ช่วยให้มั่นใจว่า Data ที่ได้มาจะนำเสนอถึงความเป็นภูมิภาคเอเชียตะวันออกเฉียงใต้ได้จริงๆ ไม่ใช่การคิดไปเอง หรือแปลมาจากแหล่งข้อมูลของประเทศตะวันตกอีกที

เพราะอย่าลืมว่าการพัฒนา LLM แล้ววัดผลด้วย Benchmark ที่ถูกต้อง ใช้งานได้จริง มีผลอย่างยิ่งต่อการตีพิมพ์หรือไม่ได้ตีพิมพ์งานวิจัย ไปจนถึงการพัฒนาต่อเป็นผลงานที่ใช้ได้จริงด้วย จะช่วยนำทางนักวิจัยไปสู่เป้าหมาย และทำให้นักวิจัยรู้ว่าปัญหาไหนที่ต้องแก้ไข ปัญหาไหนไม่ต้องแก้ไขอะไรแล้ว สิ่งไหนที่จะช่วยพัฒนา LLM ให้ดียิ่งขึ้นต่อไป เป็นต้น

แต่ก็มีข้อควรระวังในการวัดผลด้วยเช่นกัน ศ.ดร.สรณะ ยกตัวอย่างเปเปอร์ชื่อ Don’t Make Your LLM an Evaluation Benchmark Cheater ที่ได้ข้อสรุปว่า ให้ระวังการตั้งใจวัดผลให้ออกมามีตัวเลขที่ดูดี ดูสวยที่สุด แต่กลับไม่สามารถเอาไปใช้งานจริงได้เมื่อต้องทำงานจริง เพราะมันไม่ต่างอะไรกับนักเรียนที่ตั้งใจอ่านหนังสือเพื่อสอบให้ได้คะแนนดี แต่เอาความรู้ที่ได้มานั้นไปใช้ประโยชน์อะไรไม่ได้

ส่วนในอนาคต ศ.ดร.สรณะ ยืนยันว่าไทยจะร่วมมือกับโครงการ SEACrowd ต่อไป เพื่อนำภาษาไทยที่มีความเป็นภาษาถิ่น เข้าไปอยู่ในฐานข้อมูลกลาง ให้คนทั่วโลกได้รู้จักมากขึ้นต่อไป

ผู้เขียน:

SCBX contributor
SCBX contributor

More Insights for you

Stay up to date with our latest content

More Insights for you

Stay up to date with our latest content