Hugging Face ประกาศแผนพัฒนา Open-R1 โมเดลโอเพนซอร์สตามแนวทาง DeepSeek-R1
![Hugging Face ประกาศแผนพัฒนา Open-R1 โมเดลโอเพนซอร์สตามแนวทาง DeepSeek-R1](https://image.bangkokbiznews.com/uploads/images/md/2025/01/SQRzeIWY8RKZxcaVDMVQ.webp?x-image-process=style/LG)
Open-R1 โครงการพัฒนาเอไอแบบโอเพนซอร์สที่มีทักษะการคิดวิเคราะห์ขั้นสูง คิดก่อนตอบ มีเหตุผลมารองรับ โดยได้รับแรงบันดาลใจมาจาก DeepSeek-R1
Hugging Face แพลตฟอร์มโอเพนซอร์สที่ได้รับการระดมทุนจากเทคยักษ์ใหญ่ เช่น Google และ Amazon ได้ประกาศผ่าน GitHub ว่า กำลังพัฒนาโมเดลเอไอตัวใหม่ชื่อ “Open-R1” ต่อยอดแนวทางมาจาก DeepSeek-R1
เอลี บาคูช (Elie Bakouch) วิศวกร Hugging Face หนึ่งในทีมวิจัยโครงการ ระบุกับสำนักข่าว TechCrunch ว่า “แม้ DeepSeek - R1 จะเป็นประโยชน์ต่อชุมชนนักพัฒนา เบื้องต้นได้เปิดเผยค่าพารามิเตอร์การฝึกโมเดล แต่ยังมีส่วนสำคัญที่ยังไม่เปิดเผย เช่น ชุดข้อมูล และโค้ดที่ใช้ในการฝึกโมเดล เป้าหมายของโครงการ Open-R1 คือ ต้องการเติมเต็มส่วนที่ขาดหายไปเหล่านี้”
แบ่งการพัฒนาเป็น 3 ระยะ
ระยะที่ 1: สร้างชุดข้อมูล R1-Distill โดยใช้ DeepSeek-R1 เป็นต้นแบบ เริ่มจากใช้โมเดลพื้นฐานสร้างโจทย์ด้านคณิตศาสตร์ การเขียนโค้ด และการใช้เหตุผล จากนั้นส่งให้ DeepSeek-R1 วิเคราะห์ และแสดงขั้นตอนการคิด (Chain-of-Thought) ผ่านการตรวจสอบทั้งจากระบบอัตโนมัติ และมนุษย์ เพื่อคัดกรองเฉพาะคำตอบที่ถูกต้อง
ระยะที่ 2: ฝึกโมเดลด้วยการเรียนรู้แบบเสริมกำลัง (RL) เพื่อพิสูจน์ว่าเราสามารถฝึกโมเดลให้คิดวิเคราะห์ และให้คำตอบเป็นเหตุเป็นผลได้ ซึ่งจะต้องรวบรวมชุดข้อมูลขนาดใหญ่เป็นจำนวนมาก
ระยะที่ 3: แสดงกระบวนการฝึกโมเดลแบบครบวงจร ตั้งแต่การปรับจูนแบบมีผู้สอน (SFT) ไปจนถึงการเรียนรู้แบบเสริมกำลัง (RL) เพื่อให้โมเดลไม่เพียงเลียนแบบ แต่เข้าใจวิธีแก้ปัญหาในสถานการณ์ใหม่ได้
ทีมวิจัย Hugging Face มีแผนขยายขอบเขตการพัฒนาไปสู่การให้เหตุผลในด้านอื่นๆ นอกเหนือจากคณิตศาสตร์ เช่น การเขียนโค้ดและการแพทย์ ซึ่งอาจช่วยให้โมเดลเอไอสามารถวิเคราะห์ และแนะนำแนวทางการรักษาได้อย่างเป็นขั้นตอน
นอกจากนี้ ทีมวิจัยยังแสดงเจตจำนงว่า จะแบ่งปันบทเรียนที่ได้ค้นพบกับชุมชนโอเพนซอร์ส โดยการบันทึกว่าอะไรได้ผล อะไรไม่ได้ผล และเพราะเหตุใด เพื่อช่วยประหยัดเวลา และทรัพยากรสำหรับผู้ที่ต้องการพัฒนาต่อยอด
แม้เป็นเพียงการวางแผนโครงการ หากแต่ปัจจุบันโครงการได้รับความสนใจจากนักพัฒนา โดยมีผู้กดติดตามบน GitHub มากกว่า 10,000 คน
เกี่ยวกับ DeepSeek
Hugging Face ได้เขียนอธิบายถึง DeepSeek เพิ่มเติมว่า R1 พัฒนาต่อยอดจากโมเดลพื้นฐาน V3 ซึ่งเป็นโมเดลขนาด 671B พารามิเตอร์ที่ใช้เทคนิค Mixture of Experts (MoE) มีประสิทธิภาพใกล้เคียงกับ Sonnet 3.5 และ GPT-4o แต่ใช้งบประมาณในการพัฒนาเพียง 5.5 ล้านดอลลาร์ เนื่องจากมีการปรับปรุงสถาปัตยกรรมหลายด้าน เช่น Multi Token Prediction (MTP) และ Multi-Head Latent Attention (MLA) รวมถึงการเพิ่มประสิทธิภาพด้านฮาร์ดแวร์
DeepSeek ได้พัฒนาโมเดล R1 มาสองรุ่น ได้แก่
1) DeepSeek-R1-Zero : เป็นรุ่นแรกที่พัฒนาด้วยวิธีให้โมเดลเรียนรู้ด้วยตัวเอง ใช้การเรียนรู้แบบเสริมกำลังล้วนๆ โดยเทคนิค Group Relative Policy Optimization (GRPO) มีระบบให้คะแนนอย่างง่าย เช่น ถ้าคำตอบถูกต้องก็ได้คะแนนบวก ทำให้โมเดลสามารถคิดแก้ปัญหาเป็นขั้นตอน และตรวจสอบความถูกต้องได้ แต่ยังมีข้อเสียคือ คำตอบที่ได้มักซับซ้อน และเข้าใจยาก
2) DeepSeek-R1: เป็นรุ่นที่พัฒนาต่อยอด โดยเริ่มจากการสอนด้วยตัวอย่างที่เลือกมา เพื่อให้โมเดลตอบคำถามได้ชัดเจน และเข้าใจง่ายขึ้น จากนั้นจึงให้เรียนรู้เพิ่มเติมด้วยตนเอง พร้อมมีระบบคัดกรองคำตอบทั้งจากความเห็นของมนุษย์ และเกณฑ์การประเมินต่างๆ ส่งผลให้ได้โมเดลที่ทั้งคิดเก่ง และอธิบายได้ดี
อ้างอิง: Hugging Face
พิสูจน์อักษร....สุรีย์ ศิลาวงษ์