จากเทรดเดอร์การเงิน สู่ผู้สร้าง DeepSeek โมเดลโอเพนซอร์สที่สั่นสะเทือนตลาดเทค

เปิดเบื้องหลัง ‘เหลียง เหวินเฟิง’ จากนักเทรดเดอร์การเงิน ปั้นกองทุน High-Flyer สู่ผู้อยู่เบื้องหลัง DeepSeek โมเดลโอเพนซอร์สที่สั่นสะเทือนตลาดเทคโนโลยีโลก

ท่ามกลางสถานการณ์ที่สหรัฐอเมริกา เข้มงวดการควบคุมการส่งออกชิปปัญญาประดิษฐ์ (AI Chips) ไปยังจีนมากขึ้น “DeepSeek” สตาร์ตอัปน้องใหม่จากเมืองหางโจว กลับสร้างปรากฏการณ์ ด้วยการเปิดตัว “โมเดลเอไอแบบเปิดต้นรหัส” (Open Source AI Model) ที่มีประสิทธิภาพทัดเทียมกับ GPT-4 แต่ใช้ต้นทุนในการพัฒนาต่ำกว่าหลายเท่า จนได้รับฉายาว่าเป็น “Pinduoduo แห่งวงการเอไอ” จากความสามารถในการสร้างผลิตภัณฑ์คุณภาพสูงด้วยต้นทุนต่ำ

DeepSeek คือใคร?

เหลียง เหวินเฟิง (Liang Wenfeng) เป็นผู้ก่อตั้ง DeepSeek เขาเริ่มต้นเส้นทางวงการเทคโนโลยีด้วยความหลงใหลในปัญญาประดิษฐ์ ปี 2016 เหวินเฟิงได้ก่อตั้งกองทุน High-Flyer ซึ่งเป็นกองทุนที่ใช้โมเดล Machine Learning ในการวิเคราะห์ และซื้อขายหลักทรัพย์ทางการเงิน

จุดเปลี่ยนสำคัญเกิดขึ้นในปี 2023 เหวินเฟิงตัดสินใจเปิดห้องปฏิบัติการวิจัยด้าน AGI (Artificial General Intelligence) หรือปัญญาประดิษฐ์ขั้นสูงที่มีความสามารถใกล้เคียงมนุษย์ โดยแยกการดำเนินงานออกจากธุรกิจการเงินของ High-Flyer

ต่อมาในเดือนพฤษภาคม ปีเดียวกัน ห้องปฏิบัติการนี้ได้แยกตัวออกมาเป็นบริษัท DeepSeek อย่างเต็มตัว โดยมีสำนักงานใหญ่ตั้งอยู่ในเมืองหางโจว มณฑลเจ้อเจียง และมี High-Flyer เป็นหนึ่งในผู้ลงทุนหลัก ซึ่งมุ่งเน้นการวิจัยเอไอโดยไม่เน้นการค้า

เหวินเฟิงมีวิสัยทัศน์ว่า เอไอไม่ควรถูกผูกขาดโดยบริษัทยักษ์ใหญ่ แต่ควรเป็นเทคโนโลยีที่ทุกคนเข้าถึงได้ เขาจึงต้องการพัฒนา AGI ให้เป็นประโยชน์ต่อสังคมในวงกว้าง โดยบริษัทของเขาจะให้โอกาสนักศึกษาจบใหม่ และคนรุ่นใหม่ที่มีทักษะทางเทคนิค แม้ไม่มีประสบการณ์

จากเทรดเดอร์การเงิน สู่ผู้สร้าง DeepSeek โมเดลโอเพนซอร์สที่สั่นสะเทือนตลาดเทค

นวัตกรรมที่เกิดจากข้อจำกัด

ในระยะแรก DeepSeek เปิดตัวโมเดล V2 ที่มีประสิทธิภาพสูงในราคาต่ำ จนกลายเป็นตัวจุดชนวนสงครามราคาโมเดลเอไอในจีน และต่อมาได้สร้างความแตกต่างด้วยการพัฒนาโมเดล V3 ที่มีความซับซ้อนสูงถึง 671 พันล้านพารามิเตอร์ แต่ใช้เวลาฝึกฝนเพียง 55 วัน โดยในเอกสารบริษัทได้เปิดเผยงบประมาณ 5.58 ล้านดอลลาร์ (ต่ำกว่า GPT-4 ที่ใช้งบประมาณ 100 ล้านดอลลาร์)

โมเดล V3 นี้ ใช้สถาปัตยกรรมแบบ Mixture-of-Experts (MoE) ซึ่งเป็นเทคนิคการประมวลผลที่แบ่งงานให้ “ผู้เชี่ยวชาญ” หลายส่วนทำงานร่วมกัน ประกอบด้วยผู้เชี่ยวชาญ 256 ส่วนที่ทำงานเฉพาะทาง และอีก 1 ส่วนที่ทำงานร่วมกัน ทำให้ประมวลผลได้อย่างมีประสิทธิภาพแม้ใช้ทรัพยากรจำกัด

ความสามารถของ DeepSeek

DeepSeek มีความสามารถหลายด้าน ทั้งการให้เหตุผล การแสดงขั้นตอนการคิด และการอธิบายผลลัพธ์อย่างเป็นระบบ นอกจากนี้ยังสามารถแก้ปัญหาทางคณิตศาสตร์ และตรรกะที่ซับซ้อน ช่วยในการตัดสินใจ และปรับตัวเข้ากับสถานการณ์ต่างๆ ได้อย่างยืดหยุ่น

โดยสามารถนำไปใช้ประโยชน์ได้หลายด้าน เช่น การสร้างโค้ด (Code Generation) โดย DeepSeek Coder รองรับภาษาโปรแกรมมากกว่า 80 ภาษา สามารถช่วยนักพัฒนาในการสร้างโค้ด ตรวจสอบโค้ด และแก้ไขข้อผิดพลาด ช่วยตอบคำถาม (Question Answering) ช่วยแปลภาษา (Translation) ช่วยสร้างเนื้อหา (Content Creation) เช่น บทความ บทกวี บทสนทนา ตลอดจนช่วยวิเคราะห์ข้อมูล (Data Analysis)

ผลิตภัณฑ์หลักของ DeepSeek ประกอบด้วย

DeepSeek LLM: โมเดลภาษาขนาดใหญ่
DeepSeek Chat: แชตบอตอัจฉริยะสำหรับการสนทนา
DeepSeek V2 - V3: โมเดลภาษาขนาดใหญ่แบบ Mixture-of-Experts (MoE)
DeepSeek R1: โมเดลภาษาแบบ Chain-of-Thought (CoT) เน้นให้ AI แสดงขั้นตอนการคิดอย่างเป็นระบบ
DeepSeek API: บริการสำหรับนักพัฒนาที่ต้องการนำความสามารถของ DeepSeek ไปต่อยอด

ผลกระทบต่อตลาด AI โลก

สิ่งที่ทำให้โมเดลจากแดนมังกรตัวนี้เป็นที่ถูกพูดถึงอีกอย่างคือ “การถูกบีบให้ใช้ชิปเอไอที่จำกัด” โมเดลนี้ได้รับการพัฒนาภายใต้ข้อจำกัดจากมาตรการคว่ำบาตรของสหรัฐที่จำกัดการส่งออกชิปประสิทธิภาพสูงไปยังจีน

ทีมวิศวกรของ DeepSeek จึงใช้ชิป Nvidia H800 จำนวน 2,048 ตัวในการฝึกประมาณ 2 เดือน (รวมชั่วโมง GPU ประมาณ 2.7 ล้านชั่วโมงสำหรับการฝึกก่อน และประมาณ 2.8 ล้านชั่วโมง GPU รวมหลังการฝึก) ซึ่งมีประสิทธิภาพเพียงครึ่งหนึ่งของรุ่นสูงสุด แต่ก็สามารถสร้างโมเดลที่ใช้ทรัพยากรน้อยกว่าแต่ให้ผลลัพธ์เทียบเท่า

โดย DeepSeek R1 สามารถแก้ปัญหาที่ซับซ้อนได้ เพราะใช้โมเดล CoT เน้นให้เอไอแสดงขั้นตอนการคิดอย่างเป็นระบบ แบบทีละขั้นตอน คล้ายกับการอธิบายวิธีแก้ปัญหาของมนุษย์ เพื่อเพิ่มความแม่นยำในการแก้โจทย์ที่ซับซ้อน เช่น คณิตศาสตร์ ตรรกะ หรือการให้เหตุผล หากลองใช้งานผู้ใช้จะเห็นบนหน้าต่างโทเค็นได้เลยว่าเอไอคิดอย่างไร ไม่ใช่แค่การเดาคำตอบ

บริษัทยังเลือกใช้การพัฒนาแบบโอเพ่นซอร์ส ซึ่งเป็นกลยุทธ์ที่แตกต่างจากบริษัทเอไอยักษ์ใหญ่ของสหรัฐที่มักปิดกั้นการเข้าถึงเทคโนโลยี การเปิดเผยโค้ดทำให้นักพัฒนาทั่วโลกสามารถนำไปต่อยอดได้ โดยเฉพาะในประเทศกำลังพัฒนาที่มีทรัพยากรจำกัด

การเปิดเผยโค้ดแบบโอเพนซอร์สของ DeepSeek ไม่เพียงแต่เป็นกลยุทธ์ทางเทคนิค แต่ยังเป็นการเปลี่ยนแปลงดุลอำนาจในวงการเอไอโลก โดยเฉพาะการช่วยให้นักพัฒนาในประเทศกำลังพัฒนาสามารถเข้าถึงเทคโนโลยีเอไอขั้นสูงได้โดยไม่ต้องพึ่งพาบริษัทตะวันตก

นอกจากนี้ DeepSeek ยังสร้างแรงกระเพื่อมในตลาดด้วยการกำหนดราคา API ที่ต่ำกว่าคู่แข่งอย่างมาก โดยคิดค่าบริการเพียง 0.55 ดอลลาร์ต่อล้านโทเค็นสำหรับข้อมูลนำเข้า และ 2.19 ดอลลาร์ต่อล้านโทเค็นสำหรับข้อมูลส่งออก ส่งผลให้บริษัทยักษ์ใหญ่ในจีนอย่าง ByteDance, Tencent, Baidu และ Alibaba ต้องปรับลดราคาลงเพื่อรักษาความสามารถในการแข่งขัน

ศาสตราจารย์โทมัส ฉีตง เฉา (Thomas Qitong Cao) ผู้เชี่ยวชาญด้านนโยบายเทคโนโลยีจากมหาวิทยาลัย Tufts กล่าวว่า “โอเพนซอร์สได้รับความนิยมในหมู่นักวิจัยรุ่นใหม่ของจีน เพราะช่วยให้พวกเขา และนักพัฒนาทั่วโลกสามารถต่อยอดเทคโนโลยีได้โดยไม่ต้องเริ่มต้นจากศูนย์”

ผลกระทบที่มาจาก DeepSeek ยังสั่นสะเทือนไปถึงตลาดหุ้นเทคโนโลยีสหรัฐ โดยเฉพาะบริษัทอินวิเดีย (Nvidia) ที่ราคาหุ้นได้รับผลกระทบ สูญเสียไปเกือบ 400,000 ล้านดอลลาร์ (27 ม.ค.) ซึ่งถือเป็นการลดลงครั้งใหญ่ที่สุด เนื่องจากนักลงทุนเริ่มเห็นว่าบริษัทจีนสามารถพัฒนาเอไอประสิทธิภาพสูงได้แม้จะมีข้อจำกัดด้านการเข้าถึงชิปประมวลผลประสิทธิภาพสูงจากสหรัฐ

อ้างอิงเพิ่มเติม: MIT และ Forbes

พิสูจน์อักษร....สุรีย์ ศิลาวงษ์