ChatGPTo1 ตัวใหม่ ก้าวกระโดด AI สู่การคิดเชิงเหตุผล จริงหรือ?

ChatGPTo1 ตัวใหม่ ก้าวกระโดด AI  สู่การคิดเชิงเหตุผล จริงหรือ?

สัปดาห์ที่ผ่านมาบริษัท Open AI ได้เปิดตัวโมเดลตัวใหม่ที่ชื่อ ChatGPT o1 หรือตั้งชื่อเล่นว่า Strawberry ซึ่งถือเป็นการยกระดับความสามารถของ AI ในการให้เหตุผลและแก้ปัญหาที่ซับซ้อน หรือที่เรียกว่า Reasoning AI ให้ก้าวหน้าไปอีกขั้น

Reasoning AI เป็นระดับที่ 4 ของการพัฒนา AI ก่อนที่จะไปถึงขั้น AGI (Artificial General Intelligence) ซึ่งเป็น AI ที่มีความสามารถในการวิเคราะห์เชิงตรรกะและสรุปผลจากข้อมูลที่ซับซ้อนได้ ความสามารถนี้แตกต่างจาก AI ในระดับก่อนหน้า เช่น Rule-Based AI ที่ทำงานตามกฎที่กำหนดไว้ล่วงหน้า, Context-Based AI ที่พิจารณาบริบทแวดล้อม และ Narrow Domain AI ที่เชี่ยวชาญเฉพาะด้าน

OpenAI พัฒนา ChatGPT o1 มาให้ “คิด” นานขึ้นก่อนตอบสนอง เสมือนกับวิธีคิดมนุษย์ โมเดลนี้สามารถแก้ปัญหาที่ซับซ้อนและยากกว่าโมเดลก่อนหน้าในด้านวิทยาศาสตร์ การเขียนโค้ด และคณิตศาสตร์ ได้ดีขึ้น

 

ตัวอย่างหนึ่งที่คนมักจะพูดถึงว่า โมเดลภาษาขนาดใหญ่ (LLMs) หลายโมเดลมักจะตอบผิด คือ “การถามจำนวนตัวอักษร r ในคำว่า Strawberry”แล้วจะตอบว่ามีสองตัว เหตุผลเกิดจากวิธีการแบ่งหน่วยภาษา (tokenization) ที่ใช้ ซึ่งเป็นกระบวนการที่ทำให้โมเดลแยกคำออกเป็นคำย่อย แทนที่จะเก็บข้อมูลในระดับตัวอักษรแต่ละตัว ในกรณีของคำว่า “strawberry” อาจรวม “straw” และ “berry” เป็นหน่วยเดียว ทำให้โมเดลไม่เห็นตัวอักษร “r” ทุกตัวแยกจากกัน

ดังนั้น เมื่อโมเดลถูกถามให้คำนวณจำนวนตัวอักษร “r” มันอาจไม่ได้นับตัวอักษรทุกตัวในคำ ส่งผลให้คำตอบผิดพลาด สรุปคือ โมเดลไม่ได้มองคำในระดับตัวอักษรแต่ละตัว แต่เป็นการรวมหน่วยคำที่เกิดบ่อย ซึ่งทำให้มันสูญเสียความแม่นยำในการนับตัวอักษร

อีกตัวอย่างหนึ่งคือ ถ้าเราถามโมเดลภาษาขนาดใหญ่ว่า “ถ้าฉันมีหนังสือ 10 เล่ม และอ่านไป 2 เล่ม ฉันจะเหลือหนังสือกี่เล่ม?” หลายโมเดลจะตอบว่าเหลืออยู่ 8 เล่ม ทั้งๆ ที่ควรจะตอบว่าเหลืออยู่ครบทั้ง 10 เล่ม ทั้งนี้ก็เพราะโมเดลไม่ได้ถูกสอนให้คิดอย่างมีเหตุผลที่ดีพอ

บริษัท Open AI ระบุว่า ChatGPT o1 มีความสามารถที่โดดเด่นหลายด้าน เช่นโมเดลนี้แสดงผลงานใกล้เคียงกับนักศึกษาระดับปริญญาเอกในการทำแบบทดสอบที่ท้าทายในสาขาฟิสิกส์ เคมี และชีววิทยา นอกจากนี้ยังสามารถแก้โจทย์การแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ (IMO) ได้ถูกต้องถึง 83% เทียบกับ ChatGPT-4o ที่ทำถูกต้องเพียง 13% ในการแข่งขัน Codeforces ของการเขียนโปรแกรมโมเดลนี้ทำคะแนนอยู่ในเปอร์เซ็นไทล์ที่ 89

ผมได้ทดลองใช้ ChatGPT o1 Preview แล้วพบว่า เมื่อถามคำถามบางอย่าง โมเดลจะ “คิด” นานขึ้นและแสดงขั้นตอนการทำงาน โดยแบ่งปัญหาใหญ่ออกเป็นขั้นตอนย่อยๆ และพยายามระบุว่าขั้นตอนไหนถูกหรือผิด ก่อนที่จะตอบสนอง เสมือนกับวิธีการคิดของมนุษย์ และพบว่า โมเดลนี้สามารถแก้ปัญหาที่ซับซ้อนและยากกว่าโมเดลก่อนหน้าได้

แต่อย่างไรผมพบว่า การใช้งาน ChatGPT o1 มีข้อจำกัดที่ให้ใช้งานได้น้อยครั้งกว่า ChatGPT โมเดลเดิม ทั้งนี้คงเพราะว่ามีค่าใช้จ่ายสูงกว่า โมเดลเดิมประมาณ 4 เท่า เพราะมีการคิดค่า “reasoning tokens” สำหรับกระบวนการคิดที่ซับซ้อนขึ้น และยังขาดเครื่องมือ ในการทำงานกับข้อมูลหลายรูปแบบ เช่น รูปภาพหรือการโหลดไฟล์เอกสารเข้ามานอกจากนี้ยังมีการตอบสนองที่ช้ากว่าโมเดลเดิม

การใช้งานโมเดล o1 ที่เป็น Reasoning AI ควรเน้นไปที่งานที่ต้องการการวิเคราะห์เชิงลึกและการแก้ปัญหาที่ซับซ้อน เช่น ปัญหาทางคณิตศาสตร์ ฟิสิกส์ และวิศวกรรมที่มีความซับซ้อน การเขียนโปรแกรมและพัฒนาซอฟต์แวร์ งานวิจัยและการช่วยเหลือด้านวิชาการของนักศึกษาปริญญาเอก หรือการวิเคราะห์ข้อมูลที่ซับซ้อนเพื่อให้คำแนะนำเชิงกลยุทธ์สำหรับธุรกิจได้ดีขึ้น แต่ถ้าเป็นงานทั่วไป ChatGPT-4o ยังคงเป็นตัวเลือกที่ดีกว่าเพราะโมเดล o1 อาจมีปัญหาในการจัดการกับงานที่ง่ายกว่า

แม้ความก้าวหน้าของ ChatGPT o1 ที่เป็น Reasoning AI จะน่าตื่นเต้น แต่คำถามสำคัญที่ต้องพิจารณาคือ “AI สามารถให้เหตุผลเหมือนมนุษย์ได้จริงหรือ?”

1. ความแตกต่างในการให้เหตุผล: การให้เหตุผลของ AI แตกต่างจากมนุษย์อย่างมาก AI ใช้การคำนวณทางคณิตศาสตร์เพื่อหาคำตอบ ในขณะที่มนุษย์มักใช้ประสบการณ์ อารมณ์ และบริบททางสังคมในการตัดสินใจ

2. ข้อจำกัดในการเข้าใจบริบท: AI ยังมีข้อจำกัดในการเข้าใจสถานการณ์ที่ซับซ้อนของมนุษย์ ตัวอย่างเช่น ในภาพยนตร์ “The Imitation Game” อลัน ทูริง ตัดสินใจที่จะปล่อยให้เรือจมเพื่อปกปิดการถอดรหัสของเขา ซึ่งเป็นการตัดสินใจที่ต้องใช้การพิจารณาทางศีลธรรมและบริบททางประวัติศาสตร์ที่ซับซ้อน ซึ่ง AI ในปัจจุบันยังไม่สามารถทำได้

3. ความท้าทายในการแก้ปัญหาที่มีหลายคำตอบ: การใช้ AI ในการแก้ปัญหาที่ซับซ้อนและมีคำตอบที่เป็นไปได้หลายแบบยังคงเป็นความท้าทายอย่างมาก เนื่องจากการตัดสินใจของมนุษย์มักมีความเฉพาะตัวและไม่สามารถคาดเดาได้ง่าย

4. ข้อจำกัดของการทดสอบ AI: ผู้เชี่ยวชาญบางคนเห็นว่าการทดสอบที่ใช้วัดความเหมือนมนุษย์ของ AI นั้นมีข้อบกพร่อง เพราะมักจะมุ่งเน้นเฉพาะความฉลาดบางประเภทเท่านั้น ไม่ได้ครอบคลุมความสามารถทั้งหมดของมนุษย์

5. การขาดวิจารณญาณทางศีลธรรม: แม้ว่า AI สามารถช่วยในการคิดวิเคราะห์ได้ดีขึ้น แต่ยังไม่สามารถทดแทนการตัดสินใจทางศีลธรรมตามธรรมชาติของมนุษย์ได้

แม้ว่า Reasoning AI จะมีความก้าวหน้าอย่างมาก แต่ยังมีข้อจำกัดที่สำคัญในการเลียนแบบการให้เหตุผลของมนุษย์อย่างสมบูรณ์ AI อาจช่วยเสริมการตัดสินใจของมนุษย์ แต่ไม่สามารถทดแทนได้ทั้งหมด โดยเฉพาะในสถานการณ์ที่ต้องใช้วิจารณญาณทางศีลธรรมและความเข้าใจในบริบทที่ซับซ้อนของมนุษย์

ดังนั้นการพัฒนาของ ChatGPT o1 อาจไม่ใช่การปฏิวัติวงการ AI แต่เป็นก้าวย่างที่สำคัญในการสร้าง AI ที่มีความสามารถในการให้เหตุผลที่ซับซ้อนมากขึ้น ซึ่งอาจนำไปสู่การพัฒนา AGI (Artificial General Intelligence) ในอนาคต แม้ว่าจะยังอีกไกลกว่าที่หลายคนคาดหวังก็ตาม