Google เปิดตัว AI ‘ลูเมียร์‘ แปลงข้อความ-รูปภาพให้เป็นวิดีโอที่สมจริง

Google เปิดตัว Lumiere ”ลูเมียร์“ โมเดล AI เครื่องมือใหม่ที่จะสร้างสรรค์วิดีโอสุด“สมจริง” เพียงแค่ ป้อนข้อความและรูปภาพให้มันเรียนรู้ แม้ว่าจะอยู่ในขั้นทดลอง แต่ก็ถูกเพ่งเล็งถึงลิขสิทธิ์ในการนำข้อมูลมาฝึกฝน AI

Google Research แผนสำหรับโมเดล time-and-space diffusion ที่เรียกว่า Lumiere ”ลูเมียร์“ โมเดล AI สำหรับสร้างวิดีโอขึ้นจาก Prompt ตัวหนังสือ หรือรูปภาพต้นแบบ

Google เปิดตัว AI ‘ลูเมียร์‘ แปลงข้อความ-รูปภาพให้เป็นวิดีโอที่สมจริง

โดยมีจุดเด่นคือ โมเดลทำงานด้วยการดูองค์ประกอบในภาพข้อมูลตั้งต้น และสร้างวิดีโอต่อเนื่องขึ้นจากสิ่งเหล่านั้น ทำให้รักษาภาพรวมและสไตล์ได้ตรงโจทย์มากกว่าโมเดลอื่น ผ่านสิ่งที่เรียกว่า “สถาปัตยกรรม Space-Time U-Net”

พูดง่ายๆคือ เพียงแค่ป้อนคำอธิบายที่เป็นข้อความของสิ่งที่ต้องการดูเป็นวิดีโอหรืออัปโหลดภาพนิ่งพร้อมข้อความเพื่อสร้างวิดีโอแบบไดนามิกได้

ตัวอย่างวิดีโอที่สร้างขึ้นมาจาก Lumiere มีหลายรูปแบบทั้ง Text-to-Video สร้างคลิปสั้นตามข้อความอินพุท, Image-to-Video ให้รูปภาพตั้งต้นแล้วใส่อินพุทสิ่งที่ต้องการให้ภาพเคลื่อนไหว, Stylized Generation กำหนดภาพรูปแบบตั้งต้น แล้วสร้างผลลัพธ์ตามอินพุทที่ต้องการให้ได้โทนเดียวกัน

นอกจากนี้ยังมีเครื่องมืออื่นทั้ง การแก้ไขวิดีโอให้เป็นตามสไตล์ที่กำหนด, การแก้ไขวิดีโอตามตำแหน่งที่ระบุ, การกำหนดพื้นที่ให้ภาพเคลื่อนไหวเพียงบางจุดเท่านั้น หรือเป็นการเติมพื้นที่ส่วนที่ขาดหายให้วิดีโอ

สถานะของ Lumiere ยังเป็นเอกสารงานวิจัย ในรูปแบบของ Text-to-Video ด้วยชุดข้อมูลวิดีโอ 30 ล้านคลิป คลิปผลลัพธ์ความยาว 5 วินาที 80 เฟรม (16 fps) ขนาด 128x128

ซึ่งได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลวิดีโอและคำบรรยายภาพจำนวน 30 ล้านรายการ และมีความสามารถในการสร้างคลิปที่มีความยาว 5 วินาที 80 เฟรม (16 fps)

อย่างไรก็ตาม ไม่มีการเอ่ยถึงแหล่งที่มาของข้อมูลที่ Google ใช้ในการฝึกอบรมโมเดล ซึ่งกลายเป็นหัวข้อที่ร้อนแรงในโลกของ AI และกฎหมายลิขสิทธิ์

อ้างอิง : cointelegraph