การสอน AI ด้วยข้อมูลส่วนบุคคล (โดยไม่ชอบด้วยกฎหมาย)
ความฉลาดของ AI ขึ้นอยู่กับปริมาณและคุณภาพของข้อมูลที่ใช้ในการสอนและการสร้างแบบจำลอง และแหล่งข้อมูลหนึ่งที่ถูกใช้ในการสร้างชุดข้อมูลเพื่อการสอน AI คือ ข้อมูลจากเว็บไซต์ต่างๆ
วิธีการหนึ่งซึ่งนิยมแพร่หลาย คือ web scraping ซึ่งเป็นวิธีการคัดลอกหรือดูดข้อมูลจากหน้าเว็บไซต์ที่เปิดเผยต่อสาธารณะ เช่น พฤติกรรม ข้อความ รูปภาพ ข้อมูลติดต่อและอื่นๆ ตามรูปแบบที่กำหนดเพื่อนำข้อมูลไปวิเคราะห์ตามจุดประสงค์ต่างๆ
ในการดูดหรือคัดลอกจึงอาจมีทั้งข้อมูลส่วนบุคคลทั่วไปและข้อมูลส่วนบุคคลอ่อนไหว การสร้างชุดข้อมูลเพื่อการสอน AI จาก web scraping จึงจำเป็นต้องปฏิบัติให้สอดคล้องกับกฎหมายว่าด้วยการคุ้มครองข้อมูลส่วนบุคคลด้วย
สหรัฐมีการฟ้องร้องดำเนินคดีแบบกลุ่มเกิดขึ้นในหลายรัฐเกี่ยวกับการนำข้อมูลมาใช้ในการสอน AI โดยไม่ชอบด้วยกฎหมาย เช่น คดี PM v. OpenAI LP (N.D. Cal. Jun 28, 2023)
ที่กล่าวหาว่า OpenAI ใช้ข้อมูลส่วนตัวที่ถูกขโมยในการสอน AI ซึ่งรวมถึงข้อมูลที่สามารถระบุตัวบุคคลได้จากผู้ใช้อินเทอร์เน็ตหลายร้อยล้านคน รวมถึงข้อมูลของเด็กและผู้เยาว์ในทุกช่วงอายุ โดยเจ้าของข้อมูลส่วนบุคคลเหล่านี้ไม่ได้รับรู้หรือให้ความยินยอมแต่อย่างใด
หรือในกรณีของ Google ที่เปิดเผยผ่าน Privacy Policy ของบริษัทว่า ทำการเก็บรวบรวมข้อมูลที่เปิดเผยต่อสาธารณะทางออนไลน์หรือจากแหล่งสาธารณะอื่นๆ
เพื่อช่วยฝึกโมเดลภาษา AI ของ Google และสร้างผลิตภัณฑ์และคุณลักษณะต่างๆ เช่น Google Translate, Bard และ Cloud AI เป็นต้น
ในกรณีสหภาพยุโรป GDPR เป็นกฎหมายที่กำกับการประมวลผลข้อมูลส่วนบุคคล ตั้งแต่ขั้นตอนการเก็บรวบรวมจนกระทั่งลบทำลาย
และแม้ว่าข้อมูลส่วนบุคคลดังกล่าวจะถูกเปิดเผยต่อสาธารณะโดยเจ้าของข้อมูลส่วนบุคคล GDPR ก็ยังให้ความคุ้มครองต่อข้อมูลดังกล่าว
นักพัฒนาจึงมีหน้าที่ตามกฎหมายหลายๆ ประการ ตั้งแต่การที่ต้องมีความชอบธรรมและความโปร่งใสในการประมวลผลข้อมูลส่วนบุคคล
โดยเฉพาะอย่างยิ่ง การมีฐานทางกฎหมาย (lawful basis) และการแจ้งรายละเอียดเกี่ยวกับการประมวลผลข้อมูลส่วนบุคคลตามที่กฎหมายกำหนด (privacy information)
ดังนั้น ในสหภาพยุโรปจึงมีหลายๆ กรณี ที่หน่วยงานบังคับใช้กฎหมายด้านการคุ้มครองข้อมูลส่วนบุคคลมีข้อแนะนำ คำสั่งปรับหรือลงโทษบริษัทหรือหน่วยงานที่ทำการเก็บรวบรวมข้อมูลเพื่อการพัฒนา AI โดยไม่ชอบด้วยกฎหมาย อาทิ
ปี 2563 CNIL (ฝรั่งเศส) เตือนบริษัทต่างๆ ที่จะเก็บรวบรวมข้อมูลการติดต่อของบุคคลที่เผยแพร่สาธารณะมาใช้เพื่อวัตถุประสงค์ด้านการตลาดแบบตรง ว่าต้องได้รับความยินยอมจากเจ้าของข้อมูลส่วนบุคคลก่อน และ CNIL ยังแนะนำให้ทำตามขั้นตอนต่อไปนี้ก่อนที่จะใช้เครื่องมือคัดลอกเว็บไซต์
(1) การตรวจสอบลักษณะและที่มาของข้อมูลที่จะคัดลอก : คำแนะนำระบุว่าเครื่องมือบางอย่างดึงข้อมูลจากเว็บไซต์ที่มีเงื่อนไขการใช้งานห้ามการดึงและนำข้อมูลกลับมาใช้ซ้ำเพื่อวัตถุประสงค์ทางการตลาด ในกรณีนี้ถือเป็นการกระทำที่ผิดกฎหมายอย่างชัดเจน
(2) การลดจำนวนข้อมูลส่วนบุคคลที่เก็บรวบรวม : บริษัทที่ใช้เครื่องมือคัดลอกเว็บจะต้องระมัดระวังเป็นพิเศษและหลีกเลี่ยงการรวบรวมข้อมูลที่ไม่เกี่ยวข้องและมากเกินไป โดยเฉพาะอย่างยิ่งหากข้อมูลนั้นมีความละเอียดอ่อน (เช่น ข้อมูลด้านสุขภาพหรือข้อมูลที่เกี่ยวข้องกับศาสนาหรือพฤติกรรมทางเพศของบุคคล)
(3) การแจ้งรายละเอียดเกี่ยวกับการประมวลข้อมูลส่วนบุคคล : นอกจากนี้ บริษัทที่ใช้เครื่องมือคัดลอกเว็บไซต์จะต้องแจ้งข้อมูลแก่บุคคลที่มีการดึงข้อมูล เพื่อวัตถุประสงค์ด้านการตลาดแบบตรงโดยอย่างช้าที่สุด ณ เวลาที่สื่อสาร/ติดต่อกับบุคคลเหล่านั้นเป็นครั้งแรก และประกาศจะต้องมีข้อมูลทั้งหมดที่ระบุไว้ในมาตรา 14 ของ GDPR รวมถึงแหล่งที่มาของข้อมูล
(4) การจัดการความสัมพันธ์ทางสัญญากับผู้ให้บริการการคัดลอกเว็บไซต์ : ต้องตรวจสอบให้แน่ใจว่าผู้ให้บริการจะปฏิบัติตามมาตรการข้างต้นและมีการจัดทำข้อตกลงการประมวลผลข้อมูลส่วนบุคคล (DPA : data processing agreement) ที่เหมาะสมกับผู้ให้บริการรายนั้น
(5) ดำเนินการประเมินผลกระทบด้านการคุ้มครองข้อมูลส่วนบุคคล (DPIA) หากจำเป็น : ในบางกรณีจะต้องดำเนินการจัดทำ DPIA ก่อนที่จะดำเนินการประมวลผลข้อมูลส่วนบุคคล และแม้ว่าจะไม่จำเป็นต้องทำ DPIA แต่คำแนะนำก็เน้นย้ำว่าเป็นแนวปฏิบัติที่ดีที่สุดในการดำเนินการ
ปี 2565 GPDP (อิตาลี) สั่งปรับ Clearview AI เป็นเงิน 20 ล้านยูโรจากการคัดลอกเว็บไซต์เพื่อเก็บรวบรวมข้อมูลภาพจำลองใบหน้าของบุคคล (ซึ่งถือเป็นข้อมูลชีวภาพที่ GDPR กำหนดมาตรฐานการคุ้มครองข้อมูลส่วนบุคคลสูงขึ้น)
โดยไม่เห็นด้วยกับการใช้ฐานประโยชน์โดยชอบด้วยกฎหมาย (LI : legitimate interest) ในการการประมวลข้อมูลชีวภาพดังกล่าว นอกจากนี้ บริษัทยังได้ละเมิดหลักการพื้นฐานหลายประการของ GDPR เช่น ความโปร่งใส และการจำกัดวัตถุประสงค์ เป็นต้น
พ.ร.บ.คุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 (PDPA) เป็นกฎหมายที่มีหลักการทำนองเดียวกันกับ GDPR ของสหภาพยุโรปที่มุ่งประสงค์กำกับกระบวนการเก็บรวบรวม ใช้ และเปิดเผยข้อมูลส่วนบุคคลให้สอดคล้องกับหลักเกณฑ์ตามที่กฎหมายกำหนด
ชุดข้อมูลที่เก็บรวบรวมมาโดยไม่ถูกต้องตาม PDPA โดยเฉพาะการเก็บรวบรวมโดยไม่มีฐานทางกฎหมาย หากมีการนำไปใช้ต่อโดยนักพัฒนา นักพัฒนาก็ย่อมมีความเสี่ยงในด้านการคุ้มครองข้อมูลส่วนบุคคลเช่นเดียวกัน
การนำเข้าข้อมูลจากแหล่งสาธารณะต่างๆ เพื่อการสอน AI จึงเป็นประเด็นท้าทายในทางกฎหมายและการพัฒนาเทคโนโลยี AI อย่างยิ่งว่าจะสร้างสมดุลได้อย่างไร
ดังนั้น เมื่อพิจารณาถึงลักษณะของการคัดลอกข้อมูลจากเว็บไซต์จากกรณีศึกษาข้างต้น
การขอความยินยอม ความโปร่งใสในการแจ้งรายละเอียดเกี่ยวกับการประมวลผล และสิทธิในการคัดค้าน จึงถือเป็นหลักการที่ยากต่อการนำไปปฏิบัติ โดยเฉพาะหากเป็นการดำเนินการเพื่อวัตถุประสงค์ในการสอน AI หรือพัฒนาชุดข้อมูลขนาดใหญ่เพื่อการสอน AI
ด้วยเหตุนี้ การมี Regulatory Sandbox เพื่อให้มีการกำกับดูแลที่เหมาะสมสำหรับการพัฒนา AI ด้วยข้อมูลส่วนบุคคลจึงอาจมีความจำเป็นอย่างยิ่งหากต้องการส่งเสริมการพัฒนาระบบ AI ของประเทศ.
คอลัมน์ Tech, Law and Security
ระวีวรรณ ขันติวิริยะพานิช
บริษัท ดีพีโอเอเอเอส จำกัด
ศุภวัชร์ มาลานนท์
บัณฑิตวิทยาลัยการจัดการและนวัตกรรม (มจธ.)