ไขประเด็นวิเคราะห์ Faked Data “รู้-แก้” ให้ตรงจุด
เวลาที่เราค้นข้อมูล เราจะทราบได้อย่างไรว่า ข้อมูลผิด หรือเป็น Faked Data” บางความคิด บอกว่า ส่วนหนึ่งเป็นเรื่องของทักษะด้านข้อมูล (Data Literacy) ที่จะต้องใช้ตรรกะและองค์ความรู้แยกให้ได้ว่าข้อมูลใดเป็นข้อมูลจริงหรือเท็จ ข้อมูลมาจากแหล่งที่น่าเชื่อถือหรือไม่
บ่อยครั้งที่มักจะพบว่าข้อมูลจากการวิเคราะห์ ที่แสดงเป็นรายงานอย่างสวยงามนั้น เมื่อนำเสนอต่อผู้บริหาร หรือผู้เชี่ยวชาญแล้วบุคคลเหล่านั้นบอกว่า “ข้อมูลผิด” และสิ่งหนึ่งที่มักได้ยินบ่อยๆ ในหลายองค์กรก็คือว่า ข้อมูลจำนวนมากที่เก็บอยู่ในองค์กรเป็นขยะ กล่าวคือ ข้อมูลไม่ถูกต้อง ทำให้การนำไปวิเคราะห์ย่อมได้ผลลัพธ์ที่ผิดพลาดตามมา
ดังนั้นหลายคนอาจสงสัยว่า เราจะทราบได้อย่างไรว่า ข้อมูลผิด หรือเป็น Faked Data”
บางความคิด บอกว่า ส่วนหนึ่งเป็นเรื่องของทักษะด้านข้อมูล (Data Literacy) ที่จะต้องใช้ตรรกะและองค์ความรู้แยกให้ได้ว่าข้อมูลใดเป็นข้อมูลจริงหรือเท็จ ข้อมูลมาจากแหล่งที่น่าเชื่อถือหรือไม่ แต่บังเอิญคำถามนี้กลายเป็นว่า ข้อมูลดังกล่าวมาจากแหล่งต้นทางที่เราคิดว่าน่าจะถูกต้อง มีความน่าเชื่อถือ แต่กลับกลายเป็นว่ามีข้อมูลดิบบางส่วนที่ผิดอยู่ด้วย
ที่ผ่านมา ผมทำงานกับข้อมูลดิบมาอย่างยาวนาน และบ่อยครั้งก็จะพบว่าข้อมูลจากแหล่งต้นทางผิดจริง แต่ก็ใช่ว่าจะผิดมากมาย ส่วนใหญ่อาจผิดพลาดเพราะการใส่ตัวเลขผิดพลาด หรือมีการเก็บข้อมูลคาดเคลื่อน เรื่องเหล่านี้เป็นเรื่องปกติของการวิเคราะห์ข้อมูล (Data Analytics) ยิ่งข้อมูลมีขนาดใหญ่ (Big Data) ก็อาจทำให้มีโอกาสผิดได้มากขึ้นและจำนวนข้อมูลอาจผิดพลาดมากขึ้น
ในบางกรณีการนำข้อมูลมาจากหลายแหล่งก็อาจพบความไม่ตรงกันของข้อมูล ความไม่สอดคล้องกันของข้อมูล โดยความผิดพลาดอาจไม่มีนัยสำคัญใดๆ แต่บางครั้งข้อมูลที่ผิดพลาดเพียงชุดเดียวก็อาจทำให้เกิดการวิเคราะห์ผิดพลาดได้ หากความผิดพลาดในข้อมูลนั้นทำให้เกิดการเบี่ยงเบนมหาศาล
กระบวนการที่จะช่วยทำให้ลดความผิดพลาดของข้อมูลส่วนหนึ่งคือ การเตรียมการข้อมูล (Data Preperation) ซึ่งเป็นหน้าที่ของวิศวกรข้อมูล (Data Engineer) ซึ่งจะต้องนำข้อมูลดิบ (Raw Data) มาแปลง ตรวจสอบความถูกต้องเสียก่อน เช่น หาข้อมูลที่หายไป (Missing Data) หรือข้อมูลที่อยู่นอกกรอบ (Outlier) กล่าวคือ หาข้อมูลที่ดูแล้วผิดปกติโดยจะต้องทำการแก้ไข เช่น บางครั้งข้อมูลงบการเงินของบริษัทอาจสูงผิดปกติ จำนวนพน้กงานมากผิดปกติ ข้อมูลส่วนตัว อายุ น้ำหนัก สูงผิดปกติ หรือข้อมูลนำเข้าส่งออกอาจใช้สกุลเงินต่างกัน ข้อมูลเหล่านี้วิศวกรข้อมูลจะช่วยทำความสะอาดข้อมูล (Data Cleansing) ให้ได้ อาจปรับหาค่าที่เหมาะสมมาใส่ หรือตัดออก และแปลงข้อมูลดิบให้กลายเป็นข้อมูลที่น่าเชื่อถือ (Trusted Data) เพื่อให้นักวิเคราะห์ข้อมูล (Data Analyst) หรือนักวิทยาศาสตร์ข้อมูล (Data Scientist) นำไปทำการวิเคราะห์ข้อมูลและแสดงผลต่อไป
แต่อย่างไรก็ตามแม้วิศวกรข้อมูลจะสร้างข้อมูลที่น่าเชื่อถือให้แล้ว ก็ใช่ว่าข้อมูลนั้นจะถูกต้อง 100% แหล่งข้อมูลที่เข้ามาก็อาจจะเกิดการผิดพลาดแต่วิธีการด้านวิศวกรข้อมูลก็ยังไม่สามารถแก้ไขได้ จากสารพัดสาเหตุ เช่น นำข้อมูลเข้ามาไม่ครบ ได้ข้อมูลผิดๆ แต่ต้น หรือแม้แต่ข้อมูลถูกต้องแล้ว แต่การวิเคราะห์ข้อมูลไม่เข้าใจข้อมูลดีพอ จึงทำให้การวิเคราะห์มีความที่ผิดพาดส่งผลต่อการแสดงผลที่ผิดพลาดก็เป็นไปได้
คำถามคือ “เราจะรู้ได้อย่างไรว่ามันผิด?” จากประสบการณ์ของผม เราจะต้องพึ่งผู้เชี่ยวชาญที่มีความรู้ด้านนั้นอย่างแท้จริง (Domain Expert) เช่น ข้อมูลด้านการเกษตรก็ต้องมีนักวิชาการการเกษตร หรือคนทำงานทางด้านนั้น ข้อมูลการขายก็ต้องการนักการตลาดของบริษัทเพราะมีความเข้าใจใน ข้อมูลและการแสดงผลว่าถูกต้องหรือไม่ หากเห็นว่าผิดปกติบุคคลเหล่านั้นจะมีความสงสัยและมีคำถามว่า ทำไมข้อมูลจึงเป็นเช่นนั้น เนื่องจากข้อมูลเฉพาะทางต้องการความรู้และประสบการณ์ในการทำงานมาเป็นองค์ประกอบที่สำคัญ
ผมเคยวิเคราะห์และแสดงผลตัวเลขการจ้างงานของประเทศ คนที่มีประสบการณ์สูง ก็จะทราบทันทีว่าข้อมูลที่แสดงในแต่ละจังหวัด แต่ละอุตสาหกรรม แต่ละปีมีความถูกต้องหรือไม่ บางคนแสดงตัวเลขรายได้อุตสาหกรรมต่างๆ ให้คนที่อยู่ในอุตสาหกรรม ซึ่งคนเหล่านั้นก็จะดูออกว่าถูกต้องหรือไม่ หากผิดปกติก็จะต้องหาตัวเลขที่ถูกต้องมายืนยัน
ดังนั้นการที่จะทราบได้อย่างไรว่า ข้อมูลของเราเป็น Faked Data คำตอบคือ กระบวนงานของวิศวกรรมข้อมูลและประสบการณ์ของ Domain Expert เป็นเรื่องสำคัญที่สุด