กำเนิด Big Data อวสานของการทำโพล

การเกิดขึ้นของ “Big Data” หรือ “การประมวลผลของข้อมูลขนาดใหญ่” หรือการวิเคราะห์ข้อมูลที่มีจำนวนมากเพื่อที่จะหาข้อมูลข่าวสารที่อาจจะถูกซ่อนไว้

หรือ หาความสัมพันธ์ที่เราไม่รู้ หรือหาแนวโน้มทางการตลาดหรือความชอบของลูกค้าที่จะทำให้หน่วยงานหรือองค์กรธุรกิจสามารถตัดสินใจในการดำเนินงานที่ถูกต้องนั้น นับวันจะได้รับการยอมรับและดำเนินการอย่างเอาจริงเอาจังมากขึ้นเรื่อย ๆ ว่าที่จริงบริษัทขนาดใหญ่ เช่น แบงค์หรือบริษัทผู้ให้บริการค้าขายทางอินเตอร์เน็ตขนาดใหญ่ต่างก็กำลังสร้างหน่วยงานนี้ขึ้นเพื่อที่จะศึกษาและวิเคราะห์ลูกค้าของตนเพื่อที่จะหาโอกาสขายสินค้าของตนเองมากขึ้นและป้องกันไม่ให้ลูกค้าของตนหนีไปใช้บริการจากบริษัทอื่น ๆ มาได้ระยะหนึ่งแล้วไม่ต้องพูดถึงบริษัท “ดิจิตอล” ระดับโลกทั้งหลายที่ตอนนี้รู้อะไรต่าง ๆ เกี่ยวกับลูกค้า “แต่ละคน” เป็นอย่างดี บางทียิ่งกว่าคนใกล้ชิดด้วยซ้ำ และบริษัทเหล่านั้นก็พยายามเสนอขายสินค้าที่จะตอบสนองต่อคนเหล่านั้น “แต่ละคน” ผ่านระบบดิจิตอลหรืออินเตอร์เน็ตที่พวกเราต่างก็ดูกันทั้งวันเพื่อหาข้อมูลสารพัดที่เราต้องการ

ในช่วงแรกนั้น Big Data ดูเหมือนว่าจะเป็นเรื่องของบริษัทใหญ่ที่มีข้อมูลลูกค้าจำนวนมากที่จะสามารถนำมาวิเคราะห์และประมวลหาข้อมูลที่จะนำมาใช้ประโยชน์ทางธุรกิจหรือสำหรับหน่วยงานของตนเองได้ แต่ในเวลาต่อมาก็เริ่มมีคนค้นพบว่าข้อมูลขนาดใหญ่นั้นไม่ได้มีอยู่แต่ในองค์กรหรือบริษัทเท่านั้น มันยังมีข้อมูลอีกมากมายที่กระจายอยู่ในระบบอินเตอร์เน็ตและสื่อสังคมที่ผู้คนใช้ค้นหาข้อมูลและติดต่อสื่อสาร มันอยู่ในเว็บเพจสาธารณะมากมายจนนับไม่ถ้วน ข้อมูลเหล่านี้เกิดขึ้นทุกครั้งที่เราออนไลน์และเขียนติดต่อสื่อสารกับคนอื่นและมันถูกบันทึกไว้ไม่หายไปไหน

ดังนั้น ข้อมูลเหล่านี้จึงเป็นข้อมูลที่มีขนาดใหญ่มากและใหญ่ขึ้นเรื่อย ๆ ว่าที่จริงมันใหญ่ยิ่งกว่าของบริษัทที่ใหญ่ที่สุดในโลกด้วยซ้ำ เพียงแต่ว่ามันอาจจะกระจัดกระจายและไม่เป็นหมวดหมู่เท่ากับลูกค้าของบริษัทหรือองค์กร อย่างไรก็ตาม ข้อมูลเหล่านั้นก็มีข้อดีมากอย่างหนึ่งก็คือ มันเป็นข้อมูลที่ “ไม่ค่อยลำเอียง” เนื่องจากผู้ที่เขียนหรือส่งข้อมูลเข้าไปนั้นมักจะไม่มีใครรู้ว่าเป็นใคร ดังนั้น พวกเขาสามารถเปิดใจได้เต็มที่ มันมักเป็นความคิดหรือความรู้สึกที่ “ออกมาจากใจ” และไม่ต้องกลัวว่าใครจะ “มองไม่ดี”

ข้อมูล Big Data ที่เกิดขึ้นและเป็น “ข้อมูลสาธารณะ” นี้ เริ่มที่จะกลายเป็นแหล่งที่ใคร ๆ ก็สามารถนำมาใช้วิเคราะห์เพื่อประโยชน์ของตนเองได้โดยไม่ต้องเสียค่าใช้จ่าย สิ่งที่ต้องการก็คือความสามารถในการมองประเด็นและวิเคราะห์ข้อมูลที่แหลมคมเนื่องจากข้อมูลที่มาจากสาธารณะนั้นไม่เหมือนข้อมูลที่มาจากลูกค้าของบริษัทที่เรามักจะรู้ได้อย่างชัดเจนว่าคนที่ให้ข้อมูลนั้นคิดและทำอย่างไรตรงไปตรงมา ตัวอย่างเช่น ลูกค้าในระบบของธนาคารซื้อประกันแบบไหนและเขาใช้จ่ายซื้อสินค้าต่าง ๆ ผ่านบัตรเครดิตของธนาคารเท่าไรและที่ไหนเป็นต้น คนวิเคราะห์แค่หาความสัมพันธ์ต่าง ๆ เพื่อที่จะเสนอขายสินค้าอื่น ๆ อย่างไร แต่ในกรณีข้อมูลสาธารณะ เราจะต้องคิดหนักกว่านั้นมาก

ในอดีต เวลาที่เราจะวิเคราะห์หาว่าความคิดหรือความชอบของคนทั่วไปเป็นอย่างไรนั้น วิธีหลัก ๆ ก็คือ การทำโพลหรือทำ “แบบสอบถาม” กลุ่มคนที่เป็นเป้าหมาย ซึ่งการที่จะไปถามคนที่เป็นเป้าหมายทั้งหมดนั้นก็เป็นไปไม่ได้เพราะจะมีต้นทุนที่สูงมากจนรับไม่ได้ โชคดีที่ว่าโดยหลักทางสถิตินั้น ถ้าเรา “สุ่ม” คนที่เป็นกลุ่มเป้าหมายเป็นอย่างดี คนกลุ่มนี้ก็จะเป็น “ตัวแทน” ของคนทั้งกลุ่มได้ ความผิดพลาดอาจจะมีบ้างแต่ก็อยู่ในระดับที่ไม่มาก เช่น อาจจะผิดพลาดแค่ 5% บวกลบ ทั้ง ๆ ที่สุ่มคนมาแค่ไม่ถึง 0.1% ของคนทั้งหมด ตัวอย่างเช่น การสุ่มคนว่าจะเลือกพรรคไหนหรือเลือกซื้อสินค้าอะไร เป็นต้นและนี่ก็คือศาสตร์ของการทำโพลและการวิจัยทางการตลาดที่โลกทำกันมานานและได้ผลลัพธ์ที่ดีมาตลอดจนถึงเมื่อเร็ว ๆ นี้ที่โลกของการทำโพลหรือทำแบบสอบถามโดยใช้กลุ่มตัวอย่างเพียงน้อยนิดกำลังถูก Disrupt หรือถูกทำลายด้วยโลกดิจิตอลเช่นเดียวกับหลาย ๆ เรื่องหรือหลาย ๆ ธุรกิจในโลกนี้

การทำโพลการเลือกตั้งประธานาธิบดีอเมริกา 2-3 ครั้งหลังนั้นน่าจะเป็นจุดเริ่มที่ทำให้เห็นว่า Big Data กำลังมา Disrupt หรือทำลาย Small Data อย่างการทำโพลแล้ว เพราะเริ่มมีคนไปวิเคราะห์ว่าผู้สมัครคนไหนจะแพ้หรือชนะทั้งประเทศและในแต่ละเขตแต่ละรัฐโดยไม่ต้องไปสอบถามคนให้เสียเวลาและเงินทองจำนวนมาก วิธีที่พวกเขาใช้ก็คือการไปวิเคราะห์ข้อมูลจากกูเกิลว่ามีคนไปค้นหาข่าวสารเกี่ยวกับผู้สมัครคนไหนมากน้อยแค่ไหนและบางทีก็ไปตรวจสอบดูว่าพวกเขาเข้าไปคุยหรือเม้นต์อะไรกัน สิ่งที่พวกเขาต้องทำก็คือต้องคิดว่าคนที่เข้าไปค้นหานั้นน่าจะลงคะแนนให้ใคร เช่น ถ้าค้นหาชื่อโดนัลด์ ทรัมป์ พวกเขาก็น่าจะลงคะแนนให้ทรัมป์ ถ้าหาฮิลลารี คลินตัน ก็น่าจะลงให้คลินตัน ถ้าใส่ทั้งสองชื่อก็อาจจะต้องดูว่าเอาชื่อไหนขึ้นก่อน เพราะการขึ้นชื่อก่อนก็อาจจะแสดงว่าเขาชอบคนนั้นมากกว่า เป็นต้น

นอกจากนั้น พวกเขายังน่าจะต้องวิเคราะห์ดูประเด็นที่คนพูดคุยกันด้วยเพื่อที่จะรู้ว่าไอเดียแบบไหนที่คนเข้าไปดูมากและนั่นเป็นความคิดของผู้สมัครคนไหนเป็นต้น ทั้งหมดนั้นทำให้พวกเขาทำนายแข่งกับบริษัททำโพลระดับ “พระกาฬ” และสามารถทำนายได้ถูกต้องกว่า โดยเฉพาะกรณีของทรัมป์ที่ “หักปากกาเซียน” แต่ไม่ได้หักปากกาคนบางคนที่มีแค่ “สมองกับสองมือ” และวิเคราะห์ด้วย Big Data

ในช่วงก่อนเลือกตั้งของไทยเมื่อเร็ว ๆ นี้ ผมเองได้เข้าไปลองดูเล่น ๆ ในกูเกิลว่าพรรคไหนหรือหัวหน้าพรรคไหนมีคนค้นหาข้อมูลเท่าไร ก็ปรากฏสิ่งที่ทำให้ผม “ประหลาดใจ” ที่พบว่ามันไม่ตรงกับข้อมูลโพลของสำนักต่าง ๆ ในประเทศไทยที่อ้างว่า “ทายแม่น” แต่หลังจากการเลือกตั้งที่ปรากฏว่าสิ่งที่ผมคาดจากกูเกิลนั้นถูกต้องกว่าโพลโดยที่ผมแทบไม่ต้องออกแรงอะไรเลย ผมก็คิดว่าประเทศไทยเองก็คงเหมือนกับอเมริกาแล้วที่กูเกิลกำลังกลายเป็นแหล่งบิกดาต้าที่ยิ่งใหญและทรงพลัง อนาคตเราจะต้องพึ่งพิงสิ่งนี้มากขึ้นเรื่อย ๆ คนที่ทำโพลหรือทำวิจัยการตลาดหรือทำแบบสอบถามเพื่อค้นหาความจริงต่าง ๆ นั้นจะต้องปรับเปลี่ยนตนเองมาศึกษาเรื่องนี้มากขึ้น หมดเวลาของ Small Data แล้ว

เวลาทำเรื่องการตลาดเพื่อที่จะออกผลิตภัณฑ์ใหม่หรือออกประชาสัมพันธ์และการโฆษณาใหม่นั้น ในอดีตเราอาจจะต้องหาคนมาทดสอบหรือเชิญคนกลุ่มเล็ก ๆ มาถามแบบ Focus Group ว่าชอบอะไรแบบไหน ในอนาคตผมก็คิดว่าจะหมดยุคหรืออวสานเพราะมันไม่แม่นเท่ากับการส่งของจริงออกไปผ่านระบบอินเตอร์เน็ตและให้คนทั้งหมดดูว่าชอบแบบไหน เราไม่ต้องถามหรือให้เขากรอกอะไรเลย เราอาจจะแค่วิเคราะห์ว่ามีคนเข้ามาดูแค่ไหนถ้าเรานำเสนอแบบที่หนึ่งและแค่ไหนในแบบที่สอง เราก็น่าจะรู้แล้วว่าเขาชอบแบบไหน ในเรื่องนี้ถ้าเราสังเกตให้ดี เว็บแบบกูเกิลเองก็กำลังใช้อยู่ เพราะหน้าจอของกูเกิลดูเหมือนว่าจะเปลี่ยนไปเรื่อย ๆ เพื่อทดสอบคนดู วิธีการทำแบบนี้ในภาษาของบิกดาต้าเรียกว่า A/B Test ผมคิดว่าในไม่ช้า บริษัทไทยที่ก้าวหน้าในเรื่องเหล่านี้ก็จะต้องเริ่มทำ มันได้ผลและประหยัดกว่าวิธีแบบเดิม ๆ มาก

สุดท้ายที่นักลงทุนโดยเฉพาะแนวที่เน้นการเก็งกำไรอยากจะรู้ก็คือ Big Data จะสามารนำมาใช้เล่นทำกำไรในตลาดหุ้นได้หรือไม่ ตัวอย่างเช่น เข้าไปดูและวิเคราะห์ในเว็บเกี่ยวกับการลงทุนในหุ้นที่นักเล่นหุ้นนิยมกันมาก ดูว่าหุ้นตัวไหนได้รับการกล่าวขวัญหรือคอมเม้นต์กันมากหรือน้อยแค่ไหน จากนั้นก็จะต้องคิดว่าพวกเขามีหุ้นไหมและกำลังคิดหรือกังวลอะไรกันอยู่ และถ้าเป็นแบบนั้นจะเข้ามาซื้อหรือขาย เป็นต้น

ผมเองไม่ได้มีความสามารถหรือรู้จิตวิทยานักลงทุนรายย่อยอะไรนักและก็ไม่แน่ใจว่าจะสามารถใช้บิ๊กดาตาให้เป็นประโยชน์อย่างไร แต่ในตลาดที่พัฒนาแล้วอย่างอเมริกา ดูเหมือนว่าจะมีคนพยายามทำแต่ก็ไม่คิดว่าจะประสบความสำเร็จ เหนือสิ่งอื่นใดก็คือ ตลาดอเมริกานั้น ทุกอย่างไม่เอื้ออำนวยให้กับนักลงทุนรายย่อยที่เก็งกำไรรวมถึงเรื่องของภาษี ในตลาดหุ้นไทย บางทีมันอาจจะทำได้ก็ได้ การทดลองก็ทำได้ไม่ยาก แทบจะไม่ต้องใช้ต้นทุน