Page 268 - Journal451
P. 268
วารสารราชบััณฑิิตยสภา
ปีีที่่� ๔๕ ฉบัับัที่่� ๑ มกราคม-เมษายน ๒๕๖๓
256 ข้้อมููลข้นาดใหญ่่ : เทคโนโลยีีและการใช้้ประโยีช้น์
๒) นี้ักวิทยีาศาสต่ร์ข้อมูล (data scientist) ค้อ บุคคลท้�ชื่่วยีในี้การวิเคราะห้์ข้อมูล
(data analysis) และสร้างโมเด้ลของข้อมูล ควรม้ความรู้ด้้านี้คณิต่ศาสต่ร์และม้ความรู้ในี้การใชื่้
โป็รแกรมห้ร้อเคร้�องม้อ (tool) ต่่าง ๆ ในี้การวิเคราะห้์ เชื่่นี้ ภูาษัาคอมพัิวเต่อร์สำาห้รับการคำานี้วณเชื่ิง
สถึิต่ิ (ภูาษัา R) และภูาษัาไพัทอนี้ (Python) ซึ่ึ�งเป็็นี้ภูาษัาคอมพัิวเต่อร์ชื่ั�นี้สูงท้�ถึูกออกแบบให้้เข้ยีนี้
อ่านี้ได้้ง่ายี ม้คลังโป็รแกรม (library) ท้�ชื่่วยีให้้ชื่้วิต่แก่การวิเคราะห้์ข้อมูลห้ร้อทำาเป็็นี้โมเด้ลต่่าง ๆ
อยีู่แล้ว
๓) การวิเคราะห้์ข้อมูลขนี้าด้ให้ญ่่ ค้อ กระบวนี้การวิเคราะห้์เซึ่ต่ของข้อมูลขนี้าด้ให้ญ่่
เพั้�อค้นี้ห้ารูป็แบบความสัมพัันี้ธิ์ความเชื่้�อมโยีงของข้อมูลท้�ซึ่่อนี้อยีู่ข้างในี้
๔) ผู้เชื่้�ยีวชื่าญ่ในี้สาขาวิชื่านี้ั�นี้ ๆ ซึ่ึ�งม้ความสำาคัญ่เพัราะอยีู่ในี้สาขาท้�ต่้องการวิเคราะห้์
โด้ยีต่รง ผู้เชื่้�ยีวชื่าญ่นี้้�จิะทำาให้้ทิศทางการห้าคำาต่อบต่รงป็ระเด้็นี้ท้�ต่้องการได้้
การม้โครงสร้างพั้�นี้ฐานี้ขนี้าด้ให้ญ่่อาจิเห้มาะสมสำาห้รับองค์กรขนี้าด้ให้ญ่่ท้�ต่้องม้
กิจิกรรมการวิเคราะห้์และใชื่้ป็ระโยีชื่นี้์ของข้อมูลขนี้าด้ให้ญ่่เพั้�อใชื่้โครงสร้างพั้�นี้ฐานี้อยี่างคุ้มค่า องค์กร
ขนี้าด้เล็กท้�ม้การวิเคราะห้์เป็็นี้ครั�งคราวอาจิไม่ม้ความจิำาเป็็นี้และไม่คุ้มค่าท้�จิะต่ิด้ต่ั�งอุป็กรณ์พั้�นี้ฐานี้
สำาห้รับข้อมูลขนี้าด้ให้ญ่่นี้้� องค์กรขนี้าด้เล็กอาจิใชื่้บริการของเทคโนี้โลยี้การคอมพัิวเต่อร์คลาวด้์ท้�จิะ
กล่าวถึึงในี้ห้ัวข้อต่่อไป็
๒. การวัิเคราะห์ข้้อมููลข้นาดใหญ่่
ต่ามห้ัวข้อ ๑ ระบบนี้ิเวศ (ecosystem) (9experttraining, 2020) ของการวิเคราะห้์
ข้อมูลขนี้าด้ให้ญ่่โด้ยีทั�วไป็อาจิป็ระกอบด้้วยี ส่วนี้สำาคัญ่ ๓ ส่วนี้ ด้ังนี้้�
๒.๑ ระบบการเก็บข้้อมููล เนี้้�องจิากข้อมูลขนี้าด้ให้ญ่่ม้ห้ลากห้ลายีรูป็แบบ ไม่ได้้เป็็นี้
รูป็แบบเด้้ยีวกันี้ทั�งห้มด้ และเป็็นี้ข้อมูลท้�ม้ป็ริมาณมาก จิึงต่้องแยีกยี่อยีก่อนี้การป็ระมวลผล โด้ยีจิัด้
แบ่งออกเป็็นี้ ๓ ลักษัณะ ค้อ (๑) การจิัด้แยีกกระจิายีข้อมูล (distributed data) โด้ยีแยีกและกระจิายี
การจิัด้เก็บข้อมูลออกเป็็นี้ห้ลายีกลุ่มยี่อยีห้ร้อห้ลายีโนี้ด้ (nodes) (๒) กระบวนี้การทำางานี้ในี้แต่่ละโนี้ด้
จิะอยีู่ในี้ลักษัณะเกาะกันี้เป็็นี้กลุ่มการคำานี้วณ (cluster computing) ซึ่ึ�งอยีู่ภูายีใต่้กลุ่ม (cluster)
ซึ่อฟต่์แวร์ท้�เชื่้�อมแต่่ละโนี้ด้เข้าด้้วยีกันี้ เสม้อนี้กับว่าทำางานี้อยีู่ในี้เคร้�องห้ร้อเป็็นี้ระบบเด้้ยีวกันี้ และ
(๓) การป็ระมวลผลขนี้านี้ขนี้าด้ให้ญ่่ (massive parallel processing) ระบบการป็ระมวลผลภูายีในี้
กลุ่มสามารถึทำางานี้แบบขนี้านี้กันี้ได้้ ม้คอมพัิวเต่อร์ขนี้าด้เล็กจิำานี้วนี้มากชื่่วยีคำานี้วณขนี้านี้กันี้ไป็
ทำาให้้ทำางานี้ได้้อยี่างรวด้เร็วอยี่างมาก