Page 268 - Journal451
P. 268

วารสารราชบััณฑิิตยสภา
                                        ปีีที่่� ๔๕ ฉบัับัที่่� ๑ มกราคม-เมษายน ๒๕๖๓
           256                                                 ข้้อมููลข้นาดใหญ่่ : เทคโนโลยีีและการใช้้ประโยีช้น์


                      ๒)  นี้ักวิทยีาศาสต่ร์ข้อมูล (data scientist) ค้อ บุคคลท้�ชื่่วยีในี้การวิเคราะห้์ข้อมูล

           (data analysis) และสร้างโมเด้ลของข้อมูล ควรม้ความรู้ด้้านี้คณิต่ศาสต่ร์และม้ความรู้ในี้การใชื่้

           โป็รแกรมห้ร้อเคร้�องม้อ (tool) ต่่าง ๆ ในี้การวิเคราะห้์ เชื่่นี้ ภูาษัาคอมพัิวเต่อร์สำาห้รับการคำานี้วณเชื่ิง
           สถึิต่ิ (ภูาษัา R) และภูาษัาไพัทอนี้ (Python) ซึ่ึ�งเป็็นี้ภูาษัาคอมพัิวเต่อร์ชื่ั�นี้สูงท้�ถึูกออกแบบให้้เข้ยีนี้
           อ่านี้ได้้ง่ายี ม้คลังโป็รแกรม (library) ท้�ชื่่วยีให้้ชื่้วิต่แก่การวิเคราะห้์ข้อมูลห้ร้อทำาเป็็นี้โมเด้ลต่่าง ๆ

           อยีู่แล้ว

                      ๓)  การวิเคราะห้์ข้อมูลขนี้าด้ให้ญ่่ ค้อ กระบวนี้การวิเคราะห้์เซึ่ต่ของข้อมูลขนี้าด้ให้ญ่่
           เพั้�อค้นี้ห้ารูป็แบบความสัมพัันี้ธิ์ความเชื่้�อมโยีงของข้อมูลท้�ซึ่่อนี้อยีู่ข้างในี้
                      ๔)  ผู้เชื่้�ยีวชื่าญ่ในี้สาขาวิชื่านี้ั�นี้ ๆ ซึ่ึ�งม้ความสำาคัญ่เพัราะอยีู่ในี้สาขาท้�ต่้องการวิเคราะห้์

           โด้ยีต่รง ผู้เชื่้�ยีวชื่าญ่นี้้�จิะทำาให้้ทิศทางการห้าคำาต่อบต่รงป็ระเด้็นี้ท้�ต่้องการได้้

                      การม้โครงสร้างพั้�นี้ฐานี้ขนี้าด้ให้ญ่่อาจิเห้มาะสมสำาห้รับองค์กรขนี้าด้ให้ญ่่ท้�ต่้องม้
           กิจิกรรมการวิเคราะห้์และใชื่้ป็ระโยีชื่นี้์ของข้อมูลขนี้าด้ให้ญ่่เพั้�อใชื่้โครงสร้างพั้�นี้ฐานี้อยี่างคุ้มค่า องค์กร
           ขนี้าด้เล็กท้�ม้การวิเคราะห้์เป็็นี้ครั�งคราวอาจิไม่ม้ความจิำาเป็็นี้และไม่คุ้มค่าท้�จิะต่ิด้ต่ั�งอุป็กรณ์พั้�นี้ฐานี้

           สำาห้รับข้อมูลขนี้าด้ให้ญ่่นี้้� องค์กรขนี้าด้เล็กอาจิใชื่้บริการของเทคโนี้โลยี้การคอมพัิวเต่อร์คลาวด้์ท้�จิะ

           กล่าวถึึงในี้ห้ัวข้อต่่อไป็

                    ๒. การวัิเคราะห์ข้้อมููลข้นาดใหญ่่

                      ต่ามห้ัวข้อ ๑ ระบบนี้ิเวศ (ecosystem) (9experttraining, 2020)  ของการวิเคราะห้์
           ข้อมูลขนี้าด้ให้ญ่่โด้ยีทั�วไป็อาจิป็ระกอบด้้วยี  ส่วนี้สำาคัญ่ ๓ ส่วนี้  ด้ังนี้้�

                      ๒.๑  ระบบการเก็บข้้อมููล เนี้้�องจิากข้อมูลขนี้าด้ให้ญ่่ม้ห้ลากห้ลายีรูป็แบบ ไม่ได้้เป็็นี้
           รูป็แบบเด้้ยีวกันี้ทั�งห้มด้ และเป็็นี้ข้อมูลท้�ม้ป็ริมาณมาก จิึงต่้องแยีกยี่อยีก่อนี้การป็ระมวลผล โด้ยีจิัด้

           แบ่งออกเป็็นี้ ๓ ลักษัณะ ค้อ (๑) การจิัด้แยีกกระจิายีข้อมูล (distributed data) โด้ยีแยีกและกระจิายี
           การจิัด้เก็บข้อมูลออกเป็็นี้ห้ลายีกลุ่มยี่อยีห้ร้อห้ลายีโนี้ด้ (nodes)  (๒) กระบวนี้การทำางานี้ในี้แต่่ละโนี้ด้

           จิะอยีู่ในี้ลักษัณะเกาะกันี้เป็็นี้กลุ่มการคำานี้วณ (cluster computing) ซึ่ึ�งอยีู่ภูายีใต่้กลุ่ม (cluster)
           ซึ่อฟต่์แวร์ท้�เชื่้�อมแต่่ละโนี้ด้เข้าด้้วยีกันี้ เสม้อนี้กับว่าทำางานี้อยีู่ในี้เคร้�องห้ร้อเป็็นี้ระบบเด้้ยีวกันี้ และ

           (๓) การป็ระมวลผลขนี้านี้ขนี้าด้ให้ญ่่ (massive parallel processing) ระบบการป็ระมวลผลภูายีในี้
           กลุ่มสามารถึทำางานี้แบบขนี้านี้กันี้ได้้ ม้คอมพัิวเต่อร์ขนี้าด้เล็กจิำานี้วนี้มากชื่่วยีคำานี้วณขนี้านี้กันี้ไป็

           ทำาให้้ทำางานี้ได้้อยี่างรวด้เร็วอยี่างมาก
   263   264   265   266   267   268   269   270   271   272   273