Page 635 - NEIC_FINAL REPORT
P. 635
โครงการศึกษาการจัดทําแผนยุทธศาสตร์และออกแบบการพัฒนาศูนย์สารสนเทศ พลังงานแห่งชาติเพื่อรองรับการใช้ข้อมูลขนาดใหญ่ (Big Data) ในการขับเคล่ือน แผนพลังงานของประเทศไทย
รายงานฉบับสมบูรณ์
ในขั้นตอนการนําข้อมูลไปใส่ไว้ใน HDFS จะเก็บข้อมูลในรูปของ Daily Snapshot หรือข้อมูล รายวันแบบไปข้างหน้า (Incremental Data Set) เพื่อให้ม่ันใจว่าจะสามารถตรวจสอบการเปล่ียนแปลง ข้อมูลย้อนหลังได้เสมอ สาเหตุที่ใช้ HDFS ในการเก็บข้อมูล ก็เนื่องจากเป็นรูปแบบการเก็บข้อมูล (Data Storage) ท่ีเหมาะสมกับการประมวลผลโดยใช้ Big Data
2. Big Data Management Platform เป็นระบบที่ใช้จัดบริหารข้อมูลขนาดใหญ่ โดยจะทํางานร่วมกัน หรือทับซ้อนกันกับ Data Acquisition เช่น การนําข้อมูลเข้าจะทําผ่านเครื่องมือ Data Acquisition แต่ Big Data Management Platform จะทําหน้าที่สะสมข้อมูล (Data Archival) ขาเข้าทั้งหมด ในรูปของ Data Lake ไม่ว่าข้อมูลขาเข้าจะเป็นข้อมูลในลักษณะของแฟ้มข้อมูล แฟ้มรูปภาพ แฟ้มภาพเคลื่อนไหว ข้อมูลจากฐานข้อมูล หรือ ข้อมูลจาก API ภายนอกก็ตาม แล้วจึงใช้ขบวนการ ETL หรือการทํา Data Staging เพื่อแปลงข้อมูลให้อยู่ในรูปที่สามารถใช้ในการวิเคราะห์ต่อได้ ดังท่ีได้กล่าวไปในหัวข้อที่ผ่านมา และเมื่อแปลงข้อมูลให้อยู่ในรูปท่ีเหมาะสมแล้ว ก็จะทําการเก็บข้อมูล ทั้งหมดไว้ใน HDFS เพื่อรอการประมวลผลเพื่อทําการวิเคราะห์ข้อมูลด้วยระบบ Big Data ต่อไป โดยในส่วนของการประมวลผล Big Data อาจจะใช้การประมวลผลทั้งที่เป็น On-Premise เช่น การใช้ Cloudera Hadoop Cluster ที่ติดตั้งในศูนย์ข้อมูลเอง หรือการส่งไปประมวลผลบน Cloud แต่ก็มี เป้าหมายว่าต้องสามารถประมวลผลได้ในระยะเวลาที่ยอมรับได้ (On-Time Processing) หรือใกล้เคียง กับเวลาจริง (Near-Real-Time Processing)
เมื่อระบบ Big Data ทําการประมวลผลเรียบร้อยแล้วจะทําการเก็บข้อมูลที่ประมวลผลได้ ซ่ึงส่วนใหญ่จะอยู่ในรูปของตารางข้อเท็จจริง (Fact Table) ไปเก็บไว้ใน Data Warehouse ของศูนย์ฯ เพื่อให้เป็นที่เข้าถึงข้อมูลเดียว (Single Point of Data Access) โดยจะมีการจัดทําชุดคลังข้อมูลย่อย ๆ ตามการทํางานในลักษณะของ Data Mart อีกด้วย กล่าวคือ Data Warehouse เป็นมุมมอง การเก็บข้อมูลของระบบที่มีการเก็บข้อมูลเป็นระบบ สามารถสืบค้นได้ง่ายและมีประสิทธิภาพ ในขณะที่ Data Mart จะเป็นมุมมองของผู้ใช้ ที่สามารถเข้ามาเลือกใช้ข้อมูลต่าง ๆ ได้ตามต้องการ โดยจะมีคําอธิบาย (Labeling) และข้อมูลอภิพันธุ์ (Metadata) เพื่อให้การนําเอาข้อมูลไปใช้ ได้อย่างมีประสิทธิภาพ
3. Data Analytic Platform เป็นระบบที่ผู้ใช้จะใช้ในการเข้าถึงข้อมูลเพื่อนําไปแสดงผล (Visualization) ทํารายงาน (Reporting) หรือวิเคราะห์เชิงลึก (Deep Analytics) ต่อไป โดยจะประกอบไปด้วย กระบวนการ เช่น 1) Data Preparation หรือการเตรียมข้อมูลให้เหมาะสมกับการใช้งาน โดยอาจจะใช้
เครื่องมือ เช่น Tableau Prep Builder หรือ Microsoft Power Query เป็นต้น 2) Data Analytics/ 5.2-9
5 - 31
Final Report
รายงานฉบับสมบูรณ์