NEIC_FINAL REPORT

Page 705 - NEIC_FINAL REPORT

P. 705

โครงการศึกษาการจัดทําแผนยุทธศาสตร์และออกแบบการพัฒนาศูนย์สารสนเทศ พลังงานแห่งชาติเพื่อรองรับการใช้ข้อมูลขนาดใหญ่ (Big Data) ในการขับเคลื่อน แผนพลังงานของประเทศไทย
รายงานฉบับสมบูรณ์
ยังต้องทําการเชื่อมข้อมูลชื่อบริษัทจากฐานข้อมูลช่ือบริษัท เพื่อให้สามารถแสดงชื่อบริษัทได้ทันที โดยไม่ต้องใช้รหัส สําหรับกระบวนการทั้งหมดนี้ เป็นกระบวนการที่ต้องออกแบบให้สอดคล้องกับความต้องการทางธุรกิจ และ แนวทางในการวิเคราะห์ข้อมูลที่ต้องการ
เมื่อกระบวนการ ETL ทําการประมวลผลข้อมูลเบื้องต้นให้อยู่ในรูปแบบที่เหมาะสมกับการวิเคราะห์แล้ว ก็จะทําการส่งต่อข้อมูลทั้งหมดไปยังระบบประมวลผลข้อมูลขนาดใหญ่ ซึ่งในระบบต้นแบบสาธิตนี้ จะใช้ระบบ ประมวลผลข้อมูลขนาดใหญ่ของบริษัท Cloudera ซึ่งเป็นระบบประมวลผลแบบ Hadoop Cluster ที่มีจํานวน เครื่องประมวลผลรวม 3 เครื่อง โดยการประมวลผลแบบ Hadoop Cluster จะเป็นการประมวลผลแบบ Distributed Batch Processing กล่าวคือ จะเป็นนําคอมพิวเตอร์หลายเครื่องมาช่วยกันประมวลผล โดยจะทําการ อ่านข้อมูลจากระบบ File System เข้าเป็น Batch ตามเวลาท่ีกําหนดไว้ เพื่อประมวลผลตามรูปแบบที่กําหนดไว้ ซึ่ง การส่งข้อมูลจากส่วน Data Staging มายังระบบประมวลผลขนาดใหญ่ จะทําผ่านระบบ Hadoop File System (HDFS) ซึ่งเป็นระบบแฟ้มข้อมูลที่เหมาะสมกับการจัดเก็บข้อมูลขนาดใหญ่ ซึ่งอาจจะต้องเก็บข้อมูลบนเครื่อง ให้บริการหลายเครื่อง เนื่องจากพื้นที่เก็บข้อมูลของเครื่องให้บริการแต่ละเครื่อง ไม่สามารถเก็บข้อมูลทั้งหมดได้ และยังต้องสามารถนําข้อมูลไปประมวลผลข้ามเครื่องให้บริการได้อย่างมีประสิทธิภาพ ซ่ึงข้อมูลที่เก็บไว้ใน HDFS น่ี จะเก็บเป็นข้อมูลรายวันย้อนหลังแบบเพิ่มข้อมูล (Incremental Daily Snapshot) เพื่อเป็นการบันทึกการเปลี่ยนแปลง ของข้อมูลทั้งหมด เพ่ือให้เจ้าหน้าที่สามารถตรวจสอบย้อนหลังได้ว่ามีการเปลี่ยนแปลงข้อมูลหรือไม่ เมื่อใด
เมื่อข้อมูลถูกนํามาวางไว้ที่ HDFS แล้ว ระบบ Hadoop Cluster ซึ่งเป็นระบบประมวลผลข้อมูลขนาดใหญ่ จะทําการวิเคราะห์ข้อมูลตามรูปแบบที่กําหนดไว้ เช่น การหาความสัมพันธ์ของข้อมูลต่าง ๆ (Relationship) การหา ข้อมูล ท่ีมีนัยะสําคัญ (Significant Data) การวิเคราะห์ความรู้สึกร่วม (Sentiment Analysis) ซ่ึงการวิเคราะห์ข้อมูลเหล่านี้ อาจจะทําได้บนระบบคอมพิวเตอร์ปกติ แต่ก็มีข้อจํากัดมาก เช่น ใช้เวลาประมวลผลนานเกินไป จนข้อมูลไม่พร้อม ใช้งาน เพื่อผู้ใช้ต้องการใช้งาน หรือ ขนาดของข้อมูลที่ประมวลผลได้ ต้องไม่เกินขนาดของเคร่ืองคอมพิวเตอร์ที่ใช้ใน การประมวลผลได้ ซ่ึง Hadoop Cluster บนระบบต้นแบบสาธิต ไม่มีข้อจํากัดเหล่านี้ นอกจากนี้ ถ้าข้อมูลมีขนาด ใหญ่ขึ้น ก็สามารถเพิ่มจํานวนเครื่องให้บริการใน Hadoop Cluster (Scale Out) ได้อีก โดยแทบไม่มีข้อจํากัดใน จํานวนเคร่ืองท่ีใช้ได้
5.4-8
Final Report
รายงานฉบับสมบูรณ์
5 - 101

703 704 705 706 707