Page 699 - NEIC_FINAL REPORT
P. 699

โครงการศึกษาการจัดทําแผนยุทธศาสตร์และออกแบบการพัฒนาศูนย์สารสนเทศ พลังงานแห่งชาติเพื่อรองรับการใช้ข้อมูลขนาดใหญ่ (Big Data) ในการขับเคล่ือน แผนพลังงานของประเทศไทย
รายงานฉบับสมบูรณ์
มีความละเอียดในระดับวัน และ เดือน ซึ่งไม่เหมาะสมกับการประมวลผลแบบ Real-Time หรือ Near Real-Time Processing นอกจากนั้น ข้อมูลที่ให้บริการของสํานักงานและแผนพลังงาน ยังมีความเชื่อมโยง (Relation) ระหว่าง ชุดข้อมูลต่ํามาก ซึ่งทําให้ไม่เหมาะกับการให้บริการแบบ Data Warehouse จึงเป็นสาเหตุว่าทําไมถึงให้บริการ ในแบบ Data Mart แทน
ถึงอย่างไรก็ตาม ระบบต้นแบบสาธิตก็ได้ทําการติดตั้งทั้ง Hadoop Cluster และ Data Warehouse ไว้ให้ใช้ สําหรับการขยายระบบในอนาคตเมื่อมีข้อมูลที่เหมาะสมกับการใช้งานในระบบดังกล่าว
5.4.2 การเตรียมข้อมูล (Data Understanding and Preparation)
สําหรับข้อมูลที่ใช้ในการจัดทําต้นแบบสาธิต จะประกอบไปด้วยข้อมูลสองชุดคือ ข้อมูลภายในของ สํานักงานนโยบายและแผนพลังงานเอง ซึ่งเป็นข้อมูลแบบมีโครงสร้าง (Structured Data) และข้อมูลภายนอก ซึ่ง เป็นข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) โดยในส่วนของข้อมูลภายใน ที่ปรึกษาได้เข้าไปทําการสํารวจ และจัดทํา Data Catalogue และ ERD ของข้อมูลทั้งหมด ดังแสดงไว้ในบทท่ี 5.3 และภาคผนวก ซึ่งจากการสํารวจ ข้อมูล ที่ปรึกษาพบว่าต้องมีการปรับปรุงคุณภาพของข้อมูลก่อนนําไปใช้ จึงเลือกใช้กระบวนการ ETL (Extract- Transformation-Load) เพื่อทําการดึงข้อมูลจากฐานข้อมูลหลักของสํานักงานนโยบายและแผนพลังงานมาทําการ ประมวลผลเพื่อปรับปรุงคุณภาพข้อมูล ก่อนจะนําไปเก็บไว้ใน Data Mart เพื่อให้บริการต่อไป สําหรับข้อมูล ภายนอก เนื่องจากเป็นข้อมูลแบบไม่มีโครงสร้าง เช่น เป็นข้อมูลจาก API ภายนอก หรือเป็นการกวาดข้อมูล (Scraping) จากเว็บไซต์ ที่ปรึกษาจึงจําเป็นต้องทําระบบ Web Scraping สําหรับแต่ละเว็บไซต์ หรือ API ที่ต้องการ ดึงข้อมูลมาใช้ แล้วทําการประมวลผลก่อนนําไปวางไว้ที่ Data Mart เช่นเดียวกัน
5.4-2
 Final Report
รายงานฉบับสมบูรณ์
5 - 95

























































































   697   698   699   700   701