Page 558 - NEIC_FINAL REPORT
P. 558
4 - 30
4.3.4.3 แนำวปัฏิบิ ตั ที่ิ ด้่ ที่่ ส่ ดุ้ (BestPractice)สาํา หรบั กระบวนำจด้ั การการไหลข้องข้อ้ มลู สาํา หรบั ข้อ้ มลู ข้นำาด้ใหญ่(BigData)
สำําาหัรับการจัดการข้้อมููลข้นาดใหัญ่ (Big Data) ทั้างทั้ป็้ รึกษานําาเสำนอแนวป็ฏิิบัติทั้้ด้ทั้้สำุด (Best Practice) สำําาหัรับ การจัดการการไหัลข้องข้้อมููล ใหั้สำอดคล้องกับกรอบธรรมูาภิบาลข้้อมููล ซึ่ึงความูหัมูายข้องธรรมูาภิบาลข้้อมููลค้อการกําากับดูแล ข้อ้ มูลู ซึ่งึ ครอบคลมูุ ถงึ กระบวนการ บคุ ลากร และเทั้คโนโลย้ ทั้จ้ ําาเป็น็ ในการจดั การและป็กป็อ้ งข้อ้ มูลู ทั้เ้ ป็น็ สำนิ ทั้รพัั ยข้์ ององคก์ ร เพั้อรับป็ระกันวาข้้อมููลนันมู้ความูถูกต้อง มู้ความูสำมูบูรณ์ ป็ลอดภัย เช้้อถ้อได้ และค้นหัาได้งาย โดยมู้เป็้าหัมูายทั้้สำําาคัญ่ ค้อ เพัอ้ ลดความูผดิ พัลาดทั้จ้ ะเกดิ ข้นึ ทั้งั ทั้ต้ งั ใจหัรอ้ ไมูต งั ใจ โดยกระบวนการจดั ทั้ําาการไหัลข้องข้อ้ มูลู จะใช้แ้ นวป็ฏิบิ ตั ทั้ิ ด้ ทั้้ สำ้ ดุ ข้องการ ทั้ําา Data Management สำําาหัรับการไหัลข้องข้้อมููล (รูป็ทั้้ 4.3-3 และ รป็ู ทั้้ 4.3-7) ซึ่ึงเป็็นสำวนสำําาคัญ่ในการจัดทั้าํา ธรรมูาภิบาล ข้้อมููลตอไป็ และเพัอ้ จัดทั้ําาและออกแบบผังการไหัลใหั้เป็็นมูาตรฐานเดย้ วกันภายในศึูนย์ฯ และ สำนพั.
แนำวที่างปัฏิบิ ัติที่ด้่ ่ที่่สุด้ม่ส่วนำปัระกอบและข้ั้นำตอนำด้ังต่อไปันำ่้
1. COLLECT: ระบุแหัลงข้้อมููลข้นาดใหัญ่ทั้้ต้องการใช้้ (Access and Explore Data)
- เล้อกแหัลงข้้อมููลทั้้เหัมูาะสำมูทั้้สำุดกับป็ระเภทั้ข้้อมููลโดยอาจมู้แหัลงข้้อมููลทั้้ใหั้ข้้อมููล ป็ระเภทั้เด้ยวกัน
หัลายแหัลง สำามูารถนําาแหัลงข้้อมููลเด้ยวกันมูาจากหัลายแหัลงเพั้อทั้ดสำอบ ความูถูกต้องข้องข้้อมููลในข้นั ตอนตอ ไป็
- เลอ้ กแหัลงข้้อมููลทั้้สำงได้ตามูวันเวลาทั้้กําาหันดเป็็นป็ระจําา (Timeliness)
- ระบป็ุ ระเภทั้ข้้อมููล ตัวอยา งเช้น
• Repositories – SQL, noSQL, etc.
• Fie IO – text, spreadsheet, PDF, etc.
• Web sources – APIs, web scrape, RESTful, JSON, XML, email etc.
• Real-time sources – RPA, sensors, smart meter, GPS, etc.
- การรวมูข้้อมููลและจัดกลมูุ ป็ระเภทั้เด้ยวกันเข้้าด้วยกัน (Aggregate) จากข้้อมููลหัลายๆ รูป็แบบ เช้น web, images, text, video, และอ้น ๆ.
2. GOVERN: จัดการข้้อมููลเบ้องต้น (Preprocess Data)
- การทั้ําาความูสำะอาดข้อ้ มูลู (DataCleansing)เช้น ป็รบั รป็ู แบบใหัสำ้ อดคลอ้ งกนั เป็น็ มูาตรฐานเดย้ วกนั ในแตล ะ
Field ทั้้ใช้้งาน
- การเลอ้ กข้้อมููลทั้้ใช้้ (Identifying Specific/Subset Data) การป็รับป็ระเภทั้ข้้อมููล (Transformation) เช้น
การป็รับ Spreadsheet หัร้อ PDF ใหั้เป็็น text เป็็นต้น การยอ ข้นาดไฟล์
- การจัดการตรวจสำอบคุณภาพัข้้อมููล (Data Quality Check) ซึ่ึงกระบวนการน้ จะจัดการ Faulty Data,
Outliers, Missing data และ Redundant Data สำําาหัรับข้้อมููลทั้้ต้องการใช้้แตยังไมูมู้ข้้อมููล อาจจะต้องใช้ว้ ิธ้การป็ระมูาณการ ข้้อมููลไป็กอ น เพั้อใช้้สำําาหัรับการวิเคราะหั์เบ้องต้น เช้น ราคานาํา มูันดิบ เป็็นต้น
- จดั ระบบการนําาข้อ้ มูลู เข้า้ แหัลง จดั เกบ็ ข้อ้ มูลู ข้นาดใหัญ่ใ น Repositories เช้น Relational Database, noSQL Database, File หัร้อ Data Lake เป็็นต้น
3. TRANSFORM: สำร้างแบบจําาลองสำําาหัรับการวิเคราะหั์ (Develop Model)
- การจัดทั้าํา Metadata, Data Glossary และ Data Catalog
- เช้้อมูโยงช้นิดข้้อมููลข้นาดใหัญ่ (Big Data) กับช้นิดข้้อมููลทั้้ใช้้ทั้ําางานในป็ัจจบุ ัน
- สำร้างแบบจําาลองเพั้อการอธิบาย (Descriptive) ทั้ําานาย (Predictive) และการตัดสำินใจ (Deciding) สำําาหัรับ
การวิเคราะหั์ข้้อมููลข้ันสำูง (อาจจะมูก้ ารนําาเทั้คโนโลย้ Machine Learning มูาช้วยเพัิมูป็ระสำิทั้ธิภาพัในการวิเคราะหั์ข้้อมููล)
4. SHARE: เช้อ้ มูโยงข้อ้ มูลู เข้า้ กบั เครอ้ งมูอ้ การวเิ คราะหัแ์ ละการแบง ป็นั ข้อ้ มูลู (Share and Integrate with Systems)
- นําาข้อ้ มูลู เข้า้ (Import) เพัอ้ เช้อ้ มูโยงกบั เครอ้ งมูอ้ ทั้ใ้ ช้ใ้ นการแสำดงผล (Visualization) เช้น PowerBI, Tableau,
RapidMiner และเคร้องมู้ออ้น ๆ
Strategic Design and Development Study of the National Energy Information Center to Support National Energy Plan โครงการศึกษาการจัดทําาแผนยุทธศาสตร์และออกแบบการพัฒนาศูนย์สารสนเทศพลังงานแห่งชาติ เพื่อรองรับการใช้ข้อมูลขนาดใหญ่ (Big Data) ในการขับเคล่ือนแผนพลังงานของประเทศไทย