Page 682 - NEIC_FINAL REPORT
P. 682

 5 - 78
โครงการศึกษาการจัดทําแผนยุทธศาสตร์และออกแบบการพัฒนาศูนย์
สารสนเทศพลังงานแห่งชาติเพ่ือรองรับการใช้ข้อมูลขนาดใหญ่ (Big Data)
ในการขับเคลื่อนแผนพลังงานของประเทศไทย รายงานฉบับสมบูรณ์
5.3.4.3 กระบวนการในการทวนสอบและการทําความสะอาดข้อมูลสําหรับข้อมูลเข้า Data Lake
การออกแบบกระบวนการทวนสอบและการทําความสะอาดข้อมูลสําหรับข้อมูลเข้า Data Lake สามารถ เขียนเป็นขั้นตอนได้ ดังนี้
1. ตรวจสอบข้อมูลในTransientZoneว่ามีการIngestข้อมูลเข้ามาภายในวันที่1ของเดือนแล้วหรือไม่ หากยังไม่ได้รับข้อมูลจะมีระบบแจ้งเตือนครั้งที่ 1 เพื่อให้พนักงานที่เกี่ยวข้องได้ติดตามไปยังแหล่งข้อมูล
- ในกรณีท่ีได้รับข้อมูลภายในวันที่ 1 ของเดือนแล้ว ให้ข้ามไปข้อ 7
- ในกรณีที่ยังไม่ได้รับข้อมูลภายในวันที่ 1 ของเดือน ให้ไปข้อ 2
2. ในกรณีที่ยังไม่ได้รับข้อมูลภายในวันท่ี1ของเดือนพนักงานจะต้องติดตามสอบถามไปยังแหล่งข้อมูล
คร้ังที่ 1
3. ตรวจสอบข้อมูลในTransientZoneว่ามีการIngestข้อมูลเข้ามาภายในวันที่8ของเดือนแล้วหรือไม่
หากยังไม่ได้รับข้อมูลจะมีระบบแจ้งเตือนครั้งที่ 2 เพื่อให้พนักงานที่เกี่ยวข้องได้ติดตามไปยังแหล่งข้อมูล อีกครั้ง
- ในกรณีที่ได้รับข้อมูลภายในวันที่ 8 ของเดือนแล้ว ให้ข้ามไปข้อ 7
- ในกรณีที่ยังไม่ได้รับข้อมูลภายในวันที่ 8 ของเดือน ให้ไปข้อ 4
4. ในกรณีที่ยังไม่ได้รับข้อมูลภายในวันที่8ของเดือนพนักงานจะต้องติดตามสอบถามไปยังแหล่งข้อมูล
คร้ังที่ 2
5. ตรวจสอบข้อมูลในTransientZoneว่ามีการIngestข้อมูลเข้ามาภายในวันท่ี10ของเดือนแล้วหรือไม่
- ในกรณีที่ได้รับข้อมูลภายในวันที่ 10 ของเดือนแล้ว ให้ข้ามไปข้อ 7
- ในกรณีท่ียังไม่ได้รับข้อมูลภายในวันที่ 10 ของเดือน ให้ไปข้อ 6
6. ในกรณีที่ยังไม่ได้รับข้อมูลภายในวันที่10ของเดือนจะต้องใช้ข้อมูลในอดีตในการประมาณการ
เพื่อเตรียมข้อมูลสําหรับรายงานในวันที่ 12 ของเดือน ซึ่งค่าที่ได้จากการประมาณการจะถูกจัดเก็บใน Raw Zone สําหรับรายละเอียดวิธีการ ผู้รับผิดชอบ วันและเวลาที่ประมาณการ จะต้องระบุใน Metadata ในส่วน Data Quality ให้เรียบร้อย (QA5 ความสามารถในการตรวจสอบได้ (Auditability)) และข้ามไป ข้อ 10 สําหรับรายละเอียดขั้นตอนการประมาณการจะได้กล่าวถึงต่อไปในหัวข้อ 5.3.4.4
7. ในกรณีที่ได้รับข้อมูลแล้วให้ตรวจสอบข้อมูลเบื้องต้นและความผิดปกติของข้อมูลโดยตรวจสอบประเด็น ต่าง ๆ ดังนี้
- QA1 ความครบถ้วนของข้อมูล (Completeness) ตรวจสอบว่าข้อมูลที่ได้รับมีความครบถ้วนหรือไม่
5.3-47
Strategic Design and Development Study of the National Energy Information Center to Support National Energy Plan โครงการศึกษาการจัดทําาแผนยุทธศาสตร์และออกแบบการพัฒนาศูนย์สารสนเทศพลังงานแห่งชาติ เพื่อรองรับการใช้ข้อมูลขนาดใหญ่ (Big Data) ในการขับเคล่ือนแผนพลังงานของประเทศไทย









































































   680   681   682   683   684