Page 579 - NEIC_FINAL REPORT
P. 579
ในแตละข้นั ตอนข้องระยะทั้้ 3 ทั้้ป็รึกษาสำรุป็การทั้ําางานและป็ระเด็นเพัิมูเติมูดังน้ 1. Identifying
a. ระบบงานำในำระยะที่่ 3
i. เพัมูิ แหัลง ข้อ้ มูลู ทั้เ้ ป็น็ ลกั ษณะแบบ Near Real-time เช้น ข้อ้ มูลู จาก Smart Meter, RPA หัรอ้ จาก Sensors ตาง ๆ โดยมู้กําาหันดช้วงเวลา Interval ในการรับข้้อมููลช้ัดเจนเช้น ทัุ้ก ๆ 15 นาทั้้ เป็็นต้น
ii. การรับข้้อมููลทัุ้กช้นิดจากแตละ Data Source ใหั้จัดทั้ําาผานช้องทั้าง APIs ในลักษณะรูป็แบบข้้อมููลทั้้เป็็น JavaScriptObjectNotation(JSON)หัรอ้ ExtensibleMarkupLanguage(XML)ผานเทั้คโนโลย้RESTfulService โดยมู้การทั้ําา APIs Versioning รวมูด้วย ซึ่ึงการรับข้้อมููลแบบ JSON หัร้อ XML เป็็นรูป็แบบการแลกเป็ล้ยนข้้อมููล ในระบบ คอมูพัิวเตอร์ทั้้เป็็นมูาตรฐานสำากลและใช้้กับอยางแพัรหัลายในป็ัจจบุ ัน ซึ่ึงทั้ําางาน APIs จะบนพั้นฐานข้องเทั้คโนโลย้ Service Oriented Architecture (SOA) ทั้ังน้การจะเช้้อมูตอ APIs จาํา เป็็นจะต้องไดร้ ับความูรวมูมู้อจากหันว ยงานทั้้ใหั้ข้้อมููล หัรอ้ ผู้ใหั้ บริการภายนอกทั้้ศึูนย์ฯ ต้องการข้้อมููล โดย APIs จะทั้ําาการรับสำงข้้อมููล ได้ทั้ังแบบ Batch และแบบ Near Real-time
iii. การจัดการข้้อมููลทั้้ได้รับจาก APIs จําาเป็็นต้องใช้้เคร้องมู้อหัร้อซึ่อฟต์แวร์ระดับองค์กร เพั้อใหั้การทั้ําางานมู้ ความูเสำถ้ยรและรองรับโหัลดหัร้ออัตราการนําาเข้้าข้้อมููล ได้เป็็นจําานวนมูาก โดยตัวอยางเคร้องมู้อทั้้ใช้้ในในการทั้ําางานรวมูกับ Hadoop Platform ป็ระกอบด้วย Apache Strom, Apache Flume, Kafka และ Apache Sqoop เป็็นต้น ซึ่ึงจะทั้ําาการเก็บ ข้้อมููลในแหัลง จัดเก็บข้้อมููล (Repository) ข้อง Hadoop มู้หัลายรูป็แบบ เช้น HDFS และ HBase หัร้อระบบฐานข้้อมููล เช้น Cassandra (NoSQL) และ Relational Database
iv. ในข้นั ตอนน้ต้องมู้การป็รับป็รุงระบบควบคุมูการเข้้าถึง (Access Control) เพั้อใหั้สำอดคล้องกับเทั้คโนโลย้ทั้้ นําามูาใช้ร้ ว มูกนั (Integrate) หัรอ้ ทั้ดแทั้นระบบทั้ใ้ ช้้ ในระยะทั้้ 2 และเนอ้ งจากบางระบบ เช้น การนําาข้อ้ มูลู เข้า้ จาก Data Source เป็็นไป็อยา งอัตโนมูัติ ทั้ําาใหั้สำามูารถยกเลิกสำทั้ิ ธิการเข้้าถึงตาง ๆ (Authorization หัร้อ Permission) ทั้้เคยกําาหันดใหัก้ ับ Role ในระบบ RBAC ได้
ป็ระเด็นทั้้ต้องพัิจารณา
i. ต้องหัมูันตรวจสำอบ Version ข้อง APIs ทั้ร้ ับข้้อมููลจากภายนอกวา มูก้ ารอัพัเดทั้หัร้อไมู อยางไร และ APIs Version เกา ยงั สำามูารถใช้ง้ านไดอ้ ยหัู รอ้ ไมู ถา้ มูก้ ารเป็ลย้ นแป็ลง จะตอ้ งทั้ําาการแกไ้ ข้คา ในระบบ (Configuration) เพัอ้ ใหัร้ องรบั กับโครงสำร้างข้้อมููล ทั้้เป็ล้ยนแป็ลงไป็
ii. ข้้อมููลทั้ไ้ ด้รับผานระบบ APIs จะเป็็นข้้อมููลทั้มู้ ้ความูสำมูําาเสำมูอมูากยงิ ข้ึน แตจะต้องพัิจารณาการแก้ไข้ป็ัญ่หัา การจัดเก็บข้้อมููลในกรณ้ทั้้ APIs ไมูสำามูารถเข้้าถึงได้ ในบางช้ว งเวลา
2. Process Data
a. ระบบงานในระยะทั้้ 3
1. การรับข้้อมููลผาน APIs ยังคงมู้ความูเสำ้ยงเร้องการไมูได้รับข้้อมููล หัร้อข้้อมููลบางช้วงเวลาข้าดหัายไป็ โดยเฉพัาะอยา งยงิ ข้อ้ มูลู ทั้เ้ ป็น็ ลกั ษณะ Near Real-time ซึ่งึ ในบรบิ ทั้ ข้องศึนู ยฯ์ ควรจะตอ้ งพัฒั นาเครอ้ งมูอ้ ทั้เ้ ป็น็ ซึ่อฟตแ์ วรเ์ พัอ้ ตรวจสำอบและระบุป็ัญ่หัา ทั้้เกิดข้ึน โดยมู้การทั้ําา Data Quality Check และการกําาจัด Outlier การป็ระมูาณการข้้อมููลแบบ อัตโนมูัติ ในกรณ้ทั้้ข้้อมููลบางสำวนข้าดหัายไป็ และจะต้องมูก้ ารแจ้งเต้อน แกผู้รับผิดช้อบเพัอ้ ย้นยันอก้ ครังกอนทั้จ้ ะนําาข้้อมููลเข้้า สำูฐานข้้อมููล Final หัร้อทั้ะเลสำาบข้้อมููล (Data Lake)
ii. ป็รับป็รุงและตังคา (Configuration) เคร้องมู้อทั้้จัดทั้ําา ETL Integration เพั้อรองรับแหัลงข้้อมููลทั้้มู้มูาก ยิงข้ึน และการป็รับใช้้หัร้อพััฒนาเคร้องมู้อเพัิมูเติมู เพั้อใหั้รองรับข้้อมููลแบบ Near Real-time
iii. ป็รบั ป็รงุ ความูสำามูารถซึ่อฟตแ์ วร์ เพัอ้ การจดั เตรย้ มูฐานข้อ้ มูลู เพัมูิ เตมูิ โดยแบง เป็น็ 3 ระบบ ไดแ้ ก 1) Staging เพั้อนําาข้้อมููลทั้้ได้รับจาก APIs มูาเพัอ้ เตร้ยมูการ 2) Profile เพั้อเก็บข้้อมููลทั้มู้ ้ป็ัญ่หัา และระบุการกระทั้าํา ตา ง ๆ ทั้ไ้ ด้กระทั้ําากับ ข้้อมููลชุ้ดนัน ๆ เช้นป็ระมูาณการข้้อมููล ข้้อมููลทั้้ยังไมูไ ดร้ ับ ข้้อมููลทั้้เป็็น Outliner เป็็นต้น กอ นทั้จ้ ะนําาข้้อมููลเข้้าระบบฐานข้้อมููล Final ข้องศึูนย์
Final Report
รายงานฉบับสมบูรณ์
4 - 51