FAQ จากหลักสูตร Data Governance ที่ IMC Institute

Aekanun Thongtae
3 min readMay 24, 2020

--

Credit: https://www.flickr.com/photos/144152028@N08/33888154936

จากการบรรยายหลักสูตร Data Governance สำหรับภาครัฐและเอกชน ที่สถาบันไอเอ็มซี เมื่อวันที่ 13 พ.ค.63 มีคำถามและคำตอบในระหว่างการเรียนการสอนและภายหลังจากการเรียนการสอน ที่ผู้เรียนทุกท่านและผู้สอน อยากจะแบ่งปันเป็นความรู้และให้เป็นแหล่งรวบรวมประสบการณ์มุมมองที่มีค่าต่อการนำไปใช้ปฏิบัติงานด้าน Data Gov. ได้ต่อไป

คำถามข้อที่ 1: หน่วยงานภาครัฐ ที่ต้องทำ Data Governance หากไม่ทำ จะมีความผิดทางกฎหมายอะไรบ้างครับ
คำตอบข้อที่ 1: หน่วยงานภาครัฐ ที่ไม่ทำ DG อาจเข้าข่ายคัดคำสั่งของคณะกรรมการพัฒนารัฐบาลดิจิทัล ข้อ 3 ที่ออกโดยอาศัยอำนาจของ พ.ร.บ.บริหารงานและการให้บริการภาครัฐผ่านระบบดิจิทัล พ.ศ.2562 ม. 7(2), (9) และ ม.8 ครับผม

คำถามข้อที่ 2: ISO 27001 พอจะใช้แทนได้ไหมครับ
คำตอบข้อที่ 2: Regulation ที่มีลำดับศักดิ์สูงสุด คือ กฎหมาย ครับ ถ้ากฎหมายบัญญัติไว้แล้ว ต้องตรวจสอบว่า มีอะไรที่ขัดต่อกฎหมายหรือยังไม่ได้ทำถ้ากฎหมายกำหนดให้ทำ หรือไม่นะครับ … จากนั้น ค่อยมาดูเรื่อง Standard ที่อาจเกี่ยวข้องกับ Auditor ที่เค้าจะมาตรวจเราว่าผ่านตามมาตรฐานหรือไม่ อย่างไรครับ เป็นความสำคัญลำดับที่ 2

คำถามข้อที่ 3: มีวิธีกระบวนการตรวจสอบว่าเราดำเนินการด้าน DG เป็นไปตามมาตรฐานอย่างไรครับ
คำตอบข้อที่ 3: กรณีที่หมายถึง Data Governance ที่มี Data Policy และ Organisational Standard … องค์กรต้องกำหนดเกณฑ์การตรวจประเมินขึ้นมาเอง แต่อาจทำให้สอดคล้องกับเกณฑ์สากลได้ครับผม

คำถามข้อที่ 4: Data Lineage กับ Data Pipeline หรือ Data Life Cycle เหมือนกันหรือต่างกันมั้ยครับ ถ้าไม่เหมือนอยากทราบ definitely เพื่อแยกความต่างครับ
คำตอบข้อที่ 4:
- Data Pipeline กับ Data Life Cycle กับ Data Lineage เหมือนกัน ตรงที่ ถ้าทำแล้วจะเห็น “Change”
- Data Pipeline ส่วนใหญ่ที่ผมได้เห็น มักจะเอียงไปทางด้าน Tools หรือกระบวนการปรับปรุงข้อมูล เป็นภาพแบบ end-to-end
- Data Life Cycle เป็นวงจรชีวิตของข้อมูลที่เกิดขึ้นจากการ Management โดยผ่าน Tools ต่างๆ
- Data Lineage กล่าวถึงการทราบว่า Origin ของ Data เป็นอย่างไร และมี Movement อย่างไรหลังจากนั้น … ตรงนี้ ถ้าทำแล้วจะเห็นภาพของ Data Movement

คำถามข้อที่ 5: ผู้ตรวจประเมินทางด้าน DG จำเป็นต้องตั้งทีมงาน Audit เฉพาะไหมครับ หรือสามารถกำหนดบทบาทหน้าที่ของ Data Steward Team ได้เลย
คำตอบข้อที่ 5: ผมแนะนำว่า กำหนดเป็นหน้าที่ของ Data Steward Team จะเหมาะกว่าครับผม

คำถามข้อที่ 6: การทำ Data Governance ระหว่างก่อนและหลังการสร้างข้อมูล/เก็บข้อมูล/การใช้งานข้อมูลไปแล้ว มีความยากง่าย หรือข้อดีข้อเสีย แตกต่างกันอย่างไรบ้างครับ
คำตอบข้อที่ 6:
- จากประสบการณ์ที่ทำ Data Gov. ก่อนมีการสร้างข้อมูล และก่อนมีการเก็บข้อมูล (องค์กรนี้ไปรวบรวมข้อมูลจากองค์กรอื่นๆ มาใส่ไว้บน Cloud) พบว่า เราจะได้ Data Catalog ที่ในมุมคนทำ Data Sci จะรู้สึกว่า มีข้อมูลให้เล่นเยอะ เพราะเค้าได้อธิบายไว้ใน Metadata ดีแล้ว แต่อาจเนื่องจาก Cloud Security Control ต้องเล่นไปตามบทของ Cloud Provider จึงรู้สึกว่า Control Data ได้ไม่เท่าที่ใจอยากให้เป็นนะครับ แต่ก็ compliance ได้ตาม CSA (Cloud Security Control)
- หากเป็นองค์กรที่ไม่ได้ทำ Data Gov. มาตั้งแต่ต้น คือหมายความว่า ข้อมูล Persistent อยู่ใน Storage เรียบร้อยแล้วจึงมาทำ Data Gov. แบบนี้ จะเหนื่อยกับการสร้าง Awareness เพราะเค้าเชื่อในวิธีการทำงานเดิมๆ แต่ในเรื่องกระบวนการ Data Gov. ไม่เท่าไหร่ครับ … ยังพอไล่เก็บ Metadata ย้อนหลังได้
- จากที่เล่ามา ทั้ง 2 Case ข้างบน มีอย่างหนึ่งเหมือนกัน คือ ถ้าได้เริ่มทำ Data Gov. แล้ว อย่าหยุดทำ คือ Data Gov. ต้อง Lineage ให้เห็น Change บนเป็น Metadata ตลอด Lifecycle ให้ได้ … เป็น Ongoing tasks ครับ เพราะข้อมูลจะยังคงอยู่และมี change ตลอด ถ้าเรายังไม่ทิ้งมันไปครับ

คำถามข้อที่ 7: ขอข้อเสนอแนะหน่อยนะครับ
ตอนนี้ผมกำลังจัดตั้งคณะทำงาน โครงสร้างไกล้เคียงกับ Data governance framework ของ DGA
หากจะใช้กรรมการชุดนี้ ทำเรื่อง DG & PDPA ไปเลย แบบนี้ขัดต่อหลักการของ DG และ PDPA ไหมครับ
คำตอบข้อที่ 7: ผมแนะนำว่า ถ้าเป็นภาครัฐ คงต้องยึดของ DGA ไว้ให้แน่นก่อน โดยเฉพาะโครงสร้าง Data Governance Structure อาจต้องตั้งชื่อและมีให้ครบตามประกาศฯ และแนบท้ายประกาศฯ เลยครับผม แต่ที่ DGA ยังไม่ได้ลงรายละเอียดคือ How-to formulate Data Policy อันนี้ ปรับได้ตามเหมาะสมครับผม … ไม่กล้าตอบว่า จะขัดหรือไม่ขัดครับ เพราะขึ้นอยู่กับการตีความกฎหมาย ประกาศ และคำสั่งครับผม

คำถามข้อที่ 8: ถ้า data governance ถูกรวมมาเป็นส่วนหนึ่งของโครงการที่เกี่ยวข้องกับเฉพาะชุดข้อมูลนึง (ไม่ใช่ทั้งองค์กร) สามารถทำ data governance เฉพาะส่วนของข้อมูลที่เกี่ยวข้องได้หรือไม่ ข้อดี/ข้อเสีย
คำตอบข้อที่ 8:
- ทำได้ครับ แต่ Data Policy จะต้อง cover ทุกชุดข้อมูล โดยต้องไม่จำกัดว่าชุดข้อมูลนั้นมีโครงสร้างแบบไหนด้วยครับผม … เวลา implement ต้องนำ Data Policy ไปทำ Plan โดยระบุชุดข้อมูลเป้าหมาย เมื่อสิ้นสุดแผนแล้วก็มาดูว่า Policy มัน Feasible หรือไม่ ถ้าไม่ Feasible จะได้นำ Policy มาปรับแก้ ก่อนเริ่มแผนใหม่+ชุดข้อมูลใหม่ ครับผม
- ผมว่า มีข้อดีเยอะกว่าข้อเสียครับ แต่ข้อเสียอาจต้องทำเยอะหน่อย Plan กันหลายๆ รอบกว่าจะครบทุกชุดข้อมูลครับ

คำถามข้อที่ 9: ตอนเริ่มทำ แคตาลอค เรามีเกณฑ์อะไรเลือก ข้อมูลไหนมาเป็นเมตาดาต้าครับ
ตอบคำถามข้อที่ 9: ข้อมูลตาม Business Process หลักขององค์กรครับ

คำถามข้อที่ 10: Meta Data → Where to store = existing place that data found (such as Excel, ERP, etc.) or where in Data Warehouse/Data Lake?
คำตอบข้อที่ 10: ถ้าสามารถระบุ ทั้ง Origin และ Destination ได้ ยิ่งดีเลยครับ

คำถามข้อที่ 11: ถ้าเรียงลำดับน่าจะเป็น
Policy > Catalog > Metadata > Dictionary
ใช่มั้ยครับแล้ว Council เป็นคนอนุมัติ Policy อย่างเดียว
หรือว่า ต้องอนุมัติอะไรบ้างครับ
คำตอบข้อที่ 11: ใช่เลยครับ

คำถามข้อที่ 12: Data Quality Criteria ต่างๆ ควรประเมินจาก Data Analytic ทีม หรือ Business Users ที่ใช้ข้อมูลจริง ใช่หรือไม่คะ หรือที่เหมาะสมควรเป็นใครคะ
คำตอบข้อที่ 12: เหมาะสมครับ ตามรายละเอียดที่ได้อธิบายไป

คำถามข้อที่ 13: ขอทวนที่ผมเข้าใจอีกทีนะครับ
Data set std คือ รูปแบบของข้อมูลที่องค์กรกำหนด (มีได้หลายแบบ หลายระดับ)
เช่น ตัวอย่างหน้า 94–96 คือ กระทรวงพาณิชย์กำหนดไว้ใช้ของตัวเอง
แล้วใครจะไปใช้ข้อมูลด้วย ก็ไปดูรายละเอียดหน้า 95–96
ประมาณนี้มั้ยครับ
คำตอบข้อที่ 13: ใช่เลยครับผม

คำถามข้อที่ 14: สวัสดีครับ อจ.เอ้ ผมขออนุญาตสอบถามจากเนื้อหาในตัวอย่าง Data Policy ดังนี้ครับ
1. ขอสอบถาม ถ้าตาม PDPA เจ้าของข้อมูล หรือ Data Subjects จะหมายถึงเจ้าของข้อมูล เช่น คนไข้
แต่ในบริบทนี้หมายถึง Data Controller หรือไม่?

2. ขอสอบถาม คำนิยาม ของเจ้าหน้าที่ซึ่งมีสิทธิ์เหนือข้อมูล

ขอบคุณครับ
คำตอบข้อที่ 14:
- ตอบข้อ 1 ครับ เจ้าของข้อมูล กับผู้ควบคุมข้อมูล มีความแตกต่างกัน … ผู้ควบคุมข้อมูล มี PDPA ม.6 บัญญัติไว้แล้วว่า คือ “บุคคลหรือนิติบุคคลซึ่งมีอานาจหน้าท่ีตัดสินใจเกี่ยวกับการเก็บรวบรวม ใช้ หรือเปิดเผยข้อมูลส่วนบุคคล” ซึ่งตรงนี้อาจจะไม่ใช่เจ้าของข้อมูลก็ได้ … แต่สำหรับใน ตัวอย่าง Data Policy จะเขียนนิยาม “เจ้าของข้อมูล” ไว้แล้ว ซึ่งในตัวอย่างฯ เจตนาหมายถึงเจ้าของข้อมูลที่เป็นข้อมูลต่างๆ ยกเว้นข้อมูลส่วนบุคคล เนื่องจาก ข้อมูลส่วนบุคคล มีกฎหมายบัญญัติไว้โดยเฉพาะแล้ว … แต่ประเด็นที่น่าสนใจคือ PDPA น่าจะไม่ได้บัญญัตินิยาม “เจ้าของข้อมูลส่วนบุคคล” ไว้อย่างชัดเจน ครับ
- *** เพิ่มเติมการตอบข้อ 1 : สังเกตว่า ผมน่าจะไม่ไ่ด้เขียน “Data Controller” ไว้ในตัว Data Policy … เหตุที่ไม่เขียนเพราะว่า ถ้ากฎหมายเขียนแล้ว ผมจะเลี่ยงไม่เขียนซ้ำครับ แต่จะให้อ้างอิง ให้ผู้อ่านไปทำความเข้าใจจาก Origin คือ กฎหมายเลย จะได้ไม่ conflict กัน
- ตอบข้อ 2 ครับ “เจ้าหน้าที่ซึ่งมีสิทธิ์เหนือข้อมูล” ผมเจตนาหมายถึง “เจ้าหน้าที่” ตามความหมายของ data policy ซึ่งได้รับสิทธิ์สูงกว่า Class ของ Data ครับ เช่น หลังจากที่เราทำ Data Classification แล้ว ข้อมูล A อาจได้รับการจัดชั้นอยู่ใน Class ชื่อ “Internal” หากมีเจ้าหน้าที่ซึ่งถือ Security Clearances ชื่อ “Top Secret” อยู่ เจ้าหน้าที่คนนั้นสามารถเข้าถึงข้อมูล A ได้ครับผม (ตามหลักการ Mandatory Access Control) … ประมาณนี้ครับผม

--

--

Aekanun Thongtae

Experienced Senior Big Data & Data Science Consultant with a history of working in many enterprises and various domains . Skilled in Apache Spark, and Hadoop.