Big Data กำลังจะกลายเป็น Big Data Silos: เหตุผลและแนวทางแก้ไข

รูปที่ 1 แสดงกระบวนการจัดการข้อมูลก่อนยุค Big Data ซึ่งรูปด้านซ้ายคือการจัดการข้อมูลในช่วงเวลาที่องค์กรเพิ่งจะเริ่มต้นมีระบบจัดการข้อมูล และรูปด้านขวาแสดงการบริหารจัดการข้อมูลในปัจจุบันที่องค์กรมีระบบจัดการข้อมูลแยกกันในแต่ละ Business Unit (Silos)
รูปที่ 2 การจัดการข้อมูลขนาดใหญ่ (Big Data) ด้วยวิธีการดั้งเดิม ETL

หาก IT ทำ ETL แล้วยังคง Timeliness อยู่ก็คงไม่เป็นไร แต่ถ้าช้ามาเมื่อไหร่ เกิดขึ้นบ่อยครั้ง นานๆ เข้า Business Unit ก็อาจจำเป็นต้องไปตั้งทีมและระบบขึ้นมาอีก เพื่อรองรับการพัฒนาข้อมูลที่ตนเองอยากใช้และควบคุมเรื่อง Timeliness ได้ เกิดเป็น Data Silos ในยุค Big Data (Big Data Silos)… เป็นประวัติศาสตร์ซ้ำรอยเดิมที่แก้ไม่หายสักทีก็เป็นได้.

รูปที่ 3 Raw Data
รูปที่ 4 แสดง Raw Data ใน HDFS (Hadoop Distributed File System)
รูปที่ 5 แสดงขั้นตอนการอ่าน Raw Data จาก HDFS แล้ว Convert เป็น Spark’s DataFrame
รูปที่ 6 แสดงขั้นตอนการ Cleansing Data
รูปที่ 7 แสดงขั้นตอนการเขียนข้อมูลที่ผ่านการปรับปรุงแล้ว ลงสู่ HDFS ในแบบ Parquet Format
รูปที่ 8 แสดงการทำ Analytics บน Table “analytics_loan”
รูปที่ 9 แสดงการทำ Analytics บน Table “analytics_borrower”
รูปที่ 10 แสดงการจัดการข้อมูลขนาดใหญ่ (Big Data) ด้วยการทำ ELT

--

--

Experienced Senior Big Data & Data Science Consultant with a history of working in many enterprises and various domains . Skilled in Apache Spark, and Hadoop.

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store