Big Data กำลังจะกลายเป็น Big Data Silos: เหตุผลและแนวทางแก้ไข

รูปที่ 1 แสดงกระบวนการจัดการข้อมูลก่อนยุค Big Data ซึ่งรูปด้านซ้ายคือการจัดการข้อมูลในช่วงเวลาที่องค์กรเพิ่งจะเริ่มต้นมีระบบจัดการข้อมูล และรูปด้านขวาแสดงการบริหารจัดการข้อมูลในปัจจุบันที่องค์กรมีระบบจัดการข้อมูลแยกกันในแต่ละ Business Unit (Silos)
รูปที่ 2 การจัดการข้อมูลขนาดใหญ่ (Big Data) ด้วยวิธีการดั้งเดิม ETL
  • Maintaining original formats ของ Raw Data ให้พร้อมที่จะนำไป Transformation ตามมุมมองความต้องการใช้ข้อมูลใหม่ๆ ตลอดเวลา
  • High Performance: Spark เป็นซอฟต์แวร์ที่ประมวลผลแบบ in-Memory Computing ที่มีการประมวลผลแบบ Distributed Computing บน Multi-Nodes ซึ่งผู้เขียนได้เคยเปรียบเทียบกับเทคโนโลยีที่ประมวลผลบน Single Node ไว้ในงานเขียนก่อนหน้านี้
  • Data Warehousing: Hive เป็น Data Warehouse ซอฟต์แวร์ของ Hadoop ที่เราสามารถใช้คำสั่งแบบ ANSI-SQL ทำการ Query ข้อมูลเพื่อทำ Summary Report ในมุมมองต่างๆ ได้
  • Hadoop, Spark และ Hive เป็น Software ในแบบ Production Grade ที่ไม่เสียค่า Software License ในการใช้งาน
  • รองรับการใช้ Apache Airflow เพื่อให้การทำงานทุกขั้นตอนตั้งแต่ต้นจนจบเกิดขึ้นโดยอัตโนมัติ
รูปที่ 3 Raw Data
รูปที่ 4 แสดง Raw Data ใน HDFS (Hadoop Distributed File System)
รูปที่ 5 แสดงขั้นตอนการอ่าน Raw Data จาก HDFS แล้ว Convert เป็น Spark’s DataFrame
รูปที่ 6 แสดงขั้นตอนการ Cleansing Data
รูปที่ 7 แสดงขั้นตอนการเขียนข้อมูลที่ผ่านการปรับปรุงแล้ว ลงสู่ HDFS ในแบบ Parquet Format
รูปที่ 8 แสดงการทำ Analytics บน Table “analytics_loan”
รูปที่ 9 แสดงการทำ Analytics บน Table “analytics_borrower”
รูปที่ 10 แสดงการจัดการข้อมูลขนาดใหญ่ (Big Data) ด้วยการทำ ELT

--

--

Experienced Senior Big Data & Data Science Consultant with a history of working in many enterprises and various domains . Skilled in Apache Spark, and Hadoop.

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Aekanun Thongtae

Aekanun Thongtae

Experienced Senior Big Data & Data Science Consultant with a history of working in many enterprises and various domains . Skilled in Apache Spark, and Hadoop.