Big Data Platform with NO Hadoop YARN/MapReduce, but Still Maintain Scalability

รูปที่ 1 Big Data Platform ที่ประกอบด้วย Distributed Storage คือ HDFS และ Distributed Processing คือ Apache Spark โดยไม่มี YARN
รูปที่ 2 การโหลด raw data ขึ้นมาจาก HDFS เพื่อนำไปพัฒนาเป็น training/testing set
รูปที่ 3 Machine Learning Model ที่ได้รับจากการ train model ด้วยข้อมูล training set จาก HDFS
รูปที่ 5 การสร้าง Summary Report ด้วยคำสั่ง SQL บน Apache Spark

--

--

--

Experienced Senior Big Data & Data Science Consultant with a history of working in many enterprises and various domains . Skilled in Apache Spark, and Hadoop.

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Aekanun Thongtae

Aekanun Thongtae

Experienced Senior Big Data & Data Science Consultant with a history of working in many enterprises and various domains . Skilled in Apache Spark, and Hadoop.

More from Medium

Churn Prediction for Sparkify

idempotence

How Taboola Powers the Conversion Data Pipe

5 Questions to Ask Before Testing Your Machine Learning Model