Reasonable Data Science, EP I

“มีแต่วันและเวลามาให้เป็น Feature แล้วจะ trainโมเดลได้อย่างไร”

“ทำไมต้องสร้าง Feature ขึ้นมาใหม่”

“ที่ถูก คือ ต้องทำ Feature Selection ก่อน train โมเดล… เอ …จริงหรือ?”

“เลือก Feature ก่อน train โมเดล เป็นการรับประกันว่าจะได้โมเดลที่ดีเสมอ จริงหรือไม่”

“ต้องใช้ Deep Learning หรือ Artificial Neural Network สิ จึงจะดี”

รูปที่ 1 คือ ตัวอย่างข้อมูลเดิมก่อนทำ Feature Enhancement
รูปที่ 2 คือ ผลจากการทำ Feature Enhancement บนข้อมูลตามรูปที่ 1 ด้วยวิธี Sequential Analysis
รูปที่ 3 ผลการประเมินโมเดลที่ได้รับมาจาก train ด้วย Feature ที่มีการทำ Sequential Analysis
รูปที่ 4 ผลการประเมินโมเดลที่ได้รับมาจาก train ด้วย Feature ที่ไม่มีการทำ Sequential Analysis
รูปที่ 5 คือ การทำ Feature Selection ในแบบ Filter Method ด้วยใช้ค่า Pearson Correlation

ข้อเท็จจริงอีกด้านหนึ่งที่ควรทราบ คือแทบเป็นไปไม่ได้เลยที่ทำ Filter Method แล้วจะไม่มีการ retrain อีก ในหลายๆ กรณีความสำเร็จจากการ train โมเดลเกิดขึ้นจากทดลองซ้ำแล้วซ้ำเล่าจนได้ผลที่น่าพอใจจากนั้นจึงจะมาดูว่าความสำเร็จนั้นเป็นผลมาจากสิ่งใด กลายเป็นว่าแท้จริงแล้ว เหตุมาทีหลังผล ดังนั้นแล้วในการทำงานจริง เราไม่ควรยึดมั่นที่จะต้องพยายามคัดเลือก Features ที่ดีที่สุดก่อนการ train โมเดล เพราะคำตอบว่า Features ไหนดีที่สุด อาจเกิดจากประสบการณ์ในการคัดเลือกและ retrain ซ้ำหลายๆ รอบแล้วในแบบ Wrapper Method ก็ได้

รูปที่ 6 คือ คำตอบของโมเดลซึ่งแสดงอยู่ในกรอบสีเหลี่ยมสีต่างๆ กับ อัลกอริทึมที่ใช้สร้างโมเดล

--

--

Experienced Senior Big Data & Data Science Consultant with a history of working in many enterprises and various domains . Skilled in Apache Spark, and Hadoop.

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store