Accuracy เป็น criteria หรือเกณฑ์การประเมินอย่างหนึ่งที่นำมาใช้ตัดสินคุณค่าของ Machine learning model แต่ก็มิได้หมายความว่า เมื่อโมเดลมีค่า Accuracy ที่สูงแล้ว จะเป็นโมเดลที่สร้างคุณค่าให้กับธุรกิจเสมอไป ในทาง Data science มี criteria อย่างเช่น Recall, Precision, F1, ROC Curve ซึ่งเป็นที่น่าแปลกใจสำหรับผู้ที่ยังใหม่กับเรื่องนี้คือ แม้ว่าจะได้อ่านทำความเข้าใจความหมายของ criteria เหล่านี้แล้วก็ตาม ก็จะยังไม่เห็นภาพชัดในการเลือกใช้และขาดความเชื่อมโยงกับธุรกิจ งานเขียนนี้มุ่งเน้นความเข้าใจที่ถูกต้องชัดเจนเกี่ยวกับการเลือกใช้ criteria เหล่านี้สำหรับการประเมิน Classification model ในมุมมองทางธุรกิจ…

Reasonable Data Science, EP II
Reasonable Data Science, EP II

การทำงาน Data Science Project นั้น มักเกิดคำถามระหว่างการทำงานที่ตัวเราเองก็อาจยังคงแคลงใจอยู่ว่า แนวคิด ทฤษฎี หลักการ ที่เคยได้ฟังมา อ่านมา หรือเห็นเค้านิยมทำกันนั้น จำเป็นต้องทำในทุกกรณีหรือไม่ กรณีไหนควรเลือกทำอย่างใด และอะไรคือผลที่ตามมา งานเขียนนี้จึงหยิบยกประเด็นคำถาม​ที่ผู้เขียนพบเจอบ่อยๆ จากการทำงาน และได้เคยทำการค้นคว้า ทำการทดลอง เพื่อหาคำตอบในเชิงเหตุและผลว่า เหตุใดจึงต้องทำสิ่งนี้ ทำหรือไม่ทำมีความแตกต่างกันหรือไม่อย่างไร อีกทั้งให้คำแนะนำทางเลือกอื่นๆ ที่เป็นไปได้ตามหลักการของ Data Science โดยมีการยกตัวอย่างในเรื่อง Prediction of Customer Behavior ประกอบความเข้าใจ…

Reasonable Data Science, EP I
Reasonable Data Science, EP I

ปรากฎการณ์ Big Data ทำให้เกิดความเปลี่ยนแปลงหลายอย่าง จากเดิมที่เราใช้ข้อมูลมาทำ Business Optimization แต่วันนี้เรามองว่าข้อมูลเป็น Strategic Asset สามารถสร้างคุณค่า (Value Creation) จากมุมมองการใช้ข้อมูลในแบบใหม่ๆ ซึ่งจะช่วยให้อยู่รอดจาก Disruption ที่เราไม่เคยเผชิญมาก่อนเลยได้. ในช่วง 1 ปีที่ผ่านมาหลายธุรกิจได้มีเริ่มมีการใช้งาน Big Data Technology อย่างจริงจังมากขึ้น มีการทำ Big Data Adoption ทั้งในแบบ on-Premises หรือ on-Cloud. มีการ Train พนักงานในองค์กรหรือรับพนักงานใหม่ที่มีความรู้ความเชี่ยวชาญเฉพาะด้าน Big Data เข้ามาทำงานกับระบบ. ทั้งหมดนี้ดูเหมือนว่า เราจะได้ทำทุกสิ่งอย่างเพื่อเตรียมพร้อมจะ Leveraging Big Data แล้ว อย่างไรก็ตามถ้าเราขาด Data Management ที่เหมาะสมแล้ว ก็เท่ากับว่า เราอาจกำลังจะสร้าง…

Big Data Silos: Explanation and Solution
Big Data Silos: Explanation and Solution

วันนี้มี Tools ที่ใช้ทำ Data Science อย่างหลากหลาย รวมถึง Programming Language ที่มีการพูดถึงกันมากที่สุด คือ R และ Python. แต่ถ้าพูดถึง Spark Programming อาจจะยังไม่เป็นที่รู้จักมากนัก. บทความนี้จะนำเสนอแนวทางการเลือกใช้ Programming Language ให้เหมาะสมกับขนาดข้อมูล แม้ว่าผมจะทำมาหากินกับเรื่อง Big Data มานาน แต่ก็ไม่ใช่ว่า ผมจะเชียร์ให้ใช้ Big Data Technology กับทุก Use Case. จากบทความก่อนหน้านี้ “ต้องใหญ่แค่ไหน …จึงจะเรียกว่า Big Data” ผมได้อธิบายให้เข้าใจว่า เมื่อใดที่การใช้ Big Data Tech. จะมีประสิทธิภาพดีกว่าการใช้เทคโนโลยีดั้งเดิม. สำหรับในบทความนี้คือบทพิสูจน์แนวคิดจากบทความที่ผ่านมาดังกล่าว…

Data Science ไม่ได้หยุดอยูแค่ Python หรือ R
Data Science ไม่ได้หยุดอยูแค่ Python หรือ R

Data Lake เป็น Storage/Repository ที่ใช้เก็บบันทึกข้อมูลขนาดใหญ่ โดยมี ELT (Extraction-Loading-Transformation) เป็นแนวทางการบริหารจัดการข้อมูลที่เหมาะสมกับ Data Lake ซึ่งทำให้เรายังคงรักษาสภาพเดิมของข้อมูลที่ได้รับมาจาก Data Source โดยไม่เปลี่ยนแปลงอะไรเลย หรือกล่าวอีกอย่างหนึ่งว่า Extract จาก Data Source มาแล้ว ก็ Loading เก็บลง Storage ของเราในแบบ Raw Format เลย. แต่ด้วยการใช้ Data Lake มักจะเกิดมีประเด็นบางอย่างที่ส่งผลต่อการบริหารจัดการข้อมูล จึงทำให้เราได้ “Data เละ” แทน Data Lake เป็นถังขยะใบใหม่ที่มีราคาแพง พร้อมของแถมคือปัญหาด้าน Data Quality มากมาย. บทความนี้จะขอกล่าวถึงความจำเป็นในการทำ ELT กับ Data Lake และประเด็นที่อาจเกิดขึ้นกับ…

Data Lake หรือ ถังขยะราคาแพงกันแน่?
Data Lake หรือ ถังขยะราคาแพงกันแน่?
Aekanun Thongtae

Aekanun Thongtae

Experienced Senior Big Data & Data Science Consultant with a history of working in many enterprises and various domains . Skilled in Apache Spark, and Hadoop.