รู้ไว้ก่อนใช้ Data Science ?
ในบทความนี้จะนำเสนอ Data Scienceในด้านการเตรียมพร้อมสำหรับการเป็นDataScientist
ทำความรู้จักกับ Data Science
- Data Science คือการรวบรวมเอาวิชาและเทคโนโลยีทางด้านต่างๆ เช่น CloudComputing, Big Data, Machine Learning, Data Mining, Statistics เข้าไว้ด้วยกัน เเละมีจุดประสงค์เพื่อบริหารจัดการข้อมูลขนาดใหญ่และสกัดความรู้จากข้อมูลเหล่านั้น แต่เนื่องจาก Data Science เป็นสาขาวิชาที่ค่อนข้างใหม่ทำให้เกิดนิยามที่หลากหลายเเละเเตกต่างกันออกไปในมุมมองของแต่ละคน
- เเต่ในมุมมองของ Data scientist ที่เคยทำงานในบริษัทชื่อดังอย่าง google คนหนึ่งที่มีชื่อว่า Pi-Chuan Chang เธอได้นิยามไว้ว่าData Science คือ การใช้ประโยชน์จากข้อมูลในการสร้างโมเดล หรือการเข้าใจรูปแบบเฉพาะของข้อมูลนั้น ๆ ซึ่งจะเป็นประโยชน์ต่อซอฟต์แวร์แอปพลิเคชันอื่น ๆ ต่อไป
ทักษะที่จำเป็นต่อ Data Scientist
Data Scientist คือ คนที่มีทักษะ 3 ส่วนหลัก ๆด้วยกัน ได้แก่
1.Math & Statistics Knowledge ได้แก่ ความรู้ทางด้านคณิตศาสตร์และสถิติ ซึ่งนั้นจะช่วยให้สามารถระบุข้อมูลเชิงลึกได้อย่างน่าสนใจ
2.Hacking Skills หรือ Programming Skills ที่ช่วยในการสร้างโมเดลทางสถิติ และการดึงข้อมูลจากแหล่งข้อมูลที่สำคัญๆได้
3.Substantive Expertise คือ ความรู้ความเข้าใจในปัญหานั้น ๆ ซึ่งจะช่วยทำให้สามารถตั้งคำถามได้อย่างตรงจุดและมีขอบเขต และยังสามารถตีความหมายของคำถามได้นั่นเอง
การจะเป็น Data Scientist นั้นไม่มีข้อจำกัดที่ตายตัวแต่ Data Scientist ส่วนใหญ่นั้นมีความรู้พื้นฐานทางด้านคณิตศาสตร์และสถิติ รวมถึงทักษะทางด้าน Programming เพื่อช่วยในการจัดการและทำการวิเคราะห์ชุดข้อมูล
งานของ Data Scientist มีความแตกต่างกันในแต่ละบริษัทฉะนั้น งานดังกล่าวอาจมีได้หลากหลายรูปแบบ ส่วนใหญ่ Data Scientists จะทำงานเป็นทีม แต่ละคนไม่จำเป็นต้องโดดเด่นในทุกด้าน ถ้าคุณมีความโดดเด่นในด้านใดด้านหนึ่ง คุณก็สามารถเป็นสมาชิกที่มีค่าของ Data Sceince Team ได้
ประโยชน์ของ Data Science
การแนะนำภาพยนตร์ใน Netflix โดยใช้ข้อมูลจากการรับชมก่อนหน้า
การสร้าง News Feed ใน Facebook หรือการแนะนำคนที่จะ Follow ใน Twitter และอื่นๆอีกมากเช่น การแก้ปัญหาความแออัดบนรถโดยสารสาธารณะ,การวิเคราะห์ข้อมูลสาธารณสุข เพื่อการใช้งบประมาณให้ตรงจุด,การใช้ข้อมูลจากกล้องในสนามบาสเก็ตบอล สำหรับวิเคราะห์การเคลื่อนไหวและรูปแบบการเล่นของนักกีฬา เพื่อประโยชน์ในการโค้ชทีมและผู้เล่น
เครื่องมือที่ใช้กับงาน Data Science
TensorFlow
มีหน้าที่เป็น library โดยสร้าง machine learning models แบบ open source จาก Google และยังมีการเปิดกว้างทางการสื่อสารจึงทำให้สะดวกและง่ายต่อการสอบถามหรือแก้ไขปัญหา เครื่องมือนี้สามารถใช้ได้กับภาษาคอมพิวเตอร์ที่หลากหลายเช่น ภาษา C,Go,Java และจะใช้งานได้ดีกับภาษา Python อีกด้วย
Pytorch
มีลักษณะคล้ายคลึงกับ TensorFlow แต่ Pytorch จะค่อนข้างง่ายกว่าในการค้นคว้า และยังมีความสร้างสรรค์ทางสภาพแวดล้อมที่หลากหลาย แต่ที่ต่างจาก TensorFlow ที่จะใช้ open source จาก Google มาเป็น Facebook แทน
scikit-learn
เป็นเครื่องมือที่ใช้งานได้หลากหลายรูปแบบ เพราะมีความสามารถที่ครอบคลุม และมีประสิทธิภาพในการ predictive data analysis โดยสร้างจาก โมดูลหลายตัวไม่ว่าจะเป็นNumpy,SciPy และ matplotlib เป็นต้น
Jupyter
เป็นเครื่องมือที่ใช้สำหรับ Data Science โดยตรง เเละมือเครื่องมือที่ชื่อว่า Jupyter Notebook ซึ่งสามารถเขียนโค้ดและรันซ้ำ รันทีละส่วน และแสดงผลลัพธ์ของแต่ละส่วนของโค้ดแยกกันได้อย่างอิสระ เเละทั้งหมดนี้ทำได้ผ่านเว็บเบราเซอร์ และยังสามารถเซฟผลลัพธ์เก็บไว้ได้
Pandas
เป็นเครื่องมือที่จะนำเข้าข้อมูลเช่นไฟล์ CSV, TSV หรือจาก SQL database ไปสร้างเป็น Python Object ในรูปแบบ row และ column ซึ่งจะสามารถจัดการข้อมูลได้เร็ว มีความยืดหยุ่น มีประสิทธิภาพ จึงง่ายต่อการนำไปใช้
ซึ่งเครื่องมือที่กล่าวนั้นสามารถใช้กับภาษา Python ได้ทั้งหมด
สำหรับบทความนี้ก็ขอจบลงเพียงเท่านี้ก่อนครับ ซึ่งยังมีเนื้อหาที่ลงลึกอีกนะครับ แต่บทความนี้อยากให้เห็นภาพรวมๆของ Machine Learning ส่วนเนื้อหาแบบเจาะลึก เดี๋ยวจะมาอัพเดตเพิ่มเติมให้ในภายหลังครับ
อย่าลืมกด Clap เพื่อซัพพอร์ตด้วยนะครับ ถ้าเห็นว่าบทความนี้มีประโยชน์
ติดตาม STACKPYTHON กันต่อ ได้ในช่องทางต่อไปนี้ได้เลยครับ