Apa itu Data Science?
Data Science menggabungkan matematika dan statistik, pemrograman khusus, analitik lanjutan, kecerdasan buatan (AI), dan machine learning dengan keahlian materi pelajaran khusus untuk mengungkap wawasan yang dapat ditindaklanjuti yang tersembunyi dalam data organisasi. Wawasan ini dapat digunakan untuk memandu pengambilan keputusan dan perencanaan strategis.
Volume sumber data yang semakin cepat, dan selanjutnya data, telah menjadikan Data Science sebagai salah satu bidang dengan pertumbuhan tercepat di setiap industri. Akibatnya, tidak mengherankan bahwa peran data scientist dijuluki "pekerjaan paling seksi abad ke-21" oleh Harvard Business Review. Organisasi semakin bergantung pada mereka untuk menafsirkan data dan memberikan rekomendasi yang dapat ditindaklanjuti untuk meningkatkan hasil bisnis.
Tahapan Data Science Project
Biasanya, data science project menjalani tahapan berikut:
Data ingestion (Penyerapan data): Siklus proses dimulai dengan pengumpulan data--baik data terstruktur mentah maupun tidak terstruktur dari semua sumber yang relevan menggunakan berbagai metode. Metode ini dapat mencakup entri manual, pengikisan web, dan data streaming real-time dari sistem dan perangkat. Sumber data dapat mencakup data terstruktur, seperti data pelanggan, bersama dengan data tidak terstruktur seperti file log, video, audio, gambar, Internet of Things (IoT), media sosial, dan lainnya.
Data storage and data processing (Penyimpanan data dan pemrosesan data): Karena data dapat memiliki format dan struktur yang berbeda, perusahaan perlu mempertimbangkan sistem penyimpanan yang berbeda berdasarkan jenis data yang perlu diambil. Tim manajemen data membantu menetapkan standar seputar penyimpanan dan struktur data, yang memfasilitasi alur kerja seputar analitik, pembelajaran mesin, dan model pembelajaran mendalam. Tahap ini meliputi pembersihan data, duplikasi, transformasi dan penggabungan data menggunakan pekerjaan ETL (extract, transform, load) atau teknologi integrasi data lainnya. Persiapan data ini penting untuk meningkatkan kualitas data sebelum dimuat ke data warehouse, data lake, atau repositori lainnya.
Analisis data: Di sini, ilmuwan data melakukan analisis data eksplorasi untuk memeriksa bias, pola, rentang, dan distribusi nilai dalam data. Eksplorasi analisis data ini mendorong pembuatan hipotesis untuk pengujian a/b. Ini juga memungkinkan analis untuk menentukan relevansi data untuk digunakan dalam upaya pemodelan untuk analitik prediktif, pembelajaran mesin, dan/atau pembelajaran mendalam. Bergantung pada akurasi model, organisasi dapat menjadi bergantung pada wawasan ini untuk pengambilan keputusan bisnis, memungkinkan mereka untuk mendorong skalabilitas yang lebih besar.
Berkomunikasi: Terakhir, wawasan disajikan sebagai laporan dan visualisasi data lainnya yang membuat wawasan—dan dampaknya terhadap bisnis—lebih mudah dipahami oleh analis bisnis dan pembuat keputusan lainnya. Bahasa pemrograman ilmu data seperti R atau Python menyertakan komponen untuk menghasilkan visualisasi; secara bergantian, data scientists dapat menggunakan alat visualisasi khusus.
Diterjemahkan dari:
ibm.com/cloud/learn/data-science-introduction
No comments:
Post a Comment