Introduction to Data Science — W1 Rakamin DS Bootcamp

Ramadhian Ekaputra
8 min readAug 11, 2024

--

Photo by Lukas Blazek on Unsplash

Untuk masing-masing dataset/model, tentukan:

  • Problem apa yang dapat diselesaikan dengan model tersebut?

Problem benar-benar bisa terjadi, dan memang dapat dibantu diselesaikan dengan model yang akan dibuat.

  • Business Metrics apa yang ingin ditingkatkan dalam problem tersebut?

Business metrics tepat, memang ketika problem tersebut terselesaikan, metrics ini pasti meningkat/menurun.

  • Jelaskan bagaimana model tersebut dapat membantu menyelesaikan problem dan meningkatkan business metrics itu.

Penjelasan masuk akal, jelas di mana model ini berperan dalam membantu menyelesaikan problem tersebut (tidak hanya memanfaatkan model untuk memprediksi X, tapi setelah tahu hasil prediksinya, harus dijelaskan apa yang harus dilakukan)

A. E-commerce Shipping Data

Problem:

  1. Banyak user yang komplain karena pengiriman barang sering terlambat dan tidak jelas kapan sampainya.

Business metrics:

  • Customer complaints
  • Customer satisfaction rating

Penjelasan Solusi:

Setiap transaksi akan diprediksi oleh model, apakah akan terlambat dan diberi credits/voucher sebagai permintaan maaf. Jika ada kemungkinan terlambat, user akan diberi notifikasi. Sehingga user nantinya tidak merasa bingung karena pengiriman tidak segera sampai dan tidak berujung komplain.

B. Payment Default Prediction

Problem:

Ada beberapa nasabah yang tidak mampu membayar tagihan credit card (default), dan agak sulit saat coba dihubungi.

Business metrics:

Default rate (% user yang default)

Penjelasan Solusi:

Nasabah yang terdeteksi berpotensi akan gagal bayar oleh model, segera dihubungi lebih dulu dan ditawarkan solusi. Misal penundaan cicilan, pengurangan bunga, dsb. Ini lebih baik daripada nasabahnya kabur.

C. Holiday Package Prediction

Problem:

Kita memiliki banyak user, sementara kita ingin memberikan penawaran (iklan) kepada user-user yang kemungkinan besar akan membeli paket liburan terbaru

Business metrics:

Buy Rate (berapa banyak user yang beli setelah diberi penawaran)

Penjelasan Solusi:

Model digunakan untuk mendeteksi user-user yang berpotensi untuk membeli produk paket liburan terbaru, user-user tersebut akan diprioritaskan untuk diberikan penawaran (bisa berupa iklan khusus).

D. Employee Attrition

Problem:

Adanya karyawan yang berpotensi untuk meninggalkan perusahaan sangat berpengaruh ke kinerja perusahaan.

Business metrics:

Attrition rate (% user yang left)

Penjelasan Solusi:

Model digunakan untuk mendeteksi karyawan-karyawan yang berpotensi untuk meninggalkan perusahaan, Sebelum hal tersebut terjadi, tim HR dapat memberikan treatment khusus kepada karyawan agar tidak meninggalkan perusahaan.

E. Trending Youtube Video Statistics

Problem:

Sebagai perusahaan yang bergerak dalam jasa streaming dalam bentuk video atau musik, Youtube perlu mengembangkan algoritma yang memunculkan rekomendasi video yang memiliki peluang terbesar untuk diklik pengguna Youtube agar mereka terus menggunakan Youtube.

Business metrics:

Performa Saluran & Kategori (Subscriber Growth dan Retention Rate)

Penjelasan Solusi:

Untuk meningkatkan pertumbuhan subscriber dan retensi pengguna, algoritma rekomendasi dikembangkan untuk memunculkan video dengan peluang klik tertinggi berdasarkan perilaku pengguna. Algoritma ini menganalisis data seperti riwayat tontonan, interaksi pengguna, dan preferensi saluran serta kategori. Dengan merekomendasikan konten yang relevan dan menarik, pengguna cenderung lebih lama menggunakan platform, meningkatkan performa saluran dan kategori dalam hal pertumbuhan subscriber dan retensi.

F. FitBit Fitness Tracker Data

Problem:

Sebagai perusahaan yang menyediakan jasa rental penginapan online, Airbnb perlu menciptakan algoritma yang memunculkan rekomendasi penginapan sesuai keinginan penggunanya. Pertanyaan utamanya adalah:

  • Apakah tingkat okupansi terkait dengan neighborhood?

Business metrics:

  • Tingkat Okupansi: Memahami hubungan antara tingkat okupansi dan lokasi listing.

Penjelasan Solusi:

Kita bisa menggunakan model yang memunculkan rekomendasi penginapan dengan harga terjangkau namun dengan review yang cenderung positif kepada pengguna.

G. Seattle Airbnb Open Data

Problem:

Sebagai perusahaan yang menyediakan jasa rental penginapan online, Airbnb perlu menciptakan algoritma yang memunculkan rekomendasi penginapan sesuai keinginan penggunanya. Pertanyaan utamanya adalah:

  • Apakah tingkat okupansi terkait dengan neighborhood?

Business metrics:

  • Tingkat Okupansi: Memahami hubungan antara tingkat okupansi dan lokasi listing.

Penjelasan Solusi:

Kita bisa menggunakan model yang memunculkan rekomendasi penginapan dengan harga terjangkau namun dengan review yang cenderung positif kepada pengguna.

H. Home Credit Default Risk

Problem:

Sebagai perusahaan yang menyediakan jasa pemberian kredit, tantangan utama yang dihadapi oleh Home Credit adalah memprediksi apakah seorang pemohon akan gagal membayar pinjaman berdasarkan berbagai fitur yang dikumpulkan pada saat aplikasi

Business metrics:

  • Tingkat Gagal Bayar Pinjaman: Persentase pinjaman yang tidak dibayar kembali

Penjelasan Solusi:

Model prediktif digunakan untuk menganalisis fitur-fitur aplikasi seperti riwayat kredit, pendapatan, dan pekerjaan guna memprediksi kemungkinan gagal bayar. Dengan ini, pemohon berisiko tinggi dapat diidentifikasi dan tindakan pencegahan diambil untuk menurunkan tingkat gagal bayar pinjaman serta meningkatkan stabilitas finansial perusahaan.

Exam

  1. Berdasarkan dell maturity model, mana yang merupakan level kematangan tertinggi?

A. Data-driven
B. Data savvy
C. Data expert
D. Data proficient

2. Manakah yang bukan merupakan pekerjaan terkait data?

A. Data engineer
B. Business intelligence
C. Data scientist
D. Front-end engineer

3. Mana yang BUKAN merupakan hal yang dikerjakan oleh seorang data scientist?

A. Menggali insight dari data
B. Membuat desain untuk halaman website
C. Melakukan analisis dari hasil A/B testing
D. Membuat pemodelan machine learning

4. Mana yang merupakan sebuah business metrics?

A. Jumlah pengunjung aplikasi
B. Telekomunikasi
C. Digital marketing
D. Fintech

5. Menurut profitability framework, apa formula dari profit?

A. cost - revenue
B. revenue + cost
C. revenue - cost
D. revenue * cost

6. Di perusahaan e-commerce, kita menemukan insight bahwa user laki-laki suka membeli produk elektronik. Apa rekomendasi bisnis yang kita berikan?

A. Fokuskan untuk penjualan produk elektronik, dan hentikan penjualan produk lainnya
B. Jangan munculkan produk elektornik jika usernya perempuan
C. Naikkan harga produk elektronik
D. Saat ada user laki-laki datang, berikan beberapa rekomendasi produk elektronik

7. Mana yang merupakan sumber data yang dapat diperoleh dari internal?

A. Scraping dari twitter
B. Data transaksi di database
C. Public dashboard
D. data hasil survey vendor

8. Apa pentingnya mendefinisikan goals di awal untuk suatu project data science

A. Sebagai arahan apa yang ingin dicapai, dan nantinya dapat merefleksikan apakah project kita sukses atau tidak
B. Untuk meningkatkan performasi model machine learning yang akan dibuat
C. Untuk pengambilan data, dibutuhkan ifnormasi goals terlebih dahulu
D. Goals hanya formalitas, di tengah project bisa diubah-ubah

9. Jumlah revenue bulan lalu di perusahaan ternyata menurun. Kira-kira mana saja yang bisa menjadi penyebabnya?

A. Bulan lalu ada banyak hari libur, dan tidak banyak transaksi terjadi di hari libur
B. Bulan lalu kita melakukan banyak promo di berbagai kota
C. Bulan lalu semapt ada gangguan di aplikasi sehingga pembayaran gagal dilakukan
D. Bulan lalu ada beberapa produk yang stoknya habis, padahal biasanya laris

10. Kita sudah selesai training sebuah model machine learning, ternayta hasil evaluasinya amsih kurang bagus. Apa yang harus kita lakukan?

A. Tidak masalah hasilnya kurang bagus, tetap lanjutkan ke deployment
B. Tunggu beberapa hari, lalu lalkukan evaluasi lagi terhadap modelnya. Biasanya hasilnya akan membaik.
C. Mencoba menggunakan algoritma machine learning yang lain
D. Memanipulasi hasil evaluasi agar terlihat bagus

11. Kita punya data user yang terdiri dari artibut: nama, jenis kelamin, dan tanggal alhir. Insight apa yang bisa kita tarik dari data tersebut? (bisa lebih dari 1 jawaban)

A. Apakah di antara user-user tersebut ada yang merupakan saudara kembar?
B. Berapa banyak user yang berusia kurang dari 30 tahun?
C. Apakah user laki-laki lebih berumur panjang dibanding perempuan?
D. Berapa rentang usia dari user laki-laki?

12. Mengapa data scientist harus memiliki business acumen yang baik?

A. Untuk persiapan membangun bisnis sendiri
B. Karena jenjang karir selanjutnya bagi data scientist adalah bergabung dengan team bisnis
C. Karena data scientists wajib mengikuti sertifikasi bisnis
D. Agar bisa memahami business problem dengan lebih baik, dan memberikan solusi yang relevan

13. Pada bagian “bekerja dengan data”, tahap amna yang harus dilakukan terlebih dahulu?

A. Data requirement
B. Data collection
C. Data understanding
D. Data preparation

14. Suatu e-commerce ingin membuat suatu campaign dan promo untuk suatu kategori. Bagaimana sebaiknya cara menentukan kategori mana yang akan dipilih?

A. Pilih kategori yang paling disukai CEO
B. Lakukan analisa data, kategori amna yang sedang trending
C. Gunakan randomizer untuk memilih kategori
D. Kategori manapun tidak masalah, jika tidak perlu banyak pertimbangan

15. Skill mana saja yang dibutuhkan oleh seorang data scientist?

A. StatistikaOption 1
B. Programming
C. Visualisasi data

D. Network

16. Salah satu hal yang menyebabkan pekerjaan data scientist memiliki prospek yang bagus yaitu

A. Pekerjaan data scientist sudah ada sejak abad 18
B. Banyak perusahaan tidak menyimpan data transaksinya
C. Banyak perusahaaan menyadari bahwa data dapat dimanfaatkan untuk meningkatkan bisnis
D. Teknologi big data masih stagnan

17. Business metrics mana saja, yang jika nilainya meningkat, maka berpotensi akan meningkatkan revenue juga?

A. Jumlah transaksi
B. Jumlah pembeli

C. Jumlah fraud
D. Jumlah komplain

18. Apa perbedaan variable cost dan fixed cost?

A. Variable cost bisa kita ubah-ubah sesuka hati, sedangkan fixed cost nilainya tetap (tidak dapat diubah)
B. Variable cost dapat membantu meningkatkan revenue, tetapi fixed cost tidak bisa
C. Fixed cost nilainya tetap berapapun jumlah produknya, sedangkan varuable cost nilainya bergantung dari jumlah produk
D. Keduanya sebenarnya sama saja, hanya beda istilah

19. Kita sudah membangun suatu model untuk mendeteksi pelanggan yang akan churn (berhenti menggunakan layanan). Action mana yang tepat untuk dilakukan terhadap pelanggan yang terdeteksi akan churn?

A. Diberi tawaran promo khusus agar mereka tetap menggunakan layanan kita
B. Memberikan info bahwa mereka akan terkena denda jika sampai churn
C. Menjelaskan bahwa kompetitor memiliki layanan yang buruk
D. Langsung dimatikan layanannya terlebih dahulu sebelum mereka benar-benar churn

20. Kita ingin membuat model machine learning untuk memprediksi harga suatu HP bekas. Data mana yang paling TIDAK RELEVAN?

A. Spesifikasi HP
B. Harga baru HP
C. Kondisi HP
D. Umur pemilik HP sekarang

21. Apa tujuan fitur search di Youtube?

A. Untuk membantu user menemukan video yang mereka inginkan dengan lebih cepat
B. Setiap search yang dilakukan, Youtube akan mendapatkan revenue
C. Bisa mengurangi komplain user
D. Tidak ada tujuannya, itu memang fitur standar aplikasi

22. Problem manakah yang bisa diselesaikan dengan diagnostic analytics?

A. Mencari tahu jumlah nasabah baru di suatu bank pada tahun 2019
B. Mencari tahun mengapa nasabah baru di suatu bank pada tahun 2019 lebih kecil dibandingkan tahun 2018
C. Mencari tahu berapa kira-kira jumlah nasabah baru di suatu bank 3 tahun ke depan
D. Mencari tahu siapa nasabah pertama di suatu bank pada tahun 2019

23. Manakah hal yang mungkin terjadi?

A. Akurasi model setelah deployment di production lebih tinggi dibandingkan akurasi saat evaluasi model
B. Akurasi model setelah deployment di production lebih rendah dibandingkan akurasi saat evaluasi model
C. Akurasi model setelah deployment mencapai 100%
D. Semua jawaban di atas mungkin terjadi

24. Mana objective yang bisa membantu meningkatkan jumlah transaksi?

A. Membuat suatu sistem rekomendasi untuk membantu user menemukan produk yang sesuai
B. Membuat model untuk memprediksi fraud
C. Membuat model untuk memprediksi umur user
D. Memotong budget marketing agar lebih hemat

25. Mana saja yang merupakan penerapan prinsip pareto?

A. 80% revenue berasal dari 20% produk
B. ; 80% transaksi berasal dari 20% pelanggan
C. 80% komplain berasald ari 20% unit usaha
D. 80% penjualan berasal dari 20% biaya marketing

26. Sebelum melakukan deployment model machine learning, apa yang sebaiknya dilakukan?

A. Mulai fokus ke project yang lain
B. Melakukan imapct analysis
C. Melakukan EDA (Exploratory Data Analysis)
D. Melakukan eksperimen modelling lagi walaupun akurasinya sudah bagus

--

--