Apabila sudah bisa melakukan analisa menggunakan SQL ataupun Python, selanjutnya kita harus menyajikan hasil analisa tersebut ke dalam visualisasi yang mudah dipahami.
Namun, sebelum lanjut lebih jauh, kita bisa ulas balik 2 materi sebelumnya melalui link berikut :
Apa itu Data Visualization?
Data visualisasi merupakan proses untuk merepresentasikan data melalui diagram atau grafik. Tujuannya adalah agar mempermudah pemahaman terhadap data yang kompleks, sehingga didapatkan kesimpulan dan dapat ditemukan insight baru dari hasil pengolahan data.
Bagaimana cara visualisasi data?
Masih seperti materi sebelumnya, disini kita memanfaatkan workspace dari Google yaitu Google Data Studio melalui URL https://datastudio.google.com/ dengan tampilannya seperti ini
Kita dapat memulai dengan membuat lembar kerja baru jika memilih “Buat Laporan” atau pilih “Sumber Data” jika ingin memulai dengan mencari dataset yang akan digunakan.
Tampilan awal apabila berhasil membuat dokumen adalah seperti gambar diatas. Untuk dataset yang digunakan dapat dilihat pada kolom paling kanan dengan header Data. Disitu tertulis “data_hotel — Sheet1” yang menunjukkan bahwa dataset yang diambil menggunakan seluruh data yang ada pada sheet 1 file data_hotel. Dan seluruh nama kolom juga tertera di bawahnya.
Jika ingin mulai menambahkan grafik, silahkan bisa langsung dipilih “Tambahkan Diagram”, maka akan muncul banyak pilihan diagram yang dapat disesuaikan dengan kebutuhan masing-masing.
Pada pembahasan persoalan kali ini masih sama dengan sebelumnya yaitu terkait “Hotel Booking Demand”, namun ada sedikit perbedaan record data. Aku menggunakan dataset melalui Google Spreadshet akan mudah untuk mengoneksikan dengan nama “data_hotel” dapat diakses melalui link akses dataset.
Persoalan Nomor 1 : Berapa total booking yang dibuat di masing-masing jenis hotel? Lebih banyak di hotel jenis yang telah terbooking apa? Jelaskan insight apa yang di dapat dari visualisasi tsb
Kita menggunakan vertikal diagram batang disini dengan mengambil dimensi rentang tanggal menggunakan kolom reservation_status_date dan dimensinya menggunakan kolom hotel.
Karena disini kita ingin melihat total booking, maka pada metrik, kita menggunakan AUT atau automatic dan melakukan rename yang aslinya Record Count menjadi Total Booking.
Jika dilihat berdasarkan grafik yang dihasilkan, City Hotel jauh lebih banyak daripada Resort Hotel hingga 2x lipatnya.
Persoalan Nomor 2 : Tunjukkan visualisasi yang membandingkan jumlah booking oleh turis lokal (local market, asal negara Portugal) dan booking oleh turis inbound (inbound tourism, asal dari negara lain). Dari mana booking paling banyak berasal?Jelaskan insight apa yang di dapat dari visualisasi tsb
Untuk dapat menyelesaikan soal nomor 2 ini, kita harus mengetahui terlebih dahulu mana turis mana penduduk lokal. Namun ternyata tidak terdapat kolom yang menjelaskan itu. Sehingga, kita dapat melakukan penambahan kolom yang kita inisiasi dengan nama is_local_market. Cara menambahkannya dengan cara pilih “Tambahkan kolom pada bagian paling bawah”.
Maka akan muncul seperti ini. Kita tambahkan formula dengan “case when”. Apabila negara asal pemesan tersebut diinisiasi dengan PRT (Portugal), maka ia dianggap sebagai penduduk lokal (local market), sedangkan apabila negara asal pemesan selain dari PRT (Portugal), maka ia dianggap sebagai turis.
CASE
when country = 'PRT' then 'Local Market'
else 'Inbound Tourism'
END
Kita cukup menggunakan kolom is_local_market yang baru saja kita buat dan tambahkan pada bagian dimensi dengan metrik AUT (automatic) yang menampilkan jumlahnya.
Berdasarkan hasil visualisasi diatas, dapat disimpulkan bahwa pemesan hotel lebih banyak berasal dari luar Portugal dengan jumlah hampir 70.000 pemesan.
Persoalan Nomor 3 : Bagaimana pola ADR di tiap jenis hotel berdasarkan rata-rata ADR di tiap minggu? Apakah di kedua jenis hotel rata-rata ADR naik dan turun di periode (minggu/bulan/musim) yang sama?Jelaskan insight apa yang di dapat dari visualisasi tsb
Untuk menampilkan ADR, kita tidak menggunakan grafik batang lagi, tetapi menggunakan data timeseries atau rentang waktu.
Karena permintaan persoalan diatas adalah rata-rata ADR per periode, maka disini menggunakan periode minggu. Pada dimensi, kita menggunakan kolom “arrival_date_week_number” yang mana akan menjadi keterangan pada sumbu x dan yang muncul disitu adalah keterangan “Minggu ke-1” sd “Minggu ke-52” dalam 1 tahun.
Pada bagian dimensi perincian, kita menggunakan kolom hotel. Dan metriknya kita menggunakan AVG (average) karena untuk menghitung rata-rata dan kolomnya adalah ADR.
Lalu bagaimana cara membaca diagram diatas? Disana terlihat ada 2 garis dengan 2 warna yang berbeda. Masing-masing garis itu menunjukkan jenis hotel yang ada pada dataset. Garis yang berwarna biru tua, ia merupakan grafik ADR untuk Resort Hotel, dan garis yang berwarna biru muda merupakan grafik ADR untuk City Hotel.
Terlihat bahwa City Hotel lebih memiliki ADR yang stabil dibandingkan Resort Hotel dari Minggu ke-1 hingga Minggu ke-52. Dan Resort Hotel memiliki ADR yang relatif naik turun dengan tajam.
Gak terasa kita udah belajar 3 materi mulai dari SQL, Python, hingga visualisasi data. Semoga semua apa yang telah kita pelajari bersama ini bermanfaat dan dapat kita terapkan untuk menjadi seorang data analis yang profesional.