Saya akan memberi Anda penjelasan terperinci tentang membuat plot pencar untuk banyak variabel dengan Python. Plot pencar adalah cara yang bagus untuk memvisualisasikan hubungan di antara banyak titik data. Mereka membantu kita memahami bagaimana variabel berkorelasi, bagaimana mereka didistribusikan dan apakah mereka memiliki poin outlier.
Di Python, banyak perpustakaan memberi kita fungsi siap pakai untuk membuat plot pencar untuk banyak variabel, seperti Matplotlib dan Seaborn. Kami akan fokus pada dua perpustakaan ini sambil memecahkan masalah kami dalam menguraikan hubungan antara beberapa titik data.
Pengantar matplotlib dan seaborn
Matplotlib adalah salah satu pustaka plot Python paling populer yang menghasilkan figur berkualitas dalam berbagai format. Ini memungkinkan kita menghasilkan plot, histogram, spektrum daya, diagram batang, diagram kesalahan, plot pencar, dll., hanya dengan beberapa baris kode.
Seaborn, di sisi lain, didasarkan pada Matplotlib dan terintegrasi erat dengan struktur data panda. Ini menyediakan antarmuka tingkat tinggi untuk menggambar grafik statistik yang menarik dan informatif.
# Required Libraries import matplotlib.pyplot as plt import seaborn as sns
Solusi masalah
Untuk tujuan artikel ini, anggaplah Anda memiliki kumpulan data dengan tiga variabel, a, b, dan c. Anda ingin membuat plot pencar yang dapat menunjukkan hubungan antara variabel-variabel ini.
Solusinya sangat mudah, kita bisa menggunakan fungsi scatterplot() di seaborn atau fungsi scatter() di matplotlib untuk membuat scatter plot. Kita juga harus menggunakan fungsi pairplot() lebih lanjut untuk membuat scatter plot dari beberapa variabel.
Penjelasan langkah demi langkah
# Importing libraries
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Create a pandas DataFrame
df = pd.DataFrame({
'a': [1, 2, 3, 4, 5],
'b': [5, 4, 3, 2, 1],
'c': [1, 3, 5, 7, 9]
})
# Create a pair plot
sns.pairplot(df)
plt.show()
Pada kode di atas, pertama-tama kita mengimpor pustaka yang diperlukan. Kami kemudian membuat DataFrame untuk menyimpan data kami. Terakhir, kami memanggil fungsi pairplot() dari perpustakaan seaborn untuk membuat plot pencar.
Fungsi sns.pairplot() membuat kisi Sumbu sedemikian rupa sehingga setiap variabel dalam data Anda akan dibagi dalam sumbu y melintasi satu baris dan sumbu x melintasi satu kolom. Intinya, ini membuat plot pencar untuk setiap pasangan variabel untuk kita.
Perpustakaan & Fungsi Tambahan
Panda adalah perpustakaan lain yang sering sejalan dengan Matplotlib dan Seaborn. Ini adalah alat analisis dan manipulasi data sumber terbuka, dibangun di atas pustaka inti Python untuk manipulasi dan analisis data.
Ini menyediakan struktur data dan fungsi yang diperlukan untuk memanipulasi data terstruktur, termasuk fungsi untuk membaca dan menulis data, menangani data yang hilang, memfilter data, dan membentuk ulang data.
# Import library
import pandas as pd
# Create a DataFrame
data = pd.read_csv('filename.csv')
Fungsi pd.read_csv() membaca file CSV dan mengubahnya menjadi DataFrame panda, yang kemudian dapat dimanipulasi menggunakan berbagai fungsi panda. Kerangka data ini dapat diplot dengan menggunakan fungsi scatterplot() atau fungsi pairplot() seperti yang ditunjukkan sebelumnya.