Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan data kategoris

Data kategoris memiliki kumpulan tertentu kemungkinan nilai. Contoh:

Berbagai spesies hewan di taman nasional
Nama-nama jalan di kota tertentu
Apakah email merupakan spam atau bukan
Warna yang digunakan untuk mengecat eksterior rumah
Angka yang dikelompokkan, yang dijelaskan dalam modul Menggunakan Data Numerik

Angka juga dapat berupa data kategoris

Data numerik benar dapat dikalikan secara bermakna. Misalnya, pertimbangkan model yang memprediksi nilai rumah berdasarkan areanya. Perhatikan bahwa model yang berguna untuk mengevaluasi harga rumah biasanya mengandalkan ratusan fitur. Dengan demikian, jika semua hal lainnya sama, rumah seluas 200 meter persegi seharusnya bernilai dua kali lipat dari rumah identik seluas 100 meter persegi.

Sering kali, Anda harus merepresentasikan fitur yang berisi nilai bilangan bulat sebagai data kategorikal alih-alih data numerik. Misalnya, pertimbangkan fitur kode pos yang nilainya berupa bilangan bulat. Jika Anda mewakili ini fitur secara numerik, bukan kategoris, Anda meminta model untuk menemukan hubungan numerik di antara kode pos yang berbeda. Artinya, Anda memberi tahu model untuk memperlakukan kode pos 20004 sebagai sinyal dua kali (atau setengah) lebih besar dari kode pos 10002. Merepresentasikan kode pos sebagai data kategorik memungkinkan model memberi bobot setiap kode pos secara terpisah.

Encoding

Encoding berarti mengonversi data kategori atau data lainnya menjadi vektor numerik yang dapat digunakan untuk melatih model. Konversi ini diperlukan karena model hanya dapat dilatih pada nilai floating point; model tidak dapat dilatih pada string seperti "dog" atau "maple". Modul ini menjelaskan berbagai metode encoding untuk data kategorik.

Pusat Bantuan

Sebelumnya

Kesimpulan (2 mnt)

Berikutnya

Kosakata dan enkode one-hot (10 mnt)

Menggunakan data kategoris Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Angka juga dapat berupa data kategoris

Encoding

Menggunakan data kategoris