1

Pengklasifikasi

Ⅰ. Pengantar Dasar

1. Apa itu Pengklasifikasi

Pengklasifikasi adalah istilah umum untuk mengklasifikasikan sampel dalam data mining. Untuk memberi Kamu gambaran intuitif tentang klasifikasi, mari kita lihat dua contoh:

  • Pengenalan anggur: kami mengukur warna (panjang gelombang) dan konsentrasi alkohol dari sebotol anggur. Berdasarkan data ini, mesin harus menentukan apakah botol itu bir, anggur merah, atau alkohol.

  • Penilaian penyakit: pasien pergi ke rumah sakit untuk melakukan banyak tes seperti tes fungsi hati, tes darah. Input data ini ke dalam mesin, dan mesin akan menentukan apakah pasien sakit dan penyakit apa yang dideritanya berdasarkan data tersebut.

Mesin ini, yang secara otomatis dapat mengklasifikasikan masukan, disebut pengklasifikasi.

Bagi manusia, kita mungkin dapat membuat identifikasi sederhana tentang alkohol dengan mata kita, tetapi tidak mudah untuk menilai penyakit. Pada titik ini, jika ada pengklasifikasi untuk penilaian penyakit, kita hanya perlu memasukkan data pengujian yang sesuai, dan penilaian dapat diperoleh.

Apa yang dapat dilakukan pengklasifikasi berdasarkan kecerdasan buatan lebih dari sekadar penilaian penyakit. Itu dapat mencapai penilaian yang lebih kompleks dengan lebih banyak fitur. Untuk komputer, penyimpanan dan komputasi adalah keunggulan mereka. Dengan pengklasifikasi yang begitu kuat, kecerdasan buatan dapat membantu kita melakukan hampir semua penilaian kompleks di masa depan. Manfaatkan kecerdasan buatan dengan lebih baik, Anda bisa mendapatkan kesempatan pertama di masa depan.

Ada banyak cara untuk mengimplementasikan pengklasifikasi, salah satunya dengan pembelajaran mendalam berbasis jaringan neural.

2. Prinsip Pengklasifikasi AI (Jaringan Neural)

Model jaringan neural berasal dari algoritma yang mencoba membuat mesin meniru otak, menghubungkan neuron yang meniru neuron untuk membentuk citra jaringan.

Seperti gambar dibawah ini:

Jaringan neural lengkap terdiri dari layer masukan (4 unit masukan), layer tersembunyi (2 layer, 4 dan 3 unit tersembunyi) dan layer keluaran (2 unit keluaran).

  • Layer masukan : masukan fitur yang perlu diprediksi.

    Sebagai contoh: Dalam pengenalan anggur, fitur anggur adalah yang warna konsentrasi dan alkohol; Dalam penilaian penyakit, ciri-ciri penyakit adalah banyak data.

  • Layer tersembunyi : melalui struktur layer tersembunyi yang kompleks, fitur-fitur penting dalam data masukan diekstraksi, dan hasilnya ditransmisikan ke layer keluaran. Layer tersembunyi dapat berupa lapisan tunggal atau lapisan banyak, dengan jumlah neuron tertentu di setiap lapisan.

  • Layer Keluaran: layer dengan hasil klasifikasi keluaran yang berbeda disebut dengan layer keluaran.

    Sebagai contoh:

    Dalam pengenalan anggur, hasil keluarannya adalah bir, anggur merah, dan minuman keras;

    Dalam penilaian penyakit, hasil keluarannya sehat, dingin, demam, dll.

Singkatnya, seluruh jaringan saraf mengumpulkan informasi melalui layer masukan, menggunakan layer tersembunyi untuk menjalankan operasi dan memproses informasi, dan mengeluarkan hasil klasifikasi ke layer keluaran. Dengan demikian fungsi pengklasifikasi terwujud.

3. Pelatihan dan Prediksi Jaringan Neural

Pengklasifikasi perlu dilatih untuk memprediksi hasil klasifikasi secara kasar.

  • Misalnya:          Siapa yang lebih mampu membedakan anggur, orang yang belum pernah melihat anggur, atau orang yang memiliki pengetahuan yang baik tentang anggur?
    • Jawabannya jelas yang terakhir. Seseorang yang telah meminum banyak anggur dan memiliki banyak penelitian tentangnya, mengetahui jenis dan rasa anggur tersebut. Semakin banyak dia minum, semakin banyak jenis anggur yang dia ketahui.

Demikian pula untuk pengklasifikasi, perlu terus dilatih dengan sejumlah besar data pelatihan. Setiap grup data pelatihan perlu memuat semua fitur dan kategori klasifikasi.

Ini seperti melatih pria yang tidak tahu cara minum. Setelah berlatih cukup lama, dia bisa mengetahui jenis anggur.

Akurat tidaknya hasil prediksi tersebut terkait dengan struktur jaringan neural, jumlah waktu pelatihan, dan bahkan beberapa faktor acak dalam pelatihan.

Ⅱ. Blok Pengklasifikasi

1.Matrix data

  • Data dapat digunakan untuk mengakses langsung baris atau kolom tertentu dari sebuah matriks

  • Ada dua jenis data matriks:

    • Data terkait dalam bentuk excel yang diupload oleh pengguna sistem akan menyimpan data sebagai data matriks, yaitu, himpunan dua dimensi.
    • Dalam rangka untuk dapat pengguna untuk mempelajari dan menggunakan blok lebih mudah, sistem prafabrik empat kelompok data pelatihan: UpDown -Distribusi-Matrix, LeftRight -Distribusi-Matrix, Round-Distribusi-Matrix dan Spiral-Distribusi-Matrix, yang disimpan sebagai data matriks

2. Siapkan fitur pelatihan dan data klasifikasi

  • Fitur pelatihan harus berupa angka, jika tidak maka akan diabaikan oleh sistem.

  • Data klasifikasi: data dapat berupa angka atau string, sistem akan secara otomatis mengidentifikasi jumlah kategori. (Lapisan keluaran saat ini hanya mendukung dua kategori, jika tidak maka tidak dapat dijalankan .) )

    • Contoh:

    Seperti gambar 1, ini adalah struktur data pelatihan yang khas. Dalam matriks ini, setiap baris adalah sekumpulan data.

    Data dalam bingkai merah adalah satu set data berikut: Data 1. Nilai dalam A1 (20.45) dan B1 (14.75) adalah dua fitur Data 1. Data pada C1 merupakan keluaran hasil klasifikasi dari Data 1.

    Seluruh matriks dibentuk oleh fitur pelatihan dan klasifikasi semua set. Daftar A dan Daftar B adalah fitur pelatihan, dan Daftar C adalah hasil klasifikasi di bawah fitur ini: titik biru dan titik merah.

  • Dua penggunaan standar blok data pelatihan:

    • 1.Formulir daftar

    Buat daftar baru di Data di sidebar:

    Data daftar dapat dipanggil secara langsung dengan memasukkan data yang sesuai:

    • 2.Bentuk matrix

    Unggah file excel lokal atau gunakan 4 data matriks yang dibuat sebelumnya oleh sistem.

    Data dapat dipanggil oleh blok ini.

3. Struktur jaringan saraf (blok lapisan MLP)

  • Setel struktur lapisan tersembunyi jaringan saraf.

  • Layer tersembunyi dapat berupa satu layer atau beberapa layer. Struktur layer tersembunyi yang berbeda dari jaringan neural memiliki efek yang berbeda pada hasil akhir pelatihan.

4. Algoritma propagasi balik (blok pelatihan)

  • Gunakan algoritme khusus untuk melatih sekumpulan data pelatihan, dan simpan sebagai model.

    • Waktu pelatihan untuk satu blok adalah 20. Pengulangan blok diperlukan untuk pelatihan lebih dari 20 kali.
  • Dalam pelatihan, informasi pelatihan yang relevan akan ditampilkan di atas panggung.

    • Jika layer masukan (fitur pelatihan) adalah 2, gambar pelatihan dengan prediksi model akan muncul.

    • Jika layer masukan (fitur pelatihan) bukan 2, gambar prediksi tidak dapat ditampilkan.

    • Saat jumlah pelatihan meningkat, model yang diprediksi menjadi lebih akurat:

5. Blok prediksi

  • Simpan data yang dilatih sebagai model dan prediksi fitur masukan baru.

    • Catatan: jumlah fitur yang diprediksi harus konsisten dengan data pelatihan asli, jika tidak, hasilnya tidak dapat diprediksi.
  • Hasil prediksi dalam dua bentuk:

    • Klasifikasikan hasil

      Fungsi: menampilkan langsung hasil prediksi klasifikasi, dan mengeluarkannya dalam bentuk variabel.

      Pola:

    • Klasifikasikan kemungkinan

      Fungsi: menunjukkan kemungkinan hasil klasifikasi yang berbeda dalam kumpulan fitur, dan menampilkannya dalam bentuk daftar.

      Pattern