Google: Model besar tidak hanya memiliki kemampuan untuk muncul, tetapi juga memiliki kemampuan untuk "memahami" setelah waktu pelatihan yang lama

Pada tahun 2021, para peneliti membuat penemuan yang luar biasa ketika melatih serangkaian model miniatur, yaitu setelah pelatihan yang lama, akan ada perubahan model, dari hanya "menghafal data pelatihan" di awal, menjadi berubah menjadi tidak pernah. terlihat sebelumnya Data juga menunjukkan kemampuan generalisasi yang kuat.

Fenomena ini disebut "grokking". Seperti yang ditunjukkan pada gambar di bawah ini, setelah model cocok dengan data pelatihan dalam waktu yang lama, fenomena "grokking" akan tiba-tiba muncul.

Karena model miniatur memiliki karakteristik ini, apakah model yang lebih kompleks akan tiba-tiba muncul "pemahaman" setelah periode pelatihan yang lebih lama? Baru-baru ini, model bahasa besar (LLM) telah berkembang pesat. Mereka tampaknya memiliki pemahaman yang kaya tentang dunia. Banyak orang berpikir bahwa LLM hanya mengulang konten pelatihan yang dihafal. Seberapa benar pernyataan ini? Bagaimana kita bisa menilai bahwa LLM menghasilkan memori content? , atau apakah itu menggeneralisasi dengan baik ke data input?

Untuk lebih memahami masalah ini, para peneliti dari Google dalam artikel ini menulis sebuah blog, mencoba mencari tahu alasan sebenarnya dari fenomena "pemahaman" model besar yang tiba-tiba.

Artikel ini dimulai dengan dinamika pelatihan model miniatur. Mereka merancang MLP satu lapis dengan 24 neuron dan melatih mereka untuk belajar melakukan tugas penjumlahan modular. Kita hanya perlu tahu bahwa output dari tugas ini bersifat periodik. bentuk (a + b) mod n.

Bobot model MLP ditunjukkan pada gambar di bawah ini, ditemukan bahwa bobot model pada awalnya sangat bising, tetapi seiring bertambahnya waktu, mulai menunjukkan periodisitas.

Periodisitas ini bahkan lebih jelas jika bobot masing-masing neuron divisualisasikan:

Jangan remehkan periodisitas. Periodisitas bobot menunjukkan bahwa model sedang mempelajari struktur matematika tertentu, yang juga merupakan kunci transformasi model dari data memori ke kemampuan generalisasi. Banyak orang bingung dengan transisi ini, mengapa model berubah dari mengingat pola data menjadi menggeneralisasi pola data.

Eksperimen dengan urutan 01

Untuk mengetahui apakah model itu menggeneralisasi atau menghafal, studi melatih model untuk memprediksi apakah ada bilangan ganjil 1 dalam tiga digit pertama dari urutan acak 30 satu dan nol. Misalnya, 000110010110001010111001001011 adalah 0 dan 010110010110001010111001001011 adalah 1. Ini pada dasarnya adalah masalah XOR yang sedikit lebih rumit dengan beberapa kebisingan yang mengganggu. Jika model menggeneralisasi, seharusnya hanya menggunakan tiga digit pertama dari urutan; jika model menghafal data pelatihan, itu juga akan menggunakan digit berikutnya.

Model yang digunakan dalam penelitian ini adalah MLP satu lapis yang dilatih pada batch tetap sebanyak 1200 urutan. Pada awalnya, hanya akurasi pelatihan yang meningkat, yaitu model mengingat data pelatihan. Seperti aritmatika modular, akurasi pengujian bersifat stokastik, meningkat tajam saat model mempelajari solusi umum.

Mengapa hal ini terjadi dapat lebih mudah dipahami dengan contoh sederhana dari soal urutan 01. Alasannya adalah model melakukan dua hal selama pelatihan: meminimalkan kehilangan dan penurunan berat badan. Kerugian pelatihan sebenarnya meningkat sedikit sebelum model menggeneralisasi, karena memperdagangkan kerugian yang terkait dengan mengeluarkan label yang benar untuk bobot yang lebih rendah.

Penurunan tajam dalam kerugian pengujian membuatnya tampak seperti model tiba-tiba menggeneralisasi, tetapi jika Anda melihat bobot model selama pelatihan, sebagian besar model dengan lancar menginterpolasi antara dua solusi. Generalisasi cepat terjadi ketika bobot terakhir yang terhubung ke digit berikutnya yang mengganggu dipangkas melalui penurunan bobot.

**Kapan fenomena "pemahaman" terjadi? **

Perlu dicatat bahwa "grokking" adalah fenomena yang tidak disengaja - jika ukuran model, penurunan bobot, ukuran data, dan hyperparameter lainnya tidak sesuai, fenomena "grokking" akan hilang. Jika bobot berkurang terlalu sedikit, model akan disesuaikan dengan data pelatihan. Jika bobotnya terlalu banyak, model tidak akan dapat mempelajari apa pun.

Di bawah, studi melatih lebih dari 1000 model pada tugas 1 dan 0 menggunakan hyperparameter yang berbeda. Proses pelatihannya berisik, jadi sembilan model dilatih untuk setiap set hyperparameter. Ini menunjukkan bahwa hanya dua jenis model yang memiliki fenomena "pemahaman", biru dan kuning.

** Penjumlahan modular dengan lima neuron **

Penjumlahan modulo a+b mod 67 bersifat periodik, jika jumlahnya melebihi 67, jawabannya akan menghasilkan fenomena pembungkusan, yang dapat direpresentasikan dengan lingkaran. Untuk menyederhanakan masalah, penelitian ini membuat matriks penyisipan, menggunakan cos⁡ dan sin⁡ untuk menempatkan a dan b pada lingkaran, yang dinyatakan dalam bentuk berikut.

Ternyata model menemukan solusi dengan sempurna dan akurat hanya dengan 5 neuron:

Melihat parameter yang dilatih, tim peneliti menemukan bahwa semua neuron menyatu dengan norma yang kira-kira sama. Jika Anda memplot komponen cos⁡ dan sin⁡ secara langsung, mereka pada dasarnya terdistribusi secara merata dalam sebuah lingkaran.

selanjutnya adalah

, yang dilatih dari awal tanpa periodisitas bawaan, model memiliki banyak frekuensi berbeda.

Penelitian ini menggunakan Discrete Fourier Transform (DFT) untuk memisahkan frekuensi. Sama seperti dalam tugas 1 dan 0, hanya beberapa bobot yang memainkan peran kunci:

Gambar di bawah menunjukkan bahwa pada frekuensi yang berbeda, model juga dapat mencapai "pemahaman":

Pertanyaan-pertanyaan terbuka

Sekarang, meskipun kami memiliki pemahaman yang kuat tentang bagaimana MLP lapisan tunggal menyelesaikan penjumlahan modular dan mengapa hal itu muncul selama pelatihan, masih banyak pertanyaan terbuka yang menarik dalam hal memori dan generalisasi.

**Model mana yang lebih terbatas? **

Secara garis besar, penurunan berat badan memang bisa memandu berbagai model untuk menghindari menghafal data latihan. Teknik lain yang membantu menghindari overfitting termasuk dropout, downsizing model, dan bahkan algoritme pengoptimalan yang tidak stabil secara numerik. Metode-metode ini berinteraksi dengan cara nonlinear yang kompleks, sehingga sulit untuk memprediksi secara apriori metode mana yang pada akhirnya akan menyebabkan generalisasi.

Selain itu, hyperparameter yang berbeda akan membuat peningkatan tidak terlalu tiba-tiba.

**Mengapa menghafal lebih mudah daripada generalisasi? **

Satu teori adalah bahwa mungkin ada lebih banyak cara untuk menghafal set pelatihan daripada menggeneralisasi. Oleh karena itu, secara statistik, hafalan lebih mungkin terjadi terlebih dahulu, terutama dalam kasus tidak ada atau sedikit regularisasi. Teknik regularisasi seperti peluruhan berat mendukung solusi tertentu, misalnya, mendukung solusi "jarang" daripada solusi "padat".

Penelitian telah menunjukkan bahwa generalisasi dikaitkan dengan representasi yang terstruktur dengan baik. Namun, ini bukan kondisi yang diperlukan; beberapa varian MLP tanpa input simetris mempelajari lebih sedikit representasi "melingkar" saat menyelesaikan penjumlahan modular. Tim peneliti juga menemukan bahwa representasi yang terstruktur dengan baik bukanlah syarat yang cukup untuk generalisasi. Model kecil ini (dilatih tanpa penurunan berat badan) mulai menggeneralisasi dan kemudian beralih menggunakan memori yang tertanam berulang kali.

Seperti yang Anda lihat pada gambar di bawah, tanpa penurunan bobot, model memori dapat mempelajari bobot yang lebih besar untuk mengurangi kerugian.

Bahkan dimungkinkan untuk menemukan hyperparameter tempat model mulai menggeneralisasi, lalu beralih ke memori, lalu beralih kembali ke generalisasi.

**Bagaimana dengan model yang lebih besar? **

Memahami solusi penambahan modular bukanlah hal yang sepele. Apakah kita memiliki harapan untuk memahami model yang lebih besar? Di jalur ini Anda mungkin perlu:

  1. Latih model yang lebih sederhana dengan lebih banyak bias induktif dan lebih sedikit bagian yang bergerak.

  2. Gunakan mereka untuk menjelaskan bagian yang membingungkan tentang cara kerja model yang lebih besar.

  3. Ulangi sesuai kebutuhan.

Tim peneliti percaya ini mungkin cara untuk lebih memahami model besar secara efisien, dan dari waktu ke waktu, pendekatan mekanis untuk interpretabilitas ini dapat membantu mengidentifikasi pola yang memungkinkan jaringan saraf mempelajari wahyu algoritmik menjadi mudah dan bahkan otomatis.

Untuk lebih jelasnya, silakan baca teks aslinya.

Tautan asli:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)