Keruntuhan model

Keruntuhan model merupakan suatu proses degeneratif yang terjadi pada sistem model generatif, di mana kualitas dan akurasi model menurun seiring dengan berjalannya beberapa siklus pelatihan. Fenomena ini muncul ketika data yang dihasilkan oleh model generatif digunakan kembali sebagai data pelatihan untuk generasi berikutnya, sehingga menyebabkan terjadinya kontaminasi data. Akibatnya, model yang dilatih dengan data tercemar tersebut mulai kehilangan kemampuan dalam merepresentasikan realitas secara tepat.^[1]

Keruntuhan model dapat terjadi dalam dua tahap, yaitu keruntuhan model awal dan keruntuhan model akhir. Pada tahap keruntuhan model awal, sistem mulai kehilangan kemampuan untuk merepresentasikan data dari bagian ekor distribusi. Sementara pada tahap keruntuhan model akhir, model semakin menyimpang dari distribusi aslinya karena berbagai pola data yang sebelumnya terpisah mulai saling bercampur. Akibatnya, model berakhir dengan distribusi baru yang hanya sedikit menyerupai distribusi asal dan cenderung memiliki keragaman atau varian yang sangat rendah.^[2]

Mekanisme

Memakai data sintetis sebagai data latih dapat berdampak buruk pada kualitas dan keandalan model yang dihasilkan, bahkan berpotensi menyebabkan model tersebut runtuh. Hal ini utamanya disebabkan oleh tiga jenis kesalahan:

Aproksimasi fungsi yang keliru
Pengambilan sampel yang tidak ideal
Proses pembelajaran yang tidak sempurna.

Yang perlu digarisbawahi, masalah ini bisa muncul pada model sederhana sekalipun. Sementara pada model yang lebih kompleks, tumpang-tindihnya berbagai kesalahan tersebut justru membuat model lebih cepat runtuh.^[3]

Ketidaksepakatan mengenai Dampak di Dunia Nyata

Sebagian peneliti dan pengamat memperingatkan bahwa keruntuhan model dapat menjadi ancaman fundamental bagi masa depan pengembangan AI generatif. Kekhawatiran ini berakar pada siklus yang mungkin terbentuk: karena data yang dihasilkan AI semakin banyak dibagikan di internet, data sintetis tersebut akan secara tidak terhindarkan terkumpul ke dalam dataset pelatihan untuk model generasi berikutnya, yang biasanya dikumpulkan secara otomatis dari web. Jika pelatihan yang bergantung pada data sintetis dalam skala besar ini memang pasti menyebabkan penurunan kualitas, maka komunitas AI mungkin akan menghadapi masalah yang sulit dipecahkan di masa depan.^[4]^[5]

Sementara itu, para peneliti lain baru-baru ini menyatakan pendapat yang berbeda. Mereka berargumen bahwa akumulasi data sintetis tidak serta-merta berakibat fatal, asalkan diimbangi dengan terus bertambahnya data asli yang dihasilkan manusia. Pandangan ini menyatakan bahwa akumulasi data dari waktu ke waktu justru memberikan gambaran realitas yang lebih lengkap dan realistis dibandingkan jika data lama terus-menerus dihapus. Oleh karena itu, dampak nyata dari keruntuhan model diperkirakan mungkin tidak separah skenario terburuk yang dikhawatirkan selama ini.^[6] ^[7]

Selain dua pandangan tersebut, muncul pendekatan alternatif yang berusaha mencegah masalah ini dari akarnya. Cabang penelitian ini berfokus pada pengembangan teknologi seperti detektor berbasis pembelajaran mesin dan watermark (tanda air) digital untuk dapat mengidentifikasi konten yang dihasilkan oleh AI. Tujuannya adalah untuk menciptakan alat yang dapat menyaring atau mengklasifikasikan data sintetis tersebut sebelum dimasukkan ke dalam dataset pelatihan, sehingga memutus siklus yang berpotensi merusak model.^[8]

Dampak Pelatihan Iteratif pada Model Bahasa Besar

Dalam bidang kecerdasan buatan, keruntuhan model merujuk pada proses degeneratif di mana kualitas dan akurasi model generatif menurun melalui beberapa siklus pelatihan. Pada konteks Model Bahasa Besar (LLM), fenomena ini secara khusus teramati ketika model dilatih secara iteratif menggunakan data sintetis—yaitu teks yang dihasilkan oleh model pendahulu, bukan data asli dari manusia.^[9]^[10]

Penelitian menunjukkan bahwa praktik pelatihan semacam ini menyebabkan degradasi yang konsisten dan dapat diukur pada keluaran model. Degradasi tersebut termanifestasi sebagai penyusutan signifikan dalam keragaman leksikal, sintaksis, dan semantik. Secara leksikal, kosakata model menjadi lebih terbatas dan kurang variatif. Secara sintaksis, variasi struktur kalimatnya berkurang, menyebabkan output yang lebih kaku. Secara semantik, jangkauan konsep dan nuansa makna yang dapat diekspresikan model menjadi semakin sempit. Dampak buruk ini paling kentara pada tugas-tugas yang menuntut kreativitas dan orisinalitas, seperti generasi puisi atau penjelajahan ide, di mana output model menjadi semakin bias, homogen, dan kehilangan kekayaan ekspresi bahasa asli.^[9]^[10]

Referensi

^ Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Papernot, Nicolas; Anderson, Ross; Gal, Yarin (2024-07). "AI models collapse when trained on recursively generated data". Nature (dalam bahasa Inggris). 631 (8022): 755–759. doi:10.1038/s41586-024-07566-y. ISSN 1476-4687.
^ Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Gal, Yarin; Papernot, Nicolas; Anderson, Ross (2024-04-14), The Curse of Recursion: Training on Generated Data Makes Models Forget, doi:10.48550/arXiv.2305.17493, diakses tanggal 2025-11-07
^ Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Papernot, Nicolas; Anderson, Ross; Gal, Yarin (2024-07). "AI models collapse when trained on recursively generated data". Nature. 631 (8022): 755–759. doi:10.1038/s41586-024-07566-y. ISSN 1476-4687. PMC 11269175. PMID 39048682.
^ "Could we see the collapse of generative AI? | Inria". www.inria.fr (dalam bahasa Inggris). 2025-02-20. Diakses tanggal 2025-11-22.
^ "What is Model Collapse and how to avoid it" (dalam bahasa Inggris). Diakses tanggal 2025-11-22.
^ "What Is Model Collapse? Causes, Examples, and Fixes". www.datacamp.com (dalam bahasa Inggris). Diakses tanggal 2025-11-22.
^ "Everyday examples and applications of artificial intelligence (AI)". Tableau (dalam bahasa American English). Diakses tanggal 2025-11-22.
^ zapbot (2020-05-15). "Perbedaan Dari Mesin Pembelajaran Dan Kecerdasan Buatan". Zapbot (dalam bahasa American English). Diakses tanggal 2025-11-22.
^ ^a ^b Guo, Yanzhu; Shang, Guokan; Vazirgiannis, Michalis; Clavel, Chloé (2024-04-16), The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text, doi:10.48550/arXiv.2311.09807, diakses tanggal 2025-11-22
^ ^a ^b "A.I. Daily". DebateUS (dalam bahasa American English). Diakses tanggal 2025-11-22.

[1] Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Papernot, Nicolas; Anderson, Ross; Gal, Yarin (2024-07). "AI models collapse when trained on recursively generated data". Nature (dalam bahasa Inggris). 631 (8022): 755–759. doi:10.1038/s41586-024-07566-y. ISSN 1476-4687.

[2] Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Gal, Yarin; Papernot, Nicolas; Anderson, Ross (2024-04-14), The Curse of Recursion: Training on Generated Data Makes Models Forget, doi:10.48550/arXiv.2305.17493, diakses tanggal 2025-11-07

[3] Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Papernot, Nicolas; Anderson, Ross; Gal, Yarin (2024-07). "AI models collapse when trained on recursively generated data". Nature. 631 (8022): 755–759. doi:10.1038/s41586-024-07566-y. ISSN 1476-4687. PMC 11269175. PMID 39048682.

[4] "Could we see the collapse of generative AI? | Inria". www.inria.fr (dalam bahasa Inggris). 2025-02-20. Diakses tanggal 2025-11-22.

[5] "What is Model Collapse and how to avoid it" (dalam bahasa Inggris). Diakses tanggal 2025-11-22.

[6] "What Is Model Collapse? Causes, Examples, and Fixes". www.datacamp.com (dalam bahasa Inggris). Diakses tanggal 2025-11-22.

[7] "Everyday examples and applications of artificial intelligence (AI)". Tableau (dalam bahasa American English). Diakses tanggal 2025-11-22.

[8] zapbot (2020-05-15). "Perbedaan Dari Mesin Pembelajaran Dan Kecerdasan Buatan". Zapbot (dalam bahasa American English). Diakses tanggal 2025-11-22.

[:0-9] Guo, Yanzhu; Shang, Guokan; Vazirgiannis, Michalis; Clavel, Chloé (2024-04-16), The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text, doi:10.48550/arXiv.2311.09807, diakses tanggal 2025-11-22

[:1-10] "A.I. Daily". DebateUS (dalam bahasa American English). Diakses tanggal 2025-11-22.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Keruntuhan model

Mekanisme

Ketidaksepakatan mengenai Dampak di Dunia Nyata

Dampak Pelatihan Iteratif pada Model Bahasa Besar

Referensi

Content Disclaimer