Statistika parametrik
Statistika parametrik adalah cabang statistika yang berkaitan dengan analisis dan inferensi dari data dengan asumsi bahwa distribusi yang mendasari, dari mana data yang diamati diambil, dapat dijelaskan oleh himpunan parameter (yang tidak diketahui) yang terbatas.[1][2] Sebaliknya, statistika nonparametrik tidak mengasumsikan bentuk matematika eksplisit (parametrik terbatas) untuk distribusi ketika memodelkan data. Namun, ia dapat membuat beberapa asumsi tentang distribusi tersebut, seperti kontinuitas atau simetri, atau bahkan bentuk matematika eksplisit tetapi memiliki model untuk parameter distribusi yang bukan merupakan parametrik terbatas.
Sebagian besar metode statistik yang terkenal adalah parametrik.[3] Mengenai model nonparametrik (dan semiparametrik), Sir David Cox mengatakan, "Ini biasanya melibatkan lebih sedikit asumsi tentang struktur dan bentuk distribusi tetapi biasanya mengandung asumsi yang kuat tentang independensi".[4]
Sejarah
Statistika parametrik disebutkan oleh Ronald Fisher dalam karyanya yakni Statistical Methods for Research Workers pada tahun 1925, yang menciptakan dasar bagi statistika modern.
Gambaran umum
Tujuan utama statistika inferensial adalah untuk menyediakan metode untuk menganalisis data secara sistematis dan menyimpulkan sifat-sifat distribusi probabilitas dari mana data tersebut diambil. Asumsi mendasar yang mendasari statistika parametrik adalah bahwa distribusi data termasuk dalam keluarga distribusi yang lebih umum yang dapat diparameterisasi oleh sejumlah parameter terbatas , yang tidak diketahui. Keluarga distribusi tersebut disebut model parametrik. Pertanyaan-pertanyaan umum dalam konteks ini adalah:[5]
- Perkiraan parameter: Pilihan parameter mana yang paling baik menjelaskan data yang diamati atau menghasilkan prediksi terbaik?
- Selang kepercayaan: Apa rentang parameter yang sesuai di mana parameter sebenarnya berada dengan probabilitas tinggi?
- Pengujian hipotesis: Apakah masuk akal bahwa parameter sebenarnya berada dalam rentang tertentu?
- Spesifikasi (yang salah) model: Apa keluarga distribusi yang tepat, yang dapat menjelaskan data yang diamati?
Perkiraan parameter
Dalam pengaturan tipikal perkiraan parameter, keluarga distribusi parametrik yang dipilih memiliki fungsi Kepadatan atau fungsi massa Kepadatan , yang disebut kemungkinan, bergantung pada parameter , dan sampel data terbatas diberikan.
Pendekatan frequentist
Dalam pendekatan frequentist, data diasumsikan terdistribusi menurut untuk beberapa parameter "sejati" . Tujuannya adalah untuk mendapatkan kembali dari data yang diamati.[6] Metode yang paling umum adalah sebagai berikut.
- Perkiraan kemungkinan maksimum (MLE): Parameter model dipilih sedemikian rupa sehingga probabilitas (atau densitas probabilitas) dari pengamatan yang diberikan maksimal.
- Metode momen (MoM): Jika parameter model dapat dinyatakan sebagai fungsi dari momen distribusi, maka perkiraan momen parameter adalah .
- Perkiraan kuadrat terkecil (LSE): Metode ini berlaku untuk pengaturan regresi, di mana data muncul berpasangan dan fungsi regresi akan ditentukan. Parameter model dipilih sedemikian rupa sehingga jumlah selisih kuadrat antara data yang diamati dan prediksi model minimal. Sebenarnya, LSE adalah kasus khusus dari MLE, di mana distribusi bersyarat diberikan berdistribusi normal.[7]
Pendekatan Bayes
Dalam pendekatan Bayes, data tidak diasumsikan dihasilkan oleh distribusi untuk beberapa yang sebenarnya. Sebaliknya, himpunan semua parameter model yang mungkin (atau masuk akal) awalnya diberi bobot dengan distribusi apriori yang mencerminkan keyakinan awal ahli statistika. Dengan data yang diamati, distribusi parameter diperbarui melalui aturan Bayes, menghasilkan distribusi posteriori yang proporsional dengan kemungkinan dikalikan dengan prior . Oleh karena itu, estimator Bayes memberikan perkiraan terbaik berdasarkan keyakinan ahli statistika.[6]
- Perkiraan rata-rata posterior: Estimator mengambil rata-rata dari distribusi posterior.
- Perkiraan median posterior: Estimator mengambil median dari distribusi posterior.
- Perkiraan maksimum à-posteriori (MAP): Estimator mengambil parameter yang memaksimalkan distribusi posterior.
Model parametrik
Pemilihan model, yaitu distribusi probabilitas dari mana data diasumsikan diambil dalam masalah estimasi kepadatan atau ketergantungan fungsional yang diasumsikan antara pasangan data dan dalam masalah regresi/klasifikasi, terletak pada inti prosedur parametrik. Berikut adalah daftar model umum yang digunakan dalam praktik.
Perkiraan kepadatan
- Keluarga Eksponensial (misalnya distribusi normal, distribusi eksponensial, distribusi log-normal, distribusi Gamma, distribusi khi-kuadrat, distribusi Erlang, distribusi Beta, distribusi Gumbel, distribusi Pareto, distribusi binomial (Negatif-), distribusi Poisson, distribusi geometris)
- Distribusi Laplace
- Distribusi seragam
- Distribusi Weibull
Regresi
- model linear (kasus khusus darinya adalah ANOVA dan ANCOVA)
- model linier umum (GLM)
- jaringan saraf tiruan
Klasifikasi
- regresi logistik
- analisis diskriminan linear (LDA)
- analisis diskriminan kuadratik (QDA)
- jaringan saraf tiruan
Contoh
Keluarga distribusi normal semuanya memiliki bentuk umum yang sama dan diparameterisasi oleh rata-rata dan simpangan baku. Artinya, jika rata-rata dan simpangan baku diketahui dan jika distribusinya normal, maka probabilitas setiap pengamatan pada masa mendatang berada dalam rentang tertentu juga diketahui.
Misalkan kita memiliki sampel 99 nilai ujian dengan rata-rata 100 dan simpangan baku 1. Jika kita mengasumsikan semua 99 nilai ujian adalah pengamatan acak dari distribusi normal, maka kita memprediksi ada peluang 1% bahwa nilai ujian ke-100 akan lebih tinggi dari 102,33 (yaitu rata-rata ditambah 2,33 simpangan baku), dengan asumsi bahwa nilai ujian ke-100 berasal dari distribusi yang sama dengan yang lainnya. Metode statistik parametrik digunakan untuk menghitung nilai 2,33 di atas, dengan 99 pengamatan independen dari distribusi normal yang sama.
Perkiraan non-parametrik dari hal yang sama adalah nilai maksimum dari 99 nilai pertama. Tidak perlu mengasumsikan apa pun tentang distribusi nilai ujian untuk menyimpulkan bahwa sebelum kita memberikan ujian, kemungkinan nilai tertinggi adalah salah satu dari 100 nilai pertama sama besarnya. Dengan demikian, ada peluang 1% bahwa nilai ke-100 lebih tinggi daripada 99 nilai sebelumnya.
Lihat juga
Referensi
- ^ Geisser, S. (2006), Modes of Parametric Statistical Inference, John Wiley & Sons
- ^ Lehmann, Erich Leo; Casella, George (1998). Theory of Point Estimation (Edisi 2nd). New York: Springer. ISBN 0-387-98502-6.
- ^ Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press
- ^ Cox 2006, hlm. 2
- ^ Casella, George; Berger, Roger L. (2002). Statistical Inference (Edisi 2nd). Duxbury.
- ^ a b Casella & Berger (2002), p.324
- ^ Casella & Berger (2002), p.549
Content Disclaimer
Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.
- The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
- There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
- It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
- Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
- Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.