Statistika parametrik

Statistika parametrik adalah cabang statistika yang berkaitan dengan analisis dan inferensi dari data dengan asumsi bahwa distribusi yang mendasari, dari mana data yang diamati diambil, dapat dijelaskan oleh himpunan parameter (yang tidak diketahui) yang terbatas.^[1]^[2] Sebaliknya, statistika nonparametrik tidak mengasumsikan bentuk matematika eksplisit (parametrik terbatas) untuk distribusi ketika memodelkan data. Namun, ia dapat membuat beberapa asumsi tentang distribusi tersebut, seperti kontinuitas atau simetri, atau bahkan bentuk matematika eksplisit tetapi memiliki model untuk parameter distribusi yang bukan merupakan parametrik terbatas.

Sebagian besar metode statistik yang terkenal adalah parametrik.^[3] Mengenai model nonparametrik (dan semiparametrik), Sir David Cox mengatakan, "Ini biasanya melibatkan lebih sedikit asumsi tentang struktur dan bentuk distribusi tetapi biasanya mengandung asumsi yang kuat tentang independensi".^[4]

Sejarah

Statistika parametrik disebutkan oleh Ronald Fisher dalam karyanya yakni Statistical Methods for Research Workers pada tahun 1925, yang menciptakan dasar bagi statistika modern.

Gambaran umum

Tujuan utama statistika inferensial adalah untuk menyediakan metode untuk menganalisis data secara sistematis dan menyimpulkan sifat-sifat distribusi probabilitas dari mana data tersebut diambil. Asumsi mendasar yang mendasari statistika parametrik adalah bahwa distribusi data termasuk dalam keluarga distribusi yang lebih umum yang dapat diparameterisasi oleh sejumlah parameter terbatas $\theta _{1},\dots ,\theta _{p}$ , yang tidak diketahui. Keluarga distribusi tersebut disebut model parametrik. Pertanyaan-pertanyaan umum dalam konteks ini adalah:^[5]

Perkiraan parameter: Pilihan parameter mana yang paling baik menjelaskan data yang diamati atau menghasilkan prediksi terbaik?
Selang kepercayaan: Apa rentang parameter yang sesuai di mana parameter sebenarnya berada dengan probabilitas tinggi?
Pengujian hipotesis: Apakah masuk akal bahwa parameter sebenarnya berada dalam rentang tertentu?
Spesifikasi (yang salah) model: Apa keluarga distribusi yang tepat, yang dapat menjelaskan data yang diamati?

Perkiraan parameter

Dalam pengaturan tipikal perkiraan parameter, keluarga distribusi parametrik yang dipilih memiliki fungsi Kepadatan atau fungsi massa Kepadatan $L_{\theta }$ , yang disebut kemungkinan, bergantung pada parameter $\theta =(\theta _{1},\dots ,\theta _{p})$ , dan sampel data terbatas $X_{1},\dots ,X_{n}$ diberikan.

Pendekatan frequentist

Dalam pendekatan frequentist, data diasumsikan terdistribusi menurut $L_{\theta ^{*}}$ untuk beberapa parameter "sejati" $\theta ^{*}$ . Tujuannya adalah untuk mendapatkan kembali $\theta ^{*}$ dari data yang diamati.^[6] Metode yang paling umum adalah sebagai berikut.

Perkiraan kemungkinan maksimum (MLE): Parameter model dipilih sedemikian rupa sehingga probabilitas (atau densitas probabilitas) dari pengamatan yang diberikan maksimal.
Metode momen (MoM): Jika parameter model dapat dinyatakan sebagai fungsi $g_{1},\dots ,g_{p}$ dari momen distribusi, maka perkiraan momen parameter adalah $g_{1}\left(\sum _{i=1}^{n}X_{i},\dots ,\sum _{i=1}^{n}X_{i}^{p}\right),\dots ,g_{p}\left(\sum _{i=1}^{n}X_{i},\dots ,\sum _{i=1}^{n}X_{i}^{p}\right)$ .
Perkiraan kuadrat terkecil (LSE): Metode ini berlaku untuk pengaturan regresi, di mana data muncul berpasangan $(X_{1},Y_{1}),\dots ,(X_{n},Y_{n})$ dan fungsi regresi $f$ akan ditentukan. Parameter model dipilih sedemikian rupa sehingga jumlah selisih kuadrat $\sum _{i=1}^{n}(Y_{i}-f_{\theta }(X_{i}))^{2}$ antara data yang diamati dan prediksi model minimal. Sebenarnya, LSE adalah kasus khusus dari MLE, di mana distribusi bersyarat $Y$ diberikan $X$ berdistribusi normal.^[7]

Pendekatan Bayes

Dalam pendekatan Bayes, data tidak diasumsikan dihasilkan oleh distribusi $L_{\theta ^{*}}$ untuk beberapa $\theta ^{*}$ yang sebenarnya. Sebaliknya, himpunan semua parameter model yang mungkin (atau masuk akal) awalnya diberi bobot dengan distribusi apriori $\pi$ yang mencerminkan keyakinan awal ahli statistika. Dengan data yang diamati, distribusi parameter diperbarui melalui aturan Bayes, menghasilkan distribusi posteriori $p_{\theta }$ yang proporsional dengan kemungkinan $L_{\theta }$ dikalikan dengan prior $\pi$ . Oleh karena itu, estimator Bayes memberikan perkiraan terbaik berdasarkan keyakinan ahli statistika.^[6]

Perkiraan rata-rata posterior: Estimator mengambil rata-rata dari distribusi posterior.
Perkiraan median posterior: Estimator mengambil median dari distribusi posterior.
Perkiraan maksimum à-posteriori (MAP): Estimator mengambil parameter yang memaksimalkan distribusi posterior.

Model parametrik

Pemilihan model, yaitu distribusi probabilitas dari mana data diasumsikan diambil dalam masalah estimasi kepadatan atau ketergantungan fungsional yang diasumsikan antara pasangan data $X$ dan $Y$ dalam masalah regresi/klasifikasi, terletak pada inti prosedur parametrik. Berikut adalah daftar model umum yang digunakan dalam praktik.

Perkiraan kepadatan

Keluarga Eksponensial (misalnya distribusi normal, distribusi eksponensial, distribusi log-normal, distribusi Gamma, distribusi khi-kuadrat, distribusi Erlang, distribusi Beta, distribusi Gumbel, distribusi Pareto, distribusi binomial (Negatif-), distribusi Poisson, distribusi geometris)
Distribusi Laplace
Distribusi seragam
Distribusi Weibull

Regresi

model linear (kasus khusus darinya adalah ANOVA dan ANCOVA)
model linier umum (GLM)
jaringan saraf tiruan

Klasifikasi

regresi logistik
analisis diskriminan linear (LDA)
analisis diskriminan kuadratik (QDA)
jaringan saraf tiruan

Contoh

Keluarga distribusi normal semuanya memiliki bentuk umum yang sama dan diparameterisasi oleh rata-rata dan simpangan baku. Artinya, jika rata-rata dan simpangan baku diketahui dan jika distribusinya normal, maka probabilitas setiap pengamatan pada masa mendatang berada dalam rentang tertentu juga diketahui.

Misalkan kita memiliki sampel 99 nilai ujian dengan rata-rata 100 dan simpangan baku 1. Jika kita mengasumsikan semua 99 nilai ujian adalah pengamatan acak dari distribusi normal, maka kita memprediksi ada peluang 1% bahwa nilai ujian ke-100 akan lebih tinggi dari 102,33 (yaitu rata-rata ditambah 2,33 simpangan baku), dengan asumsi bahwa nilai ujian ke-100 berasal dari distribusi yang sama dengan yang lainnya. Metode statistik parametrik digunakan untuk menghitung nilai 2,33 di atas, dengan 99 pengamatan independen dari distribusi normal yang sama.

Perkiraan non-parametrik dari hal yang sama adalah nilai maksimum dari 99 nilai pertama. Tidak perlu mengasumsikan apa pun tentang distribusi nilai ujian untuk menyimpulkan bahwa sebelum kita memberikan ujian, kemungkinan nilai tertinggi adalah salah satu dari 100 nilai pertama sama besarnya. Dengan demikian, ada peluang 1% bahwa nilai ke-100 lebih tinggi daripada 99 nilai sebelumnya.

Lihat juga

Referensi

^ Geisser, S. (2006), Modes of Parametric Statistical Inference, John Wiley & Sons
^ Lehmann, Erich Leo; Casella, George (1998). Theory of Point Estimation (Edisi 2nd). New York: Springer. ISBN 0-387-98502-6.
^ Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press
^ Cox 2006, hlm. 2
^ Casella, George; Berger, Roger L. (2002). Statistical Inference (Edisi 2nd). Duxbury.
^ ^a ^b Casella & Berger (2002), p.324
^ Casella & Berger (2002), p.549

Templat:Statistics

[GeisserJohnson-1] Geisser, S. (2006), Modes of Parametric Statistical Inference, John Wiley & Sons

[2] Lehmann, Erich Leo; Casella, George (1998). Theory of Point Estimation (Edisi 2nd). New York: Springer. ISBN 0-387-98502-6.

[Cox-3] Cox, D. R. (2006), Principles of Statistical Inference, Cambridge University Press

[4] Cox 2006, hlm. 2

[5] Casella, George; Berger, Roger L. (2002). Statistical Inference (Edisi 2nd). Duxbury.

[:0-6] Casella & Berger (2002), p.324

[7] Casella & Berger (2002), p.549

[1]

[2]

[3]

[4]

[5]

[6]

[7]