PENGANTAR MENUJU BAYESIAN : INTRO TO STATISTICAL SCIENCE
(Disclaimer : Artikel ini dikemas kembali dari buku berjudul "INTRODUCTION TO BAYESIAN STATISTICS", karya William M. Bolstad dan James M. Curran)
Statistik adalah ilmu yang menghubungkan data dengan pertanyaan menarik tertentu. Ini termasuk merancang metode untuk mengumpulkan data yang relevan dengan pertanyaan, metode untuk meringkas dan menampilkan data untuk menjelaskan pertanyaan, dan metode yang memungkinkan kita menarik jawaban atas pertanyaan yang didukung oleh data.
Data hampir selalu mengandung ketidakpastian. Ketidakpastian ini dapat timbul dari
Pada Abad Pertengahan, ilmu disimpulkan dari prinsip-prinsip yang ditetapkan berabad-abad sebelumnya oleh otoritas seperti Aristoteles. Gagasan bahwa teori-teori ilmiah harus diuji terhadap data dunia nyata merevolusi pemikiran.
Metode ilmiah umumnya mengikuti prosedur berikut:
- Ajukan pertanyaan atau ajukan masalah dalam hal hipotesis ilmiah saat ini.
- Kumpulkan semua informasi relevan yang saat ini tersedia. Ini termasuk pengetahuan saat ini tentang parameter model.
- Rancang investigasi atau eksperimen yang membahas pertanyaan dari langkah (1.). Hasil prediksi percobaan harus menjadi satu hal jika hipotesis saat ini benar, dan sesuatu yang lain jika hipotesis salah.
- Kumpulkan data dari percobaan.
- Gambar kesimpulan yang diberikan hasil eksperimen. Merevisi pengetahuan tentang parameter untuk memperhitungkan hasil saat ini.
Metode ilmiah mencari hubungan sebab-akibat antara variabel eksperimental dan variabel hasil. Dengan kata lain, bagaimana hasil yang didapatkan jika variabel eksperimental diubah. Pemodelan ilmiah mengembangkan model matematika dari hubungan ini. Keduanya perlu mengunci percobaan ini dari faktor luar yang dapat mempengaruhi hasil eksperimen. Semua faktor luar yang dapat diidentifikasi sebagai kemungkinan mempengaruhi hasil harus dikontrol. Bukan kebetulan bahwa dalam fisika dan kimia keberhasilan untuk metode ini didapatkan di mana beberapa faktor luar dapat diidentifikasi dan dikendalikan. Jadi tidak ada variabel yang mengintai. Semua variabel relevan lainnya dapat diidentifikasi dan kemudian dapat dikontrol secara fisik dengan tetap konstan. Dengan cara itu mereka tidak akan mempengaruhi hasil percobaan, dan pengaruh variabel eksperimental pada variabel hasil dapat ditentukan. Dalam biologi, kedokteran, teknik, teknologi, dan ilmu sosial tidak mudah untuk mengidentifikasi faktor-faktor yang relevan yang harus dikendalikan. Di bidang-bidang itu diperlukan cara berbeda untuk mengendalikan faktor-faktor luar, karena mereka tidak dapat diidentifikasi sebelumnya dan dikontrol secara fisik.
Metode inferensi statistik dapat digunakan ketika ada variabilitas acak dalam data. Model probabilitas untuk data digunakan oleh desain investigasi atau eksperimen. Ini dapat memperluas metode ilmiah ke dalam situasi di mana faktor-faktor luar yang relevan bahkan tidak dapat diidentifikasi. Karena kita tidak dapat mengidentifikasi faktor-faktor luar ini, kita tidak dapat mengendalikannya secara langsung. Kurangnya kontrol langsung berarti faktor luar akan memengaruhi data. Ada bahaya bahwa kesimpulan yang salah dapat ditarik dari percobaan karena faktor-faktor luar yang tidak terkendali ini. Gagasan statistik penting dari pengacakan telah dikembangkan untuk menghadapi kemungkinan ini. Faktor-faktor luar yang tidak teridentifikasi ini dapat "dirata-ratakan" dengan menetapkan setiap unit secara acak pada kelompok perlakuan atau kelompok kontrol. Ini berkontribusi sebagai variabilitas terhadap data. Kesimpulan statistik selalu memiliki beberapa ketidakpastian atau kesalahan karena variabilitas dalam data. Kita dapat mengembangkan model probabilitas dari variabilitas data berdasarkan pengacakan yang digunakan. Pengacakan tidak hanya mengurangi ketidakpastian ini karena faktor luar, itu juga memungkinkan kita untuk mengukur jumlah ketidakpastian yang tetap menggunakan model probabilitas. Pengacakan memungkinkan kita mengontrol faktor-faktor luar secara statistik, dengan rata-rata efeknya. Yang mendasari ini adalah gagasan tentang populasi statistik, yang terdiri dari semua nilai yang mungkin dari pengamatan yang dapat dilakukan. Data terdiri dari observasi yang diambil dari sampel populasi. Untuk kesimpulan yang valid tentang parameter populasi dari statistik sampel, sampel harus "representatif" dari populasi. Hebatnya, memilih sampel secara acak adalah cara paling efektif untuk mendapatkan sampel yang representatif!
Ada dua pendekatan filosofis utama untuk statistik. Yang pertama sering disebut sebagai pendekatan “frequentist”. Kadang-kadang itu disebut pendekatan klasik. Prosedur dikembangkan dengan melihat bagaimana mereka melakukan lebih dari semua sampel acak yang mungkin. Probabilitas tidak berhubungan dengan sampel acak tertentu yang diperoleh.
Pendekatan alternatif yang ingin dibahas adalah pendekatan Bayesian. Pendekatan ini menerapkan hukum probabilitas langsung ke masalah. Ini menawarkan banyak keuntungan mendasar dibandingkan dengan pendekatan frequentist yang lebih umum digunakan.
Kita bandingkan dulu antara pendekatan klasik dan pendekatan bayesian.
Sebagian besar buku statistik pengantar mengambil pendekatan frequentist untuk statistik, yang didasarkan pada ide-ide berikut:
- Parameter, karakteristik numerik populasi, adalah tetap tetapi konstanta tidak diketahui.
- Probabilitas selalu ditafsirkan sebagai frekuensi relatif jangka panjang.
- Prosedur statistik dinilai berdasarkan seberapa baik kinerjanya dalam jangka panjang melebihi jumlah pengulangan hipotetis percobaan yang tak terbatas.
Probabilitas hanya diperbolehkan untuk kuantitas acak. Parameter yang tidak diketahui adalah tetap, bukan acak, sehingga pernyataan probabilitas tidak dapat dibuat-buat nilainya. Sebagai gantinya, sampel diambil dari populasi, dan statistik sampel dihitung. Distribusi probabilitas statistik atas semua sampel acak dari populasi ditentukan dan dikenal sebagai distribusi sampling statistik. Parameter populasi juga akan menjadi parameter distribusi sampling. Pernyataan probabilitas yang dapat dibuat tentang statistik berdasarkan distribusi samplingnya dikonversi menjadi pernyataan kepercayaan (confidence) tentang parameter. Kepercayaan didasarkan pada perilaku rata-rata prosedur terhadap semua sampel yang mungkin.
Ide-ide yang membentuk dasar dari pendekatan ini adalah:
- Karena kita tidak yakin tentang nilai sebenarnya dari parameter, kita akan menganggapnya sebagai variabel acak.
- Aturan probabilitas digunakan secara langsung untuk membuat kesimpulan tentang parameter.
- Pernyataan probabilitas tentang parameter harus ditafsirkan sebagai "derajat kepercayaan." Distribusi sebelumnya harus subjektif. Setiap orang dapat memiliki derajay kepercayaannya sendiri sebelumnya, yang berisi bobot relatif yang diberikan orang untuk setiap nilai parameter yang memungkinkan. Ini mengukur seberapa "masuk akal" seseorang menganggap setiap nilai parameter sebelum mengamati data.
- Kita merevisi keyakinan kita tentang parameter setelah mendapatkan data dengan menggunakan teorema Bayes. Ini memberikan distribusi posterior kita yang memberikan bobot relatif yang kita berikan untuk setiap nilai parameter setelah menganalisis data. Distribusi posterior berasal dari dua sumber: distribusi sebelumnya dan data yang diamati.
Ini memiliki sejumlah keunggulan dibandingkan pendekatan frequentist konvensional.
Teorema Bayes adalah satu-satunya cara yang konsisten untuk mengubah keyakinan kita tentang parameter mengingat data yang sebenarnya terjadi. Ini berarti bahwa kesimpulan didasarkan pada data aktual yang terjadi, tidak semua set data yang mungkin terjadi tetapi tidak!
Membiarkan parameter menjadi variabel acak memungkinkan kita untuk membuat pernyataan probabilitas tentang hal itu, di belakang data. Hal ini kontras dengan pendekatan konvensional di mana probabilitas inferensi didasarkan pada semua set data yang mungkin terjadi pada nilai parameter tetap.
Mengingat data aktual, tidak ada yang tersisa secara acak dengan nilai parameter tetap, jadi orang hanya dapat membuat pernyataan kepercayaan, berdasarkan apa yang bisa terjadi. Statistik Bayesian juga memiliki cara umum untuk menangani parameter gangguan. Parameter gangguan adalah parameter yang tidak ingin kita simpulkan, tetapi kita tidak ingin mereka mengganggu inferensi yang kita buat tentang parameter utama.
MONTE CARLOStatistik klasik tidak memiliki prosedur umum untuk menghadapinya. Statistik Bayesian bersifat prediksi, tidak seperti statistik klasik konvensional. Ini berarti bahwa kita dapat dengan mudah menemukan distribusi probabilitas bersyarat dari pengamatan selanjutnya yang diberikan data sampel.
Dalam statistik frequentist, parameter dianggap tetap, tetapi tidak diketahui, konstan. Prosedur statistik seperti penduga tertentu untuk parameter tidak dapat dinilai dari nilai yang diberikannya. Parameter tidak diketahui, jadi kita tidak bisa tahu nilai yang harus diberikan oleh penaksir. Jika kita tahu nilai parameter, kita tidak akan menggunakan estimator.
Sebaliknya, prosedur statistik dievaluasi dengan melihat bagaimana kinerjanya dalam jangka panjang atas semua sampel data yang mungkin, untuk nilai parameter tetap pada rentang tertentu. Sebagai contoh, kita memperbaiki parameter pada beberapa nilai. Estimator tergantung pada sampel acak, sehingga dianggap sebagai variabel acak yang memiliki distribusi probabilitas. Distribusi ini disebut distribusi sampling dari estimator, karena distribusi probabilitasnya berasal dari pengambilan semua sampel acak yang mungkin. Kemudian kita melihat bagaimana penduga didistribusikan di sekitar nilai parameter. Ini disebut ruang sampel rata-rata. Pada dasarnya ini membandingkan kinerja prosedur sebelum kita mengambil data apa pun.
Prosedur Bayesian menganggap parameter sebagai variabel acak, dan distribusi posteriornya tergantung pada data sampel yang benar-benar terjadi, tidak semua sampel yang mungkin tetapi tidak terjadi. Namun, sebelum percobaan, kita mungkin ingin tahu seberapa baik prosedur Bayesian bekerja pada beberapa nilai parameter tertentu dalam rentang.
Untuk mengevaluasi prosedur Bayesian menggunakan rata-rata ruang sampel, kita harus mempertimbangkan parameter sebagai variabel acak dan nilai tetap tetapi tidak diketahui secara bersamaan. Kita dapat melewati kontradiksi yang tampak dalam sifat parameter karena distribusi probabilitas yang kita masukkan pada parameter mengukur ketidakpastian kita tentang nilai sebenarnya. Ini menunjukkan bobot keyakinan relatif yang kita berikan pada nilai yang mungkin dari parameter yang tidak diketahui!
Setelah melihat data, distribusi kepercayaan kita atas nilai parameter telah berubah. Dengan cara ini kita dapat menganggap parameter sebagai nilai tetap, tetapi tidak diketahui, pada saat yang sama kita menganggapnya sebagai variabel acak. Ini memungkinkan kita untuk mengevaluasi prosedur Bayesian menggunakan rata-rata ruang sampel. Ini disebut analisis pra posterior karena dapat dilakukan sebelum kita memperoleh data.