TUTORIAL STATISTIK: Partial Least Square (PLS)

Regresi Ordinary Least Squares (OLS) memiliki asumsi yang mendasarinya seperti tidak adanya multikolinieritas atau korelasi yang tinggi antara variabel independen, jumlah variabel independen juga tidak lebih besar dari observasinya. Dengan adanya multikolinieritas pada model regresi OLS maka model menjadi bias sebagai prediksi. Demikian untuk jumlah sampel yang lebih besar dari observasi maka degree of freedom (df) menjadi negatif sehingga regresi PLS tidak dapat menyelesaikan persamaan.

Untuk kasus seperti dalam ilmu kimia dan sebagainya yang mana memiliki jumlah variabel besar dan sampel observasi kecil diperlukan metode analisis Regresi Partial Least Squares. Metode ini diperkenalkan oleh ahli ekonometrik pertama kali oleh Herma Wold di tahun 1960 an.

"The PLS algorithm axtracts a latent factors (tehnically, components since principal components analysis is used) for the set of independent variables and for the set of dependent variables, such that explanation of the covariance between the two latent variables is maximized. Using multiple regression for scale variables, a classification algorithm for categorical variables, or a mixed model, the dependent variables or variables is predicted"

" SPSS recomends PLS regression as particulary usefull when predictor variables are highly correlated or when the number of predictors excceds the number of case" (Garson, 2016).

Di aplikasi IBM SPSS penambahan fitur Partial Least Squares (PLS) dimulai pada versi SPSS 16 ditahun 2017. Pada kesempatan kali ini saya memberikan cara untuk menginstal program regresi PLS di Aplikasi IBM SPSS 23. Ada beberapa program tambahan yang dibutuhkan untuk menginstal ke SPSS 23, antara lain :

SPSS_STATSPYT_PLG-INTRL32B21.0WINML : download
numpy-1.6.2-win32-superpack-python2.7 : Download https://www.scipy.org/
scipy-0.10.0-win32-superpack-python2.7 : Download https://www.scipy.org/
python-2.7.3 : download https://www.python.org/downloads/
PLS dan Plscommand : download

NB. uNtuk versi SPSS yang lain bisa berbeda

Setelah selesai melakukan download program di atas, kemudian langkah instalasi program Regresi PLS di SPSS :

Pastikan untuk program SPSS sudah terinstal di komputer/laptop.
Instal program python 2.7.3 pada komputer
Instal program scipy-0.10.0-win32-superpack-python2.7 di komputer
Instal program numpy-1.6.2-win32-superpack-python2.7 di komputer
Instal program SPSS_STATSPYT_PLG-INTRL32B21.0WINML di komputer
Copi file PLS dan PLScommand ke dalam direktori program IBM SPSS 23, caranya : Program File --> IBM --> SPSS --> Statistics -->23 --> extentions.

Setelah selesai melakukan instalasi, kemudian buka di menu Analyze --> Regression --> Partial Least Squares. Jika muncul menu Partial Least Squares, maka proses instalasi sudah berhasil.

Langkah Analisis Regression Partial Least Squares

Selain dengan program aplikasi SPSS, ada beberapa aplikasi yang dapat digunakan untuk analisis Regression Partial Least Squares, antara lain :

GENSTAT : software ini memiliki fitur yang cukup lengkap, termasuk regresi PLS. Link : www.vsni.co.uk/software/genstat
The Scrumbler : Software berasal dari Camo.inc. Mampu mengimplementasikan PLS regression dan PLS-DA. PLS berdasarkan analisis diskriminan. Link : www.camo.com/rt/Product/Unscrambler/unscrambler.html
Morphoj : mendukung two block partial Least Squares. Link : www.flywing.org.uk/MorphoJ_page.html
tpsPLS : software ini dapat diperoleh secara gratis, juga mendukung two block partial least squares. Link : http://tpspls.software.informer.com/
XLSTAT-PLS : merupakan modul add-on untuk excel spreedsheet. Link : www.xlstat.com/en/products-solutions/pls.html
Stata : modul extention ini dinamakan dengan plssas. Link : www.bc.edu/RePEc/bocode/p
Software S-Plus, Matlab dan aplikasi R

Baca juga :

1. Analisis Jalur

2. Regresi Berganda

3. Cara Mengatasi data tidak Normal

Referensi :

Garson, David. G. (2016). Partial Least Squares : Regression & Structural Equation Model. North Carolina. Statistical Publishing Association.

Ghozali, I. (2013). Aplikasi Analisis Multivariate dengan Program IBM SPSS 21 Update PLS Regresi. Semarang : Badan Penerbit Universitas Diponegoro.

Untuk mengestimasi model struktural dalam PLS pada umumnya diasumsikan bahwa data bersifat homogen atau responden berasal dari karakteristik yang sama. Asumsi ini seringkali salah dan tidak rasional karena data dapat berasal dari beberapa segmen atau unit yang berbeda dari responden yang dikumpulkan. Sebagai ilustrasi bahwa kepuasan kerja dipengaruhi oleh self efficacy (kemajuan diri) pada perusahaan/organisasi. Self efficacy ini dapat berbeda dimiliki oleh karyawan, karena perbedaan tingkat pendidikan. Karyawan yang memiliki pendidikan sarjana akan cenderung memiliki self efficacy yang tinggi dibandingkan dengan karyawan berpendidikan Diploma maupun SLTA. Oleh karena hal tersebut, jika pengumpulan data dilakukan pada semua karyawan tanpa memperhatikan segmen tersebut maka akan menghasilkan analisis yang bias. Permasalahan ini dinamakan dengan heterogenity yang sangat berpengaruh terhadap hasil analisis dan kesimpulan yang diambil. Metode untuk menyelesaikan klasifikasi observasi dapat menggunakan K-means cluster pada OLS regresi. Namun untuk model yang menggunakan unobserved variables (variabel tidak terukur) tidak mampu untuk menyelesaikan masalah heterogenity tersebut.

Seperti yang dikemukakan oleh Becker et al., (2013) sebagai berikut :“The presence of unoberved heterogeneity may be rejected and the tradisional whole-sample PLS solution may be pursued if (1) average variance explained in multi-segment model is lower than for the tradional PLS solution; and (2) PLS-FIMIX model-selection criteria for the one-segment solution shows better fit than for multi-segment solutions, for which fit deteriorites markedly (Becker et al.,2013: 686)”.

Ada 2 jenis hetegenity yaitu observed heterogenity dan unobserved heterogenty. Observed heterogenity didasarkan pada informasi yang telah diketahui sebelumnya tentang jumlah segmen. Misal berdasarkan demografik seperti jenis kelamin, pendapatan dan umur. Jika segmen ini sudah diketahui maka analisis menggunakan multi-group analysis (MGA).

Sedangkan unobserved heterogenity tidak diketahui informasi karakteristik mengenai banyaknya segmen, sehingga pengelompokkan responden atau observasi ini berdasarkan performance dari model tersebut dan dinamakan response based classification. Metode untuk unobserved heterogenity ini dapat dilakukan dengan 2 aplikasi software yaitu Response Base Unit Segmentation Partial Least Squares (REBUS-PLS) dengan XLSTAT dan Finite Mixture Partial Least Squares (FIMIX-PLS) dengan SmartPLS. Untuk kali ini akan saya perkenalkan model FIMIX-PLS dengan aplikasi SmartPLS.

Ada empat langkah/step dalam FIMIX-PLS sebagai berikut :

Langkah/Step FIMIX-PLS

Sumber : Diadopsi dari Ringle et al. (2010a)

Untuk menentukan fit indices dari masing-masing segmen yang akan dipilih terbaik dari model dengan 2 segmen, 3 segmen atau 4 segmen dan seterusnya dapat menggunakan kriteria sebagai berikut :

Akaike Information Criterion (AIC).

AIC merupakan ukuran Goodness of fit model yang mana disesuaikan dengan chi-square (-2 log likelihood) yang memiliki model yang kompleks (perbedaan antara parsimony dengan parameternya)

Consisten Akaike Information Criterion (CAIC).

Nilai CAIC lebih tinggi dari AIC dan lebih rendah dari Bayesian Information Criterion (BIC). Sehingga jika nilai CAIC lebih tinggi dari AIC, model dikatakan lebih fit.

Normed Entropy Statistic (EN).

Nilai EN berkisar antara 1-0. Nilai EN semakin mendekati 1 menunjukkan bahwa pemilihan kelas segmen semakin baik.

Pada kesempatan kali ini, akan disuguhkan model Satisfaction (Kepuasan Pembeli) dimana Price dan Quality sebagai konstrak eksogen. Satisfaction yang diukur dengan 3 indikator, Price diukur dengan 4 indikator dan Quality ada 3 indikator. Dalam model ini akan dicari ada berapa segmen atau kelompok pembeli yang merasa puas berdasarkan Price (Harga) dan Quality (kualitas) dari produk yang dijual.

Langkah pertama setelah model dibuat, lakukan langkah PLS Algorithm seperti biasanya untuk menguji Outer model (konvergent validity, discriminant validity, Fornell Larcker, AVE, Alpha cronbach’s. Composite Reliability) dan PLS Bootstraping untuk menguji Inner model (R-square dan nilai t-statistik dari path coeficient, dll).

Langkah pengujian FIMIX, Klik Calculate > Finite Mixture > (FIMIX segmentation)

Langkah FIMIX Segementation

Pada menu Set up :

Number of segments : 2 (karena akan diuji dengan dua segmen)
Maximum iteration : 15.000. Dari beberapa literatur merekomendasikan untuk FIMIX PLS menggunakan Maximum iterations 15.000.
Stop criterion : 4->1.0E4, abaikan menu yang lain.
Kemudian Klik Start Calculation.
Open Report.

Menu Finite Mixture

Lakukan kembali seperti pada langkah di atas, untuk segmen 3 dan segment 4. Hasil dari path coefficient dari FIMIX model selengkapnya disajikan sebagai berikut :

Hasil 2 Segmentation

Pada hasil segmen 1, nilai keofisien pengaruh Price ke Satisfaction sebesar 0.550 dan quality ke Satisfaction sebesar 0.071. Sedangkan pada segmen 2 nilai koefisien Price sebesar 0.241 dan Quality ke Satisfaction sebesar 0.661.

Untuk hasil dengan 3 segmen selengkapnya disajikan pada tabel di bawah ini.

Hasil 3 Segmentation

Pada hasil dengan 3 segmen diatas, nilai koefisien segmen 1 untuk Price terhadap Satisfaction sebesar 0.157, Quality terhadap Satisfaction sebesar 0.531. Pada segmen 2, nilai koefisien Proce sebesar 0.818, Quality sebesar -0.078. Pada segmen 3, nilai Price sebesar 0.970 dan Quality sebesar 0.035.

Hasil 4 Segementation

Pada hasil dengan 4 segmen diatas, nilai koefisien segmen 1 untuk Price terhadap Satisfaction sebesar 0.350, Quality terhadap Satisfactio sebesar -0.011. Pada segemen 2, nilai koefisien Proce sebesar 0.332, Quality sebesar 0.711. Pada segmen 3, nilai Price sebesar 1.002 dan Quality sebesar 0.036. Pada segmen 4, nilai koefisien Price sebesar 0.971 dan Quality sebesar 0.036.

Setelah diketahui hasil koefisien dari masing-masing konstrak pada tiap segmen, selamjutnya menguji nilai fit indices dari tiap-tiap segmen.

Fit Indices pada tiap segmen

Pada tabel di atas menunjukkan bahwa nilai AIC (Akaike’s Information Criterion) segmen K= 2 lebih tinggi sebesar 718.501 dibanding segmen K= 3 sebesar 705.323 dan 4 segmen K= 4 668.472. Nilai BIC (Bayesian Information Criteria) pada segmen K= 2 juga lebih tinggi sebesar 744.427, segmen K= 3 sebesar 746.064, segmen K= 4 sebesar 724.029. Nilai CAIC (Consistent Akaike’s Information Criterion) segmen K= 2 sebesar 751.427, segmen K= 3 sebesar 757.064 dan segmen K= 4 sebesar 690.706. Sedangkan nilai EN (Entropy Statistic (Normed)) diperoleh paling tinggi pada segmen K= 4 sebesar 0.591, kemudian segmen K= 3 sebesar 0.464 dan terendah pada segmen K=2 sebesar 0.351. Karena nilai EN yang dihasilkan pada segmen K=4 paling tinggi yaitu 0.591 maka segmentasi terbaik adalah K=4.

2. Tutorial Model Multigroup Analysis MGA

3. Mengenal generalized Structured Component Analyisis (GESCA)

Referensi :

Ghozali, I dan Latan, H. 2015. Partial Least Squares : Konsep, Teknik dan Aplikasi menggunakan Program SmartPLS 3.0. Semarang : Badan Penerbit Universitas Diponegoro.

Garson, David. G. 2016. Partial Least Squares : Regression & Structural Equation Model. North Carolina. Statistical Publishing Association.

Rigdon, E, E.,Ringle, C.M., and Sterstedt, M. 2010. “Structural Modeling of Heterogeneous Data with Partial Least Squares”. In Review of Marketing Research”. pp 255-296.

Ringle, C. M., Wende, S., and Will, A. 2010b. “Finite Mixture Partial Least Squares Analysis: Methodology and Numerical Examples.”In V. Esposito Vinci, W. W. Chin, J. Hanseler & H. Wang (Eds.). Handbook of Partial Least Squares Methods and Application (.pp. 195-218). Berlin, Heidelberg: Springer.

Pages

30 November 2020

Regresi Partial Least Squares Regression (PLSR) di SPSS

22 September 2020

Tutorial Analisis Segmentasi Finite Mixture (FIMIX) Dengan SmartPLS