تجزیه به مؤلفههای اصلی (PCA): فرمولها، مثالها و اجرا در SPSS
مجموعه داده های بزرگ به طور فزاینده ای در بسیاری از رشته ها گسترش می یابد و اغلب تفسیر آنها دشوار است. برای تفسیر چنین مجموعه داده هایی، روشهایی لازم است که ابعاد داده ها را به روشی قابل تفسیر به شدت کاهش دهند، به طوری که بیشتر اطلاعات موجود در دادهها حفظ شود. امروزه تکنیک های زیادی برای این منظور توسعه یافته است، اما تجزیه و تحلیل مؤلفه اصلی (PCA) یکی از قدیمی ترین و پرکاربردترین آنهاست. ایده آن ساده است، کاهش ابعاد یک مجموعه داده، در حالی که تا آنجایی که ممکن است «تغییرپذیری» (یعنی اطلاعات آماری) حفظ شود.
بنابراین تجزیه و تحلیل مؤلفه اصلی (PCA) تکنیکی برای کاهش ابعاد مجموعه داده ها و افزایش تفسیرپذیری آن هاست. در فرایند کار تجزیه به مؤلفه های اصلی تا حد امکان اطلاع کمتری از دست داده میشود.
تحلیل مؤلفه های اصلی به عنوان اولین هدف، ترکیب خطی استاندارد شده، متغیرهای اولیه را که دارای واریانس ماکسیمال است جستجو می کند.
در این مقاله، بهصورت گامبهگام فرمولها، محاسبات و مثالهای کاربردی PCA را بررسی میکنیم.
تحلیل مؤلفه های اصلی به تبیین ساختار واریانس-کوواریانس به کمک چند ترکیب خطی از متغیرهای اصلی سر و کار دارد. هدف کلی آن عبارت است تعبیر و تفسیر آسان تر داده با استفاده ازکاهش حجم داده ها.
برای مثال اگر برای مطالعه تغییرپذیری یک سیستم تعداد p متغیر وجود داشته باشد با استفاده از تجزیه به مؤلفه های اصلی می توان این تغییرپذیری را در قالب تعداد کمتری مثلاً k مؤلفه بیان نمود. در این صورت میزان اطلاعی که در k مؤلفه موجود است تقریباً مانند میزان اطلاع در p متغیر اولیه است.
هر مؤلفه اصلی یک ترکیب خطی از متغیرهای اصلی است که:
اولین مؤلفه (PC1) بیشترین واریانس داده را توضیح میدهد.
مؤلفههای بعدی بهصورت متعامد و با واریانس کاهشیافته تعریف میشوند
1. مراحل محاسبه PCA
1.1. استانداردسازی دادهها
از آنجا که PCA به مقیاس متغیرها حساس است، دادهها باید استاندارد شوند:
Z=(X−μ)/σ
مثال:
فرض کنید دادههای زیر را داریم:
X1 | X2 |
---|---|
2 | 4 |
4 | 6 |
6 | 8 |
میانگین (μ):
انحراف معیار (σ):
σX1σX2
داده استانداردشده (Z):
Z1 | Z2 |
---|---|
1.63/(2-4) ≈ -1.22 | 1.63/(4-6) ≈ -1.22 |
1.63/(4-4) ≈ 0 | 1.63/(6-6) ≈ 0 |
1.63/(6-4) ≈ 1.22 | 1.63/(8-6) ≈ 1.22 |
1.2. محاسبه ماتریس کوواریانس
ماتریس کوواریانس رابطه بین متغیرها را نشان میدهد:
برای داده استانداردشده، ماتریس کوواریانس برابر ماتریس همبستگی است:
1.3. محاسبه مقادیر ویژه و بردارهای ویژه
مقادیر ویژه (Eigenvalues) و بردارهای ویژه (Eigenvectors) ماتریس کوواریانس، مؤلفههای اصلی را تعیین میکنند.
معادله ویژه:
C⋅v=λ⋅v
محاسبه برای ماتریس C:
ریشههای معادله (مقادیر ویژه):
λ1=2,λ2=0
بردارهای ویژه:
برای λ₁ = 2:
برای λ₂ = 0:
1.4. انتخاب مؤلفههای اصلی
مؤلفهها بر اساس مقدار ویژه مرتب میشوند:
PC1 (مؤلفه اول): با λ₁ = 2 (بیشترین واریانس).
PC2 (مؤلفه دوم): با λ₂ = 0 (واریانس ناچیز).
اگر بخواهیم داده را به یک بُعد کاهش دهیم، فقط PC1 را نگه میداریم.
1.5. تبدیل دادهها به فضای جدید
دادههای استانداردشده را در ماتریس بردارهای ویژه ضرب میکنیم:
Datanew=Z⋅V
برای مثال:
نتیجه:
در PC1، دادهها به صورت [-1.72, 0, 1.72] نمایش داده میشوند.
PC2 تماماً صفر است، زیرا واریانس ندارد.
2. تفسیر نتایج PCA
مقدار ویژه: نشاندهنده میزان واریانس هر مؤلفه است.
بارگذاری مؤلفهها (Loadings): نشان میدهد هر متغیر اصلی چقدر در مؤلفه جدید نقش دارد.
نمودار Scree Plot: برای انتخاب تعداد مؤلفههای مناسب استفاده میشود.
3. کاربردهای PCA
تشخیص چهره (Eigenfaces)
پردازش تصویر و فشردهسازی دادهها
حذف نویز از دادههای ژنتیکی
کاهش ابعاد قبل از اعمال الگوریتمهای کلاسبندی مانند SVM و رگرسیون
4.مراحل انجام PCA در SPSS
- تجزیه به مؤلفههای اصلی (Principal Component Analysis یا PCA) در نرمافزار SPSS بهراحتی قابل اجراست. در این بخش، مراحل انجام PCA در SPSS را بهصورت گامبهگام همراه با تفسیر نتایج توضیح میدهیم.
4.1. وارد کردن دادهها
دادههای خود را در SPSS وارد کنید.
مطمئن شوید که متغیرها بهصورت عددی (Scale) هستند.
4.2. دسترسی به تحلیل PCA
مسیر زیر را دنبال کنید:
Analyze → Dimension Reduction → Factor
4.3. تنظیم متغیرها
متغیرهای مورد نظر را به کادر Variables منتقل کنید.
در تب Descriptives:
گزینه Initial solution را فعال کنید.
Coefficients (برای ماتریس همبستگی) و KMO and Bartlett’s test را انتخاب کنید.
4.4. تعیین روش استخراج مؤلفهها
در تب Extraction:
Method: Principal components (پیشفرض PCA).
Analyze: Correlation matrix (اگر دادهها استاندارد نشدهاند).
Extract:
یا Eigenvalues over 1 (معیار کایزر) را انتخاب کنید.
یا تعداد مؤلفههای مورد نظر را مشخص کنید (Fixed number of factors).
4.5. چرخش مؤلفهها (Rotation)
در تب Rotation:
Varimax (برای چرخش متعامد) یا Promax (اگر مؤلفهها همبسته باشند).
4.6. ذخیره نمرات مؤلفهها (Scores)
در تب Scores:
Save as variables را فعال کنید تا نمرات مؤلفهها به دادهها اضافه شود.
4.7. اجرای تحلیل
OK را بزنید تا نتایج نمایش داده شود.
5. تفسیر خروجیهای PCA در SPSS
5.1. آزمون KMO و بارتلت
KMO (Kaiser-Meyer-Olkin):
اگر بالاتر از 0.6 باشد، دادهها برای تحلیل عاملی مناسب هستند.
اگر کمتر از 0.5 باشد، تحلیل قابل اعتماد نیست.
Bartlett’s Test:
باید معنادار (Sig. < 0.05) باشد، یعنی همبستگی بین متغیرها کافی است.
5.2. جدول Communalities
نشان میدهد هر متغیر چقدر توسط مؤلفهها تبیین میشود.
مقادیر نزدیک به 1 نشاندهنده توضیحدهندگی خوب هستند.
5.3. جدول Total Variance Explained
مقدار ویژه (Eigenvalue): مؤلفههایی با مقدار ویژه بیشتر از 1 حفظ میشوند.
درصد واریانس تجمعی (Cumulative %): نشان میدهد چند درصد از واریانس کل توسط مؤلفهها توضیح داده شده است.
5.4. ماتریس مؤلفهها (Component Matrix)
بارهای عاملی (Factor Loadings) نشان میدهند هر متغیر چقدر با مؤلفهها همبسته است.
بارهای بالاتر از 0.5 (یا 0.7 در برخی منابع) معنادار در نظر گرفته میشوند.
5.5. نمودار Scree Plot
برای تعیین تعداد مؤلفههای بهینه استفاده میشود.
نقطهای که شیب نمودار کم میشود (Elbow Point) تعداد مؤلفههای مناسب را نشان میدهد.
6. مثال کاربردی در SPSS
6.1. سناریو تحلیل
فرض کنید میخواهیم 5 متغیر روانسنجی (مانند اضطراب، افسردگی، استرس، عزت نفس و شادکامی) را با PCA تحلیل کنیم.
6.2. نتایج فرضی
KMO = 0.78 (مناسب است).
Bartlett’s Test: Sig. = 0.000 (مناسب است).
2 مؤلفه با مقدار ویژه > 1 استخراج شد.
مؤلفه 1: اضطراب، افسردگی، استرس (واریانس توضیحدادهشده = 45%).
مؤلفه 2: عزت نفس، شادکامی (واریانس توضیحدادهشده = 30%).
درصد کل واریانس: 75%.
6.3. تفسیر
مؤلفه اول ممکن است نشاندهنده حالتهای هیجانی منفی باشد.
مؤلفه دوم ممکن است سلامت روان مثبت را اندازهگیری کند.
7. ذخیره و استفاده از نمرات مؤلفهها
اگر در تب Scores گزینه Save as variables را انتخاب کرده باشید، SPSS نمرات مؤلفهها را به دادهها اضافه میکند.
این نمرات را میتوان در تحلیلهای بعدی (مثل رگرسیون یا خوشهبندی) استفاده کرد.
8. مزایا و محدودیتهای PCA در SPSS
✅ مزایا:
رابط کاربری ساده و بدون نیاز به کدنویسی.
خروجیهای جامع و قابل تفسیر.
❌ محدودیتها:
امکان سفارشیسازی کمتر نسبت به R یا Python.
در صورت داشتن دادههای گمشده، ممکن است نیاز به پیشپردازش داشته باشد.
9. نتیجهگیری
تجزیه به مؤلفه های اصلی یکی از روش های تحلیل عاملی است. یک تحلیل مؤلفه اصلی اغلب روابطی را که پیشتر مورد شک و تردید بود را آشکار می سازد و بدین وسیله تعبیرهایی را که به طور عادی نتیجه نمی شد را امکان پذیر می کند. PCA یک روش قدرتمند برای کاهش ابعاد و استخراج ویژگیهای کلیدی از دادههای پیچیده است. با محاسبه ماتریس کوواریانس، مقادیر ویژه و بردارهای ویژه، میتوان دادهها را به مؤلفههای مستقل و کمبُعد تبدیل کرد.
PCA در SPSS ابزاری قدرتمند برای کاهش ابعاد دادهها و شناسایی ساختارهای پنهان است. با تحلیل مقدار ویژه، بارهای عاملی و واریانس توضیحدادهشده، میتوانید مؤلفههای اصلی را استخراج و تفسیر کنید.
📌اگر نیاز به یادگیری بیشتر با تمرینات عملی و فایل داده ها دارید پیشنهاد می شود کتاب “آموزش spss از مبتدی تا پیشرفته” را مطالعه کنید.