تجزیه به مؤلفه‌های اصلی (PCA): فرمول‌ها، مثال‌ها و اجرا در SPSS

مجموعه داده های بزرگ به طور فزاینده ای در بسیاری از رشته ها گسترش می یابد و اغلب تفسیر آنها دشوار است. برای تفسیر چنین مجموعه‌ داده هایی‌، روش‌هایی لازم است که ابعاد داده ها را به روشی قابل تفسیر به شدت کاهش دهند، به طوری که بیشتر اطلاعات موجود در داده‌ها حفظ شود. امروزه تکنیک های زیادی برای این منظور توسعه یافته است، اما تجزیه و تحلیل مؤلفه اصلی (PCA) یکی از قدیمی ترین و پرکاربردترین آنهاست. ایده آن ساده است، کاهش ابعاد یک مجموعه داده، در حالی که تا آنجایی که ممکن است «تغییرپذیری» (یعنی اطلاعات آماری) حفظ شود.

بنابراین تجزیه و تحلیل مؤلفه اصلی (PCA) تکنیکی برای کاهش ابعاد مجموعه داده ها و افزایش تفسیرپذیری آن ­هاست. در فرایند کار تجزیه به مؤلفه های اصلی تا حد امکان اطلاع کمتری از دست داده می­شود.

تحلیل مؤلفه های اصلی به عنوان اولین هدف، ترکیب خطی استاندارد شده، متغیرهای اولیه را که دارای واریانس ماکسیمال است جستجو می کند.

در این مقاله، به‌صورت گام‌به‌گام فرمول‌ها، محاسبات و مثال‌های کاربردی PCA را بررسی می‌کنیم.

تحلیل مؤلفه های اصلی به تبیین ساختار واریانس-کوواریانس به کمک چند ترکیب خطی از متغیرهای اصلی سر و کار دارد. هدف کلی آن عبارت است تعبیر و تفسیر آسان تر داده با استفاده ازکاهش حجم داده ها.

برای مثال اگر برای مطالعه تغییرپذیری یک سیستم تعداد p متغیر وجود داشته باشد با استفاده از تجزیه به مؤلفه های اصلی می توان این تغییرپذیری را در قالب تعداد کمتری مثلاً k مؤلفه بیان نمود. در این صورت میزان اطلاعی که در k مؤلفه موجود است تقریباً مانند میزان اطلاع در p متغیر اولیه است.

هر مؤلفه اصلی یک ترکیب خطی از متغیرهای اصلی است که:

  • اولین مؤلفه (PC1) بیشترین واریانس داده را توضیح می‌دهد.

مؤلفه‌های بعدی به‌صورت متعامد و با واریانس کاهش‌یافته تعریف می‌شوند

1. مراحل محاسبه PCA

1.1. استانداردسازی داده‌ها

از آنجا که PCA به مقیاس متغیرها حساس است، داده‌ها باید استاندارد شوند:

Z=(X−μ)/σ

مثال:
فرض کنید داده‌های زیر را داریم:

X1X2
24
46
68

میانگین (μ):


انحراف معیار (σ):

σX1σX2

داده استانداردشده (Z):

Z1Z2
1.63/(2-4) ≈ -1.221.63/(4-6) ≈ -1.22
1.63/(4-4) ≈ 01.63/(6-6) ≈ 0
1.63/(6-4) ≈ 1.221.63/(8-6) ≈ 1.22

1.2. محاسبه ماتریس کوواریانس

ماتریس کوواریانس رابطه بین متغیرها را نشان می‌دهد:

برای داده استانداردشده، ماتریس کوواریانس برابر ماتریس همبستگی است:


1.3. محاسبه مقادیر ویژه و بردارهای ویژه

مقادیر ویژه (Eigenvalues) و بردارهای ویژه (Eigenvectors) ماتریس کوواریانس، مؤلفه‌های اصلی را تعیین می‌کنند.

معادله ویژه:

C⋅v=λ⋅v

محاسبه برای ماتریس C:

 

ریشه‌های معادله (مقادیر ویژه):

λ1=2,λ2=0

بردارهای ویژه:

برای λ₁ = 2:

برای λ₂ = 0:


1.4. انتخاب مؤلفه‌های اصلی

مؤلفه‌ها بر اساس مقدار ویژه مرتب می‌شوند:

  • PC1 (مؤلفه اول): با λ₁ = 2 (بیشترین واریانس).

  • PC2 (مؤلفه دوم): با λ₂ = 0 (واریانس ناچیز).

اگر بخواهیم داده را به یک بُعد کاهش دهیم، فقط PC1 را نگه می‌داریم.


1.5. تبدیل داده‌ها به فضای جدید

داده‌های استانداردشده را در ماتریس بردارهای ویژه ضرب می‌کنیم:

Datanew=Z⋅V

برای مثال:

نتیجه:

  • در PC1، داده‌ها به صورت [-1.72, 0, 1.72] نمایش داده می‌شوند.

  • PC2 تماماً صفر است، زیرا واریانس ندارد.


2. تفسیر نتایج PCA

  • مقدار ویژه: نشان‌دهنده میزان واریانس هر مؤلفه است.

  • بارگذاری مؤلفه‌ها (Loadings): نشان می‌دهد هر متغیر اصلی چقدر در مؤلفه جدید نقش دارد.

  • نمودار Scree Plot: برای انتخاب تعداد مؤلفه‌های مناسب استفاده می‌شود.


3. کاربردهای PCA

  1. تشخیص چهره (Eigenfaces)

  2. پردازش تصویر و فشرده‌سازی داده‌ها

  3. حذف نویز از داده‌های ژنتیکی

  4. کاهش ابعاد قبل از اعمال الگوریتم‌های کلاس‌بندی مانند SVM و رگرسیون


4.مراحل انجام PCA در SPSS

  • تجزیه به مؤلفه‌های اصلی (Principal Component Analysis یا PCA)  در نرم‌افزار SPSS به‌راحتی قابل اجراست. در این بخش، مراحل انجام PCA در SPSS را به‌صورت گام‌به‌گام همراه با تفسیر نتایج توضیح می‌دهیم.

4.1. وارد کردن داده‌ها

  • داده‌های خود را در SPSS وارد کنید.

  • مطمئن شوید که متغیرها به‌صورت عددی (Scale) هستند.

4.2. دسترسی به تحلیل PCA

مسیر زیر را دنبال کنید:

Analyze → Dimension Reduction → Factor

4.3. تنظیم متغیرها

  • متغیرهای مورد نظر را به کادر Variables منتقل کنید.

  • در تب Descriptives:

    • گزینه Initial solution را فعال کنید.

    • Coefficients (برای ماتریس همبستگی) و KMO and Bartlett’s test را انتخاب کنید.

4.4. تعیین روش استخراج مؤلفه‌ها

در تب Extraction:

  • Method: Principal components (پیش‌فرض PCA).

  • Analyze: Correlation matrix (اگر داده‌ها استاندارد نشده‌اند).

  • Extract:

    • یا Eigenvalues over 1 (معیار کایزر) را انتخاب کنید.

    • یا تعداد مؤلفه‌های مورد نظر را مشخص کنید (Fixed number of factors).

4.5. چرخش مؤلفه‌ها (Rotation)

در تب Rotation:

  • Varimax (برای چرخش متعامد) یا Promax (اگر مؤلفه‌ها همبسته باشند).

4.6. ذخیره نمرات مؤلفه‌ها (Scores)

در تب Scores:

  • Save as variables را فعال کنید تا نمرات مؤلفه‌ها به داده‌ها اضافه شود.

4.7. اجرای تحلیل

OK را بزنید تا نتایج نمایش داده شود.


5. تفسیر خروجی‌های PCA در SPSS

5.1. آزمون KMO و بارتلت

  • KMO (Kaiser-Meyer-Olkin):

    • اگر بالاتر از 0.6 باشد، داده‌ها برای تحلیل عاملی مناسب هستند.

    • اگر کمتر از 0.5 باشد، تحلیل قابل اعتماد نیست.

  • Bartlett’s Test:

    • باید معنادار (Sig. < 0.05) باشد، یعنی همبستگی بین متغیرها کافی است.

5.2. جدول Communalities

  • نشان می‌دهد هر متغیر چقدر توسط مؤلفه‌ها تبیین می‌شود.

  • مقادیر نزدیک به 1 نشان‌دهنده توضیح‌دهندگی خوب هستند.

5.3. جدول Total Variance Explained

  • مقدار ویژه (Eigenvalue): مؤلفه‌هایی با مقدار ویژه بیشتر از 1 حفظ می‌شوند.

  • درصد واریانس تجمعی (Cumulative %): نشان می‌دهد چند درصد از واریانس کل توسط مؤلفه‌ها توضیح داده شده است.

5.4. ماتریس مؤلفه‌ها (Component Matrix)

  • بارهای عاملی (Factor Loadings) نشان می‌دهند هر متغیر چقدر با مؤلفه‌ها همبسته است.

  • بارهای بالاتر از 0.5 (یا 0.7 در برخی منابع) معنادار در نظر گرفته می‌شوند.

5.5. نمودار Scree Plot

  • برای تعیین تعداد مؤلفه‌های بهینه استفاده می‌شود.

  • نقطه‌ای که شیب نمودار کم می‌شود (Elbow Point) تعداد مؤلفه‌های مناسب را نشان می‌دهد.


6. مثال کاربردی در SPSS

6.1. سناریو تحلیل

فرض کنید می‌خواهیم 5 متغیر روان‌سنجی (مانند اضطراب، افسردگی، استرس، عزت نفس و شادکامی) را با PCA تحلیل کنیم.

6.2. نتایج فرضی

  • KMO = 0.78 (مناسب است).

  • Bartlett’s Test: Sig. = 0.000 (مناسب است).

  • 2 مؤلفه با مقدار ویژه > 1 استخراج شد.

  • مؤلفه 1: اضطراب، افسردگی، استرس (واریانس توضیح‌داده‌شده = 45%).

  • مؤلفه 2: عزت نفس، شادکامی (واریانس توضیح‌داده‌شده = 30%).

  • درصد کل واریانس: 75%.

6.3. تفسیر

  • مؤلفه اول ممکن است نشان‌دهنده حالت‌های هیجانی منفی باشد.

  • مؤلفه دوم ممکن است سلامت روان مثبت را اندازه‌گیری کند.


7. ذخیره و استفاده از نمرات مؤلفه‌ها

  • اگر در تب Scores گزینه Save as variables را انتخاب کرده باشید، SPSS نمرات مؤلفه‌ها را به داده‌ها اضافه می‌کند.

  • این نمرات را می‌توان در تحلیل‌های بعدی (مثل رگرسیون یا خوشه‌بندی) استفاده کرد.


8. مزایا و محدودیت‌های PCA در SPSS

مزایا:

  • رابط کاربری ساده و بدون نیاز به کدنویسی.

  • خروجی‌های جامع و قابل تفسیر.

محدودیت‌ها:

  • امکان سفارشی‌سازی کم‌تر نسبت به R یا Python.

  • در صورت داشتن داده‌های گم‌شده، ممکن است نیاز به پیش‌پردازش داشته باشد.


9. نتیجه‌گیری

تجزیه به مؤلفه های اصلی یکی از روش های تحلیل عاملی است. یک تحلیل مؤلفه اصلی اغلب روابطی را که پیشتر مورد شک و تردید بود را آشکار می سازد و بدین وسیله تعبیرهایی را که به طور عادی نتیجه نمی شد را امکان پذیر می کند. PCA یک روش قدرتمند برای کاهش ابعاد و استخراج ویژگی‌های کلیدی از داده‌های پیچیده است. با محاسبه ماتریس کوواریانس، مقادیر ویژه و بردارهای ویژه، می‌توان داده‌ها را به مؤلفه‌های مستقل و کم‌بُعد تبدیل کرد.

PCA در SPSS ابزاری قدرتمند برای کاهش ابعاد داده‌ها و شناسایی ساختارهای پنهان است. با تحلیل مقدار ویژه، بارهای عاملی و واریانس توضیح‌داده‌شده، می‌توانید مؤلفه‌های اصلی را استخراج و تفسیر کنید.

📌اگر نیاز به یادگیری بیشتر با تمرینات عملی و فایل داده ها دارید پیشنهاد می شود کتاب “آموزش spss از مبتدی تا پیشرفته” را مطالعه کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.

فهرست