تحلیل رگرسیون خطی

رگرسیون خطی یک تکنیک آماری است که برای پیش بینی مقدار یک متغیر وابسته بر اساس مقدار متغیر(های) مستقل استفاده می شود. مدل‌های رگرسیون خطی نسبتاً ساده هستند و یک فرمول ریاضی با تفسیر آسان ارائه می‌دهند که می‌تواند پیش‌بینی ایجاد کند.

اگر بیش از یک متغیر مستقل در مطالعه وجود داشته باشد، به آن رگرسیون خطی چندگانه گفته می شود.

در اصل تحلیل رگرسیون روشی است که ضرایب معادله خطی را تخمین می زند. این معادله شامل یک یا چند متغیر مستقل است که به صورت بهینه مقدار متغیر وابسته را پیش بینی می کند.

رگرسیون خطی با یک خط یا سطح مستقیم متناسب است که اختلاف بین مقادیر خروجی پیش بینی شده و واقعی را به حداقل می رساند.

تحلیل رگرسیون به محقق این امکان را می دهد که بهترین پیش بینی کننده متغیر وابسته را پیدا کند.

به طور مثال فرض کنید محقق در جستجوی عوامل مؤثر بر وزن افراد باشد که آن را با شاخص توده بدنی(BMI) اندازه گیری کرده است. به طور خاص می خواهد بررسی کند که آیا متغیرهای تعداد وعده‌های غذایی فست فود در هفته، تعداد ساعت‌های تماشای تلویزیون در هفته، تعداد دقیقه‌های صرف شده برای ورزش در هفته، و BMI والدین پیش‌بینی‌کننده‌های قابل‌توجهی برای شاخص توده بدنی یک فرد هستند یا خیر؟ رگرسیون خطی در اینجا روش مناسبی برای این تحلیل خواهد بود.

رگرسیون خطی در اغلب علوم، از علوم زیستی، رفتاری، محیطی و اجتماعی گرفته تا تجارت استفاده می شود.

معادله رگرسیون

معادله رگرسیون با استفاده از روش حداقل مربعات برازش می شود.

در تحلیل رگرسیون  با یک متغیر مستقل معادله رگرسیون به شکل زیر است

Y = a + b*X

که در آن Y متغیر وابسته، X متغیر مستقل، a  مقدار ثابت ، و b شیب خط رگرسیون است.

به عنوان مثال، فرض کنیم رابطه معدل و ضریب هوشی(IQ) در بهترین شکل با معادله رگرسیون 16 + 0.02 * IQ  پیش بینی می شود.

اگر دانش آموزی ضریب هوشی(IQ) 120 داشته باشد ، معدل او 18.4 (16 + 0.02 * 120 = 18.4)  خواهد بود.

اگر در یک تحلیل رگرسیونی بیش از یک متغیر مستقل وجود داشته باشد، معادله رگرسیون به صورت زیر است.

Y = a + b1*X1 + b2*X2 + … +bp*Xp

که درآن Y متغیر وابسته، Xi  ها متغیرهای مستقل، a  مقدار ثابت ، و bi ها ضرایب رگرسیونی هستند.

به عنوان مثال، اگر بخواهیم متغیرهای بیشتری را در تجزیه و تحلیل معدل بگنجانیم، معیارهای مانند ساعت مطالعه و … می توانیم به معادله اضافه کنیم.

ضریب تعیین(R-square)

برای ارزیابی برازش یک مدل رگرسیونی از معیاری به نام ضریب تعیین استفاده می شود. R-square یک آماره رایج برای ارزیابی برازش مدل یک معادله رگرسیونی است.

ضریب تعیین نشان می دهد که متغیرهای مستقل چه مقدار از تغییرات متغیر وابسته را بیان می کنند. یا به بیان ساده تر متغیرهای مستقل در مدل رگرسیونی  چقدر در پیش بینی متغیر وابسته خوب عمل می کنند.

مقدار R-square از 0.0 تا 1.0 متغیر است و می توان آن را در 100 ضرب کرد تا درصد تغییرات تبیین شده به دست آید. مثلاً اگر در یک تحلیل مقدار R-square برابر 0.06 باشد می توان گفت 60 درصد تغییرات متغیر وابسته توسط متغیر(های) مستقل بیان می شود.

تفسیر ضرایب رگرسیون

ضرایب b از معادلات بالا نشان دهنده قدرت و جهت رابطه بین متغیرهای مستقل و وابسته است. اگر به معادله معدل و IQ نگاه کنیم،

16 + 0.02*IQ =معدل

0.02 ضریب رگرسیون برای متغیر IQ است  که نشان می دهد جهت رابطه مثبت  و مستقیم است به طوری که با افزایش IQ، معدل نیز افزایش می یابد.  اگر ضریب رگرسیون منفی باشد نشان می دهد که رابطه بین متغیر وابسته و مستقل منفی و معکوس است.

مقدار ثابت در مدل رگرسیون، مقدار متغیر وابسته در حالی متغیر مستقل برابر صفر باشد را نشان می دهد.

مفروضات در تحلیل رگرسیون خطی

برای انجام تحلیل رگرسیون خطی مفروضات زیر باید برقرار باشد:

خطی بودن: فرض بر این است که رابطه بین متغیرهای مستقل و وابسته خطی است. اگرچه این فرض هرگز نمی تواند به طور کامل تأیید شود، بررسی نمودار پراکندگی متغیرها می تواند به تعیین این موضوع کمک کند. اگر یک انحنا در رابطه وجود داشته باشد، ممکن است لازم باشد تغییراتی روی  متغیرها انجام گیرد  یا معادله ای غیرخطی در نظر گرفته شود.

نرمال بودن باقیمانده ها: فرض بر این است که باقیمانده های متغیرها به طور نرمال توزیع شده اند. یعنی خطاهای پیش بینی مقدار متغیر وابسته(y) به گونه ای توزیع شده است که به منحنی نرمال نزدیک باشد.

برای بررسی توزیع متغیرها و مقادیر باقیمانده آنها می توان هیستوگرام ها یا نمودارهای احتمال را بررسی کرد.

فرض  استقلال: فرض بر این است که خطاهای پیش‌بینی مقدار Y همگی مستقل از یکدیگر هستند (همبستگی ندارند).

همسانی: فرض بر این است که واریانس حول خط رگرسیون برای همه مقادیر متغیرهای مستقل یکسان است یعنی واریانس توزیع متغیر وابسته باید برای همه مقادیر متغیر مستقل ثابت باشد.

نرم افزارهای آماری برای انجام تحلیل رگرسیون

تحلیل های رگرسیونی ساده و چندگانه می توان با استفاده از نرم افزارهای آماری مثل spss، sas و … انجام داد. این تحلیل ها حتی با استفاده از نرم افزار مایکروسافت اکسل نیز قابل اجراست. استفاده از این نرم افزارها انجام محاسبات را بسیار آسان می کند. با استفاده از خروجی نرم افزارهای آماری می توانید برقراری مفروضات را بررسی کنید، معادله رگرسیونی را داشته باشید و برازش مدل را با استفاده از ضریب تعیین ارزیابی کنید.

آموزش تحلیل رگرسیون

در کتاب “آموزش spss از مبتدی تا پیشرفته” نحوه انجام تحلیل رگسیون خطی ساده و چندگانه به تفصیل بیان شده و تفسیر نتایج و خروجی ها به خوبی شرح داده شده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.

فهرست