روش حداقل مربعات در رگرسیون خطی
در مطالعاتی که از داده های جفتی به عنوان متغیرهای مستقل و وابسته استفاده می کنیم یکی از آسان ترین راه ها برای مشاهده نوع رابطه دو متغیر استفاده از نمودار پراکنش(scatterplot) است. در این نوع نمودار متغیر مستقل در امتداد محور افقی و متغیر وابسته در امتداد محور عمودی رسم می شوند.
ابتدایی ترین رابطه ای که بین دو متغیرمی توان جستجو کرد، رابطه خطی است.
اگر در نمودار پراکنش بیش از دو نقطه وجود داشته باشد در اغلب مواقع رسم خط مستقیمی که تمام نقاط را قطع کند امکان پذیر نیست. بنابراین باید خطی رسم شود که از وسط نقاط عبور کرده و روند کلی داده ها را نشان دهد. واضح است در چنین شرایطی می توان تعداد بسیار زیادی خط رسم کرد که از وسط داده ها عبور می کند. حالا سوال اینجاست کدام خط بهترین است؟
هدف از تحلیل به روش رگرسیون خطی این است که از لحاظ ریاضی، توصیف دقیقی از بهترین خط بیان شود. خط رگرسیون حداقل مربعات بهترین خط از لحاظ ریاضی و آماری است.
خط حداقل مربعات چیست؟
همانطور که بیان شد می توان خطوط مختلفی برای مجموعه یکسان از نقاط داده رسم کرد، این خط ها مجموعه ای متفاوت از فواصل نقاط واقعی، با خط ترسیم شده را نشان می دهد. مطلوب این است که این فاصله ها تا جایی که می شود کوچکتر باشند.
با توجه به اینکه این فواصل می توانند مثبت یا منفی باشند در بهترین خط، مجموع همه این فاصلهها یکدیگر را خنثی میکنند. مجموع فاصله ها همیشه برابر با صفر خواهد بود. این فاصله ها را در اصطلاح آماری و تحلیل رگرسیون خطی “باقیمانده” می گویند.
برای رفع این مشکل، مجذور(مربع) باقیمانده ها (فواصل بین نقاط و خط) به کار برده می شوند تا مجموعه ای از اعداد غیرمنفی حاصل شود.
با استفاده از روش های حساب دیفرانسیل و انتگرال می توان به خطی دست یافت که مجموع مجذور فواصل را به حداقل می رساند. این خط را “خط حداقل مربعات” می گویند و خطی است که به بهترین وجه با داده ها مطابقت دارد. از بین تمام خطوط ممکنی که می توان رسم کرد، خط کمترین مربعات، نزدیک ترین خط به مجموعه داده ها به عنوان یک کل است.
تکنیک رگرسیون خطی در واقع همان برازش خط حداقل مربعات است که معمولاً در آمار فقط “رگرسیون” نامیده می شود. اگر تحلیل رگرسیون به صورت دستی یا با استفاده از SPSS ، Excel یا سایر نرم افزارهای آماری انجام شود، در واقع از روش حداقل مربعات استفاده شده است.
تکنیکهای دیگری مانند رگرسیون چند جملهای و رگرسیون لجستیک نیز وجود دارد، اما معمولاً به آنها با نام کاملشان اشاره میشود و نه صرفاً «رگرسیون».
معادله خط رگرسیون حداقل مربعات
خط رگرسیون ساده با معادله y= a + b x بیان می شود.
شیب خط رگرسیونی که در این معادله b نشان داده شده است از این رابطه به دست می آید:
b=r(sy/sx)
. در اینجا sx نشان دهنده انحراف استاندارد مختصات x و sy انحراف استاندارد مختصات y داده ها و r ضریب همبستگی ست.
شیب خط رگرسیون با ضریب همبستگی داده ها ارتباط مستقیم دارد. علامت ضریب همبستگی مستقیماً با علامت شیب خط حداقل مربعات ما مرتبط است.
محاسبه خط رگرسیون حداقل مربعات
در مواقعی که نخواهید محاسبات را با دست انجام دهید، می توانید با استفاده از نرم افزارهای آماری بهترین خط رگرسیون را برازش دهید. چندین گزینه برای یافتن خط رگرسیون با استفاده از نرم افزارها وجود دارد، از متداول ترین آن ها می توان spss را نام برد.
اگر علاقه مند به فراگیری برازش مدل های رگرسیون با استفاده از spss هستید کتاب “آموزش spss از مبتدی تا پیشرفته” را مطالعه کنید. در این کتاب هم روش استفاده از دستور Linear Regression و هم روش تجزیه و تحلیل خروجی های نرم افزار را به سادگی می آموزید.
از جمله دیگر ابزارهامی توان , Minitab sas و اکسل را نام برد.
.
- خط رگرسیون حداقل مربعات چیست؟ اگر دادههای شما یک رابطه خطی بین متغیرهای X و Y را نشان میدهد، میخواهید بهترین خط را پیدا کنید متناسب با آن رابطه آن خط یک خط رگرسیون نامیده می شود و دارای معادله ŷ= a + b x است. خط رگرسیون حداقل مربعات خطی است که فاصله عمودی از نقاط داده تا خط رگرسیون را تا حد امکان کوچک می کند. به آن “حداقل مربع” می گویند زیرا بهترین خط تناسب خطی است که واریانس (مجموع مربعات خطاها) را به حداقل می رساند. تجسم این ممکن است کمی سخت باشد، اما نکته اصلی این است که شما به دنبال یافتن معادله ای هستید که تا حد امکان با نقاط مطابقت دارد.
- البته ممکن است نخواهید محاسبات را با دست انجام دهید. چندین گزینه برای یافتن خط رگرسیون با استفاده از فناوری وجود دارد، از جمله رگرسیون Minitab و SPSS. اکسل یکی از ساده ترین (و ارزان ترین!) گزینه هاست:
- خط معادله بهترین تناسب خط بهترین تناسب تعیین شده از روش حداقل مربعات دارای معادله ای است که داستان رابطه بین نقاط داده را بیان می کند. خط معادلات بهترین برازش ممکن است توسط مدلهای نرمافزار رایانهای تعیین شود که شامل خلاصهای از خروجیها برای تجزیه و تحلیل است که در آن ضرایب و خروجیهای خلاصه وابستگی متغیرهای مورد آزمایش را توضیح میدهند.