در بسیاری از مطالعات ، ما بیش از یک متغیر برای هر فرد اندازه گیری می کنیم. به عنوان مثال ، ما بارش و رشد گیاه را اندازه گیری می کنیم ، یا تعداد جوانی با زیستگاه لانه سازی ، یا فرسایش خاک و حجم آب. ما جفت داده ها را جمع می کنیم و به جای بررسی هر متغیر به طور جداگانه (داده های یک متغیره) ، می خواهیم راه هایی برای توصیف داده های دو متغیره پیدا کنیم ، که در آن دو متغیر در هر موضوع در نمونه ما اندازه گیری می شوند. با توجه به چنین داده هایی ، ما با تعیین اینکه آیا بین این دو متغیر رابطه وجود دارد ، شروع می کنیم. به عنوان مقادیر تغییر متغیر ، آیا تغییرات مربوط به متغیر دیگر را می بینیم؟
ما می توانیم رابطه بین این دو متغیر را به صورت گرافیکی و عددی توصیف کنیم. ما با در نظر گرفتن مفهوم همبستگی شروع می کنیم.
همبستگی به عنوان ارتباط آماری بین دو متغیر تعریف شده است.
همبستگی بین دو متغیر وجود دارد که یکی از آنها به نوعی با دیگری مرتبط باشد. پراکندگی بهترین مکان برای شروع است. یک پراکندگی (یا نمودار پراکندگی) نمودار داده های نمونه زوج (x ، y) با محور x افقی و یک محور y عمودی است. هر جفت فردی (x ، y) به عنوان یک نقطه واحد ترسیم می شود.
شکل 1. پراکندگی قفسه سینه در مقابل طول.
در این مثال ، ما در برابر طول خرس (y) در برابر طول خرس (x) قرار می دهیم. هنگام بررسی یک پراکندگی ، باید الگوی کلی نقاط ترسیم شده را مطالعه کنیم. در این مثال ، ما می بینیم که با افزایش مقدار طول ، مقدار برای قفسه سینه افزایش می یابد. ما می توانیم یک شیب به سمت بالا و یک الگوی مستقیم در نقاط داده ترسیم شده را مشاهده کنیم.
یک پراکندگی می تواند چندین نوع مختلف از روابط بین دو متغیر را شناسایی کند.
- هنگامی که امتیاز در یک پراکندگی هیچ الگویی را نشان نمی دهد ، هیچ ارتباطی ندارد.
- یک رابطه غیر خطی است که نقاط موجود در یک پراکندگی از یک الگوی پیروی می کنند اما یک خط مستقیم نیست.
- یک رابطه خطی است که نقاط موجود در یک پراکندگی از یک الگوی خط تا حدودی مستقیم پیروی می کنند. این رابطه ای است که ما بررسی خواهیم کرد.
روابط خطی می تواند مثبت یا منفی باشد. روابط مثبت دارای نکاتی است که به سمت راست حرکت می کند. با افزایش مقادیر X ، مقادیر Y افزایش می یابد. با کاهش مقادیر x ، مقادیر Y کاهش می یابد. به عنوان مثال ، هنگام مطالعه گیاهان ، ارتفاع به طور معمول با افزایش قطر افزایش می یابد.
شکل 2. پراکندگی ارتفاع در مقابل قطر.
روابط منفی نقاطی دارد که به سمت راست به سمت پایین کاهش می یابد. با افزایش مقادیر x، مقادیر y کاهش می یابد. با کاهش مقادیر x، مقادیر y افزایش می یابد. به عنوان مثال، با افزایش سرعت باد، دمای سرمای باد کاهش می یابد.
شکل 3. نمودار پراکندگی دما در مقابل سرعت باد.
روابط غیر خطی یک الگوی ظاهری دارند، نه خطی. به عنوان مثال، با افزایش سن، قد تا یک نقطه افزایش می یابد و پس از رسیدن به حداکثر قد، سطح آن کاهش می یابد.
شکل 4. نمودار پراکندگی قد نسبت به سن.
وقتی دو متغیر هیچ رابطه ای ندارند، هیچ رابطه خط مستقیم یا غیر خطی وجود ندارد. وقتی یک متغیر تغییر می کند، بر متغیر دیگر تأثیر نمی گذارد.
شکل 5. نمودار پراکندگی رشد در مقابل مساحت.
ضریب همبستگی خطی
از آنجایی که بررسی های بصری تا حد زیادی ذهنی هستند، برای تعریف همبستگی بین دو متغیر به معیار دقیق و عینی تری نیاز داریم. برای تعیین کمیت قدرت و جهت رابطه بین دو متغیر، از ضریب همبستگی خطی استفاده می کنیم:
که x̄ و s x میانگین نمونه و انحراف استاندارد نمونه x ها هستند و ȳ و s y میانگین و انحراف معیار y هستند. حجم نمونه n است.
یک محاسبه جایگزین ضریب همبستگی به صورت زیر است:
جایی که
ضریب همبستگی خطی به افتخار کارل پیرسون که در ابتدا آن را توسعه داد، به عنوان ضریب همبستگی لحظه محصول پیرسون نیز نامیده می شود. این آمار به صورت عددی بیان می کند که رابطه مستقیم یا خطی بین دو متغیر و جهت مثبت یا منفی چقدر قوی است.
خواص r:
- همیشه بی ن-1 و +1 است.
- این یک اندازه گیری بدون واحد است، بنابراین "r" همان مقدار خواهد بود که شما دو متغیر را بر حسب پوند و اینچ یا بر حسب گرم و سانتی متر اندازه گیری کنید.
- مقادیر مثبت "r" با روابط مثبت همراه است.
- مقادیر منفی "r" با روابط منفی همراه است.
نمونه هایی از همبستگی مثبت
شکل 6. نمونه هایی از همبستگی مثبت.
نمونه هایی از همبستگی منفی
شکل 7. نمونه هایی از همبستگی منفی.
همبستگی علیت نیست. فقط به دلیل همبستگی دو متغیر به این معنی نیست که یک متغیر باعث تغییر متغیر دیگر می شود.
این دو پراکندگی بعدی را بررسی کنید. هر دوی این مجموعه داده ها دارای r = 0. 01 هستند، اما بسیار متفاوت هستند. نمودار 1 رابطه خطی کمی بین متغیرهای x و y را نشان می دهد. نمودار 2 یک رابطه غیر خطی قوی را نشان می دهد. ضریب همبستگی خطی پیرسون فقط قدرت و جهت یک رابطه خطی را اندازه گیری می کند. نادیده گرفتن نمودار پراکندگی می تواند منجر به یک اشتباه جدی در هنگام توصیف رابطه بین دو متغیر شود.
شکل 8. مقایسه نمودارهای پراکندگی.
هنگامی که رابطه بین دو متغیر را بررسی می کنید، همیشه با یک نمودار پراکنده شروع کنید. این نمودار به شما امکان می دهد به دنبال الگوها (هم خطی و هم غیر خطی) بگردید. مرحله بعدی توصیف کمی قدرت و جهت رابطه خطی با استفاده از "r" است. هنگامی که مشخص کردید که یک رابطه خطی وجود دارد، می توانید گام بعدی را در ساخت مدل بردارید.
رگرسیون خطی ساده
پس از شناسایی دو متغیری که همبستگی دارند، میخواهیم این رابطه را مدل کنیم. می خواهیم از یک متغیر به عنوان متغیر پیش بینی کننده یا توضیحی برای توضیح متغیر دیگر یعنی پاسخ یا متغیر وابسته استفاده کنیم. برای انجام این کار، ما به یک رابطه خوب بین دو متغیر خود نیاز داریم. سپس می توان از مدل برای پیش بینی تغییرات در متغیر پاسخ ما استفاده کرد. یک رابطه قوی بین متغیر پیش بینی کننده و متغیر پاسخ منجر به یک مدل خوب می شود.
شکل 9. نمودار پراکندگی با مدل رگرسیون.
یک مدل رگرسیون خطی ساده یک معادله ریاضی است که به ما امکان میدهد پاسخی را برای یک مقدار پیشبینیکننده معین پیشبینی کنیم.
مدل ما به شکل ŷ = b 0 + b 1 x است که در آن b 0 نقطه y است، b 1 شیب است، x متغیر پیش بینی است، و ŷ تخمینی از مقدار میانگین متغیر پاسخ برای هر کداممقدار متغیر پیش بینی کننده
مقطع y مقدار پیشبینیشده برای پاسخ (y) است که x = 0 است. شیب تغییر در y را برای هر تغییر واحد در x توصیف میکند. بیایید به این مثال نگاه کنیم تا تفسیر شیب و رهگیری را روشن کنیم.
مثال 1
یک هیدرولوژیست مدلی را برای پیش بینی جریان حجمی برای یک جریان در تقاطع پل با متغیر پیش بینی کننده بارندگی روزانه در اینچ ایجاد می کند.
ŷ = 1. 6 + 29 x. رهگیری Y 1. 6 را می توان از این طریق تفسیر کرد: در یک روز بدون بارندگی ، 1. 6 گالن وجود خواهد داشت. آب/دقیقهجریان در جریان در آن گذرگاه پل. شیب به ما می گوید که اگر آن روز یک اینچ باران می بارد ، جریان در جریان با 29 گال اضافی افزایش می یابد./مین. اگر آن روز 2 اینچ باران بارید ، جریان با 58 گال اضافی افزایش می یابد ./min.
مثال 2
اگر در آن روز 0. 45 اینچ باران بارید ، جریان متوسط جریان چیست؟
ŷ = 1. 6 + 29 x = 1. 6 + 29 (0. 45) = 14. 65 gal./min.
خط رگرسیون کمترین مربع (معادلات میانبر)
معادله توسط ŷ = b 0 + b 1 x داده شده است
شیب کجاست و b 0 = ŷ-b 1 x̄ رهگیری y از خط رگرسیون است.
یک معادله محاسباتی جایگزین برای شیب:
این مدل ساده خط بهترین مناسب برای داده های نمونه ما است. خط رگرسیون از هر نقطه ای عبور نمی کند. در عوض ، تفاوت بین تمام نقاط داده و مدل مستقیم را متعادل می کند. تفاوت بین مقدار داده مشاهده شده و مقدار پیش بینی شده (مقدار روی خط مستقیم) خطا یا باقیمانده است. معیار برای تعیین خطی که به بهترین وجه ارتباط بین دو متغیر را توصیف می کند ، بر اساس باقیمانده ها است.
باقیمانده = مشاهده شده - پیش بینی شده
به عنوان مثال ، اگر می خواستید با توجه به وزن آن ، توری سینه خرس سیاه را پیش بینی کنید ، می توانید از مدل زیر استفاده کنید.
وزن قفسه سینه = 13. 2 +0. 43 وزن
پیش بینی قفسه سینه خرس که وزن آن 120 پوند وزن داشت 64. 8 اینچ است.
GIRTH GIRTH = 13. 2 + 0. 43 (120) = 64. 8 اینچ.
اما یک سینه سینه خرس اندازه گیری شده (مقدار مشاهده شده) برای خرس که وزن آن 120 پوند وزن داشت ، در واقع 62. 1 اینچ بود.
باقیمانده 62. 1-64. 8 = -2. 7 در است.
باقیمانده منفی نشان می دهد که این مدل بیش از حد پیش بینی می کند. باقیمانده مثبت نشان می دهد که این مدل پیش بینی نشده است. در این مثال ، این مدل بیش از حد قفسه سینه خرس را که در واقع 120 پوند وزن داشت ، پیش بینی کرد.
شکل 10. پراکندگی با مدل رگرسیون که یک مقدار باقیمانده را نشان می دهد.
این خطای تصادفی (باقیمانده) تمام عوامل غیرقابل پیش بینی و ناشناخته را که در مدل گنجانده نشده است ، در نظر می گیرد. یک خط رگرسیون حداقل مربعات معمولی ، مجموع خطاهای مربع بین مقادیر مشاهده شده و پیش بینی شده را به حداقل می رساند تا یک خط مناسب ایجاد شود. تفاوت بین مقادیر مشاهده شده و پیش بینی شده برای مقابله با تفاوت های مثبت و منفی مربع است.
ضریب تعیین
بعد از اینکه خط رگرسیون خود را متناسب کردیم (محاسبه B 0 و B 1) ، معمولاً می خواهیم بدانیم که مدل چگونه به داده های ما متناسب است. برای تعیین این موضوع ، ما باید به ایده تحلیل واریانس فکر کنیم. در ANOVA ، ما با استفاده از مبالغ مربعات ، تغییرات را تقسیم کردیم تا بتوانیم یک اثر درمانی بر خلاف تغییر تصادفی که در داده های ما رخ داده است ، شناسایی کنیم. ایده برای رگرسیون یکسان است. ما می خواهیم تنوع کل را به دو بخش تقسیم کنیم: تغییرات ناشی از رگرسیون و تغییر ناشی از خطای تصادفی. و ما دوباره قصد داریم مبلغ مربع ها را محاسبه کنیم تا به ما در انجام این کار کمک کنیم.
فرض کنید تنوع کل در اندازه گیری نمونه در مورد میانگین نمونه توسط مبالغ مربعات تنوع کل در مورد میانگین (SST) مشخص شده است. تفاوت مربع بین مقدار پیش بینی شده و میانگین نمونه توسط مبالغ مربعات به دلیل رگرسیون (SSR) مشخص می شود. SSR نشان دهنده تنوع توضیح داده شده توسط خط رگرسیون است. سرانجام ، تنوع قابل توضیح توسط خط رگرسیون ، مبالغ مربعات به دلیل خطا (SSE) نامیده می شود و توسط آن مشخص می شود. SSE در واقع باقیمانده مربع است.
=
+
مبالغ مربعات و میانگین مبالغ مربع (دقیقاً مانند ANOVA) به طور معمول در تجزیه و تحلیل رگرسیون جدول واریانس ارائه می شود. نسبت میانگین مبالغ مربعات برای رگرسیون (MSR) و میانگین مبالغ مربعات برای خطا (MSE) یک آماری از آزمون F را تشکیل می دهد که برای آزمایش مدل رگرسیون استفاده می شود.
رابطه بین این مبالغ مربع به صورت تعریف شده است
تنوع کل = تنوع توضیح داده شده + تغییر غیر قابل توضیح
هرچه تنوع توضیح داده شده بزرگتر باشد ، مدل در پیش بینی بهتر است. هرچه تنوع غیر قابل توضیح بزرگتر باشد ، مدل پیش بینی می شود. اندازه گیری کمی از قدرت توضیحی یک مدل R 2 ، ضریب تعیین است:
ضریب تعیین ، درصد تغییر در متغیر پاسخ (y) را که توسط مدل توضیح داده شده است ، اندازه گیری می کند.
- مقادیر از 0 تا 1 متغیر است.
- R 2 نزدیک به صفر ، مدل با قدرت توضیحی بسیار کمی را نشان می دهد.
- R2 نزدیک به یک مدل با قدرت توضیحی بیشتر را نشان می دهد.
ضریب تعیین و ضریب همبستگی خطی از نظر ریاضی مرتبط است.
با این حال ، آنها دو معنی بسیار متفاوت دارند: R اندازه گیری قدرت و جهت یک رابطه خطی بین دو متغیر است. R 2 درصد تغییر در "Y" را که توسط مدل توضیح داده شده است ، توصیف می کند.
توطئه های احتمال باقیمانده و طبیعی
حتی اگر شما با استفاده از یک پراکندگی ، ضریب همبستگی و R 2 را تعیین کرده اید ، که x در پیش بینی ارزش y مفید است ، نتایج تجزیه و تحلیل رگرسیون فقط زمانی معتبر است که داده ها فرضیات رگرسیون لازم را برآورده می کنند.
- متغیر پاسخ (y) یک متغیر تصادفی است در حالی که متغیر پیش بینی کننده (x) غیر تصادفی یا ثابت و بدون خطا اندازه گیری می شود.
- رابطه Y و X باید خطی باشد ، که توسط مدل ارائه شده است.
- خطای اصطلاح تصادفی مقادیر ε مستقل است ، میانگین 0 و یک واریانس مشترک σ 2 ، مستقل از x ، و به طور معمول توزیع می شوند.
ما می توانیم از توطئه های باقیمانده برای بررسی واریانس ثابت و همچنین اطمینان حاصل کنیم که مدل خطی در واقع کافی است. یک طرح باقیمانده یک پراکندگی از باقیمانده (= مشاهده شده - مقادیر پیش بینی شده) در مقابل مقدار پیش بینی شده یا نصب شده (همانطور که در طرح باقیمانده استفاده می شود) است. محور افقی مرکز در صفر تنظیم شده است. یکی از ویژگی های باقیمانده این است که آنها به صفر می رسند و میانگین صفر دارند. یک طرح باقیمانده باید از هر الگوی عاری باشد و باقیمانده ها باید به عنوان یک پراکندگی تصادفی از نقاط در حدود صفر ظاهر شوند.
یک طرح باقیمانده و بدون ظاهر از هر الگوی نشان می دهد که فرضیات مدل برای این داده ها راضی هستند.
شکل 12. یک طرح باقیمانده.
یک طرح باقیمانده که دارای "شکل فن" است ، نشان دهنده واریانس ناهمگن (واریانس غیر ثابت) است. با افزایش یا کاهش واریانس خطا ، باقیمانده ها تمایل به فن یا فن دارند.
شکل 13. یک طرح باقیمانده که نشان دهنده واریانس غیر ثابت است.
یک طرح باقیمانده که تمایل به "تعقیب" دارد ، نشان می دهد که یک مدل خطی ممکن است مناسب نباشد. این مدل ممکن است به شرایط مرتبه بالاتر X نیاز داشته باشد ، یا ممکن است یک مدل غیر خطی برای توصیف بهتر رابطه بین Y و X مورد نیاز باشد. تحول در X یا Y نیز ممکن است در نظر گرفته شود.
شکل 14. یک طرح باقیمانده که نشان دهنده نیاز به یک مدل مرتبه بالاتر است.
یک طرح احتمال عادی به ما امکان می دهد بررسی کنیم که خطاها به طور عادی توزیع می شوند. این باقیمانده ها را در برابر مقدار مورد انتظار باقیمانده قرار می دهد که گویی از توزیع عادی ناشی شده است. به یاد بیاورید که وقتی باقیمانده ها به طور معمول توزیع می شوند ، آنها از یک الگوی مستقیم پیروی می کنند و به سمت بالا شیب می گیرند.
این طرح غیرمعمول نیست و هیچ گونه غیر طبیعی با باقیمانده ها را نشان نمی دهد.
شکل 15. یک طرح احتمال طبیعی.
این طرح بعدی به وضوح توزیع غیر عادی باقیمانده ها را نشان می دهد.
شکل 16. یک طرح احتمال طبیعی ، که توزیع غیر عادی را نشان می دهد.
جدی ترین تخلفات عادی بودن معمولاً در دم توزیع ظاهر می شود زیرا این جایی است که توزیع عادی بیشتر با انواع دیگر توزیع ها با میانگین و گسترش مشابه متفاوت است. انحنای در هر دو یا هر دو انتهای یک طرح احتمال طبیعی نشانگر غیر طبیعی بودن است.
مدل جمعیت
مدل رگرسیون ما بر اساس نمونه ای از مشاهدات دو متغیره N که از جمعیت بیشتری از اندازه گیری ها تهیه شده است ، ساخته شده است.
ما از میانگین و انحراف استاندارد داده های نمونه خود برای محاسبه شیب (B 1) و رهگیری Y (B 0) به منظور ایجاد یک خط رگرسیون معمولی حداقل مربعات استفاده می کنیم. اما ما می خواهیم رابطه Y و X را در جمعیت توصیف کنیم ، نه فقط در داده های نمونه ما. ما می خواهیم یک مدل جمعیتی بسازیم. اکنون ما به خط حداقل مربعات محاسبه شده از یک نمونه به عنوان تخمینی از خط رگرسیون واقعی برای جمعیت فکر خواهیم کرد.
مدل جمعیت ، که در آن μ y میانگین پاسخ جمعیت است ، β 0 با رهگیری Y است و β 1 شیب مدل جمعیت است.
در جمعیت ما ، می تواند پاسخ های مختلفی برای مقدار x وجود داشته باشد. در رگرسیون خطی ساده ، مدل فرض می کند که برای هر مقدار x مقادیر مشاهده شده متغیر پاسخ y به طور معمول با میانگین توزیع می شود که به x بستگی دارد. ما از μ y برای نشان دادن این وسایل استفاده می کنیم. ما همچنین فرض می کنیم که این بدان معناست که همه در هنگام ترسیم در برابر X (یک خط از وسایل) روی یک خط مستقیم قرار دارند.
شکل 17. مدل آماری برای رگرسیون خطی. میانگین پاسخ یک تابع مستقیم از متغیر پیش بینی کننده است.
داده های نمونه سپس متناسب با مدل آماری:
داده ها = تناسب + باقیمانده
جایی که خطاها (ε i) مستقل هستند و به طور معمول N (0 ، σ) توزیع می شوند. رگرسیون خطی همچنین واریانس برابر Y را فرض می کند (σ برای همه مقادیر x یکسان است). ما از ε (یونانی اپسیلون) برای ایستادن قسمت باقیمانده مدل آماری استفاده می کنیم. پاسخ y مجموع میانگین و انحراف شانس آن از میانگین است. انحرافات ε نشان دهنده "نویز" در داده ها است. به عبارت دیگر ، نویز تغییر در Y به دلیل سایر دلایل است که مانع از شکل گیری یک خط کاملاً مستقیم می شود.
داده های نمونه مورد استفاده برای رگرسیون مقادیر مشاهده شده Y و X است. پاسخ y به یک x معین یک متغیر تصادفی است و مدل رگرسیون میانگین و انحراف استاندارد این متغیر تصادفی Y را توصیف می کند. رهگیری β 0 ، شیب β 1 و انحراف استاندارد σ از y پارامترهای ناشناخته مدل رگرسیون است و باید از داده های نمونه تخمین زده شود.
ŷ یک تخمین بی طرفانه برای میانگین پاسخ μ ~ b 0 یک تخمین بی طرفانه برای رهگیری β 0 B 1 یک تخمین بی طرفانه برای شیب β 1 است
تخمین پارامتری
هنگامی که ما تخمین های β 0 و β 1 (از داده های نمونه B 0 و B 1) داشته باشیم ، رابطه خطی تخمین μ y را برای تمام مقادیر x در جمعیت ما تعیین می کند ، نه فقط برای مقادیر مشاهده شده x. اکنون می خواهیم از خط کمترین مربع به عنوان پایه ای برای استنباط در مورد جمعیتی که نمونه ما از آن ترسیم شده است استفاده کنیم.
فرضیات مدل به ما می گویند که B 0 و B 1 به طور معمول با میانگین β 0 و β 1 با انحراف استاندارد توزیع می شوند که می توانند از داده ها تخمین زده شوند. روشهای استنباط در مورد خط رگرسیون جمعیت مشابه مواردی است که در فصل قبل برای وسایل شرح داده شده است. مثل همیشه ، بررسی داده های مربوط به خارج از کشور و مشاهدات تأثیرگذار مهم است.
برای انجام این کار ، باید خطای استاندارد رگرسیون را تخمین بزنیم. این انحراف استاندارد از خطاهای مدل است. این تنوع Y را در مورد خط رگرسیون جمعیت اندازه گیری می کند. ما از باقیمانده ها برای محاسبه این مقدار استفاده خواهیم کرد. به یاد داشته باشید ، مقدار پیش بینی شده y (P̂) برای یک X خاص ، نکته ای در خط رگرسیون است. این تخمین بی طرفانه از میانگین پاسخ (μ Y) برای آن x است. باقیمانده:
باقیمانده = مشاهده شده - پیش بینی شده
e i = y i - ŷ =
باقیمانده E I با انحراف مدل ε i که σ e i = 0 با میانگین 0. خطای استاندارد رگرسیون S یک تخمین بی طرفانه از σ است.
مقدار S تخمین خطای استاندارد رگرسیون (σ) است و S 2 اغلب به عنوان میانگین خطای مربع (MSE) خوانده می شود. مقدار کمی از S نشان می دهد که مقادیر مشاهده شده Y نزدیک به خط رگرسیون واقعی قرار می گیرند و خط باید تخمین ها و پیش بینی های دقیق را ارائه دهد.
فواصل اطمینان و تست های اهمیت برای پارامترهای مدل
در فصل قبل ، ما فواصل اطمینان را ساختیم و آزمایشات معنی داری را برای پارامتر جمعیت μ (میانگین جمعیت) انجام دادیم. ما به آمار نمونه مانند میانگین و انحراف استاندارد برای برآورد نقطه ، حاشیه خطاها و آمار آزمون اعتماد داشتیم. استنتاج برای پارامترهای جمعیت β 0 (شیب) و β 1 (رهگیری Y) بسیار مشابه است.
استنتاج شیب و رهگیری بر اساس توزیع عادی با استفاده از برآوردهای B 0 و B 1 است. انحراف استاندارد این تخمین ها چند برابر σ ، خطای استاندارد رگرسیون جمعیت است. به یاد داشته باشید ، ما σ را با S (تغییرپذیری داده ها در مورد خط رگرسیون) تخمین می زنیم. از آنجا که ما از S استفاده می کنیم ، ما به توزیع T دانشجویی با (N-2) درجه آزادی متکی هستیم.
خطای استاندارد برای برآورد β 0
خطای استاندارد برای برآورد β 1
ما می توانیم فواصل اطمینان را برای شیب رگرسیون بسازیم و به همان روشی که هنگام تخمین جمعیت انجام دادیم ، رهگیری کنیم.
فاصله اطمینان برای β 0: B 0 ± T α /2 SE B0
فاصله اطمینان برای β 1: B 1 ± T α /2 SE B1
جایی که SE B0 و SE B1 به ترتیب خطاهای استاندارد برای رهگیری Y و شیب هستند.
ما همچنین می توانیم فرضیه H 0 را آزمایش کنیم: β 1 = 0. وقتی β 1 = 0 را در مدل جایگزین می کنیم ، X- ترم از بین می رود و ما با μ y = β 0 باقی می مانند. این به ما می گوید که میانگین y با x متفاوت نیست. به عبارت دیگر ، هیچ رابطه مستقیمی بین x و y وجود ندارد و رگرسیون y بر روی x برای پیش بینی y هیچ ارزشی ندارد.
آزمون فرضیه برای β 1
آمار آزمون t = b 1 / se b1 است
ما همچنین می توانیم از F-Statistic (MSR/MSE) در جدول ANOVA رگرسیون استفاده کنیم
*به یاد بیاورید که t 2 = f
بنابراین بیایید همه اینها را در یک مثال جمع کنیم.
مثال 3
شاخص یکپارچگی بیوتیک (IBI) اندازه گیری کیفیت آب در جریان است. به عنوان یک مدیر منابع طبیعی در این منطقه ، باید تغییرات در کیفیت آب را رصد ، ردیابی و پیش بینی کنید. شما می خواهید یک مدل رگرسیون خطی ساده ایجاد کنید که به شما امکان می دهد تغییرات IBI را در منطقه جنگلی پیش بینی کنید. در جدول زیر داده های نمونه از یک منطقه جنگلی ساحلی را منتقل می کند و داده های مربوط به IBI و منطقه جنگلی را در کیلومتر مربع ارائه می دهد. بگذارید منطقه جنگل متغیر پیش بینی کننده (X) باشد و IBI متغیر پاسخ (Y) باشد.
جدول 1. داده های مشاهده شده از یکپارچگی بیوتیک و منطقه جنگل.
ما با یک آمار توصیفی محاسباتی و پراکندگی IBI در برابر منطقه جنگل شروع می کنیم.
x̄ = 47. 42 ؛S x 27. 37 ؛ȳ = 58. 80 ؛S y = 21. 38 ؛r = 0. 735
شکل 18. نمودار پراکندگی IBI در مقابل منطقه جنگلی.
به نظر می رسد یک رابطه خطی مثبت بین دو متغیر وجود دارد. ضریب همبستگی خطی r = 0. 735 است. این نشان دهنده یک رابطه قوی، مثبت و خطی است. به عبارت دیگر، مساحت جنگل پیش بینی خوبی برای IBI است. حال بیایید یک مدل رگرسیون خطی ساده با استفاده از مساحت جنگل برای پیشبینی IBI (پاسخ) ایجاد کنیم.
ابتدا b 0 و b 1 را با استفاده از معادلات میانبر محاسبه می کنیم.
= 0. 574
= 31. 581
معادله رگرسیون است.
حال از Minitab برای محاسبه مدل رگرسیون استفاده می کنیم. خروجی در زیر ظاهر می شود.