Aly, M., Abd ElHamid, S., Ramadan, K. (2008). STATISTICAL ESTIMATION OF EFFECTS OF OBSERVATIONS AND RESIDUAL ANALYSIS ON LINEAR MODEL WITH APPLICATION ON EGYPTIAN INSURANCE MARKET.. Journal of Productivity and Development, 13(1), 229-250. doi: 10.21608/jpd.2008.44839
Mohamed Aly; Soltan Abd ElHamid; Khedr Ramadan. "STATISTICAL ESTIMATION OF EFFECTS OF OBSERVATIONS AND RESIDUAL ANALYSIS ON LINEAR MODEL WITH APPLICATION ON EGYPTIAN INSURANCE MARKET.". Journal of Productivity and Development, 13, 1, 2008, 229-250. doi: 10.21608/jpd.2008.44839
Aly, M., Abd ElHamid, S., Ramadan, K. (2008). 'STATISTICAL ESTIMATION OF EFFECTS OF OBSERVATIONS AND RESIDUAL ANALYSIS ON LINEAR MODEL WITH APPLICATION ON EGYPTIAN INSURANCE MARKET.', Journal of Productivity and Development, 13(1), pp. 229-250. doi: 10.21608/jpd.2008.44839
Aly, M., Abd ElHamid, S., Ramadan, K. STATISTICAL ESTIMATION OF EFFECTS OF OBSERVATIONS AND RESIDUAL ANALYSIS ON LINEAR MODEL WITH APPLICATION ON EGYPTIAN INSURANCE MARKET.. Journal of Productivity and Development, 2008; 13(1): 229-250. doi: 10.21608/jpd.2008.44839
STATISTICAL ESTIMATION OF EFFECTS OF OBSERVATIONS AND RESIDUAL ANALYSIS ON LINEAR MODEL WITH APPLICATION ON EGYPTIAN INSURANCE MARKET.
3Productive Efficiency Institute of Zagazig University, Zagazig, Egypt.
Abstract
The Parameters of a linear model are usually estimated by the method of least squares which is sensitive to large values of the additive error term. The advent of modern computers has led to alternative methods to least squares go under the robust regression, these methods are insensitive to deviations from normal distributions and to the effects of outliers in the data. The main purpose of this is to study the problems caused by the presence of outliers. To achieve this aim, there different approaches: M-estimators, Generalized Shrunken M- estimators, Least absolute deviation, S-estimators. Bootstrap Regression depend on re-sampling bootstrap, Robust Bootstrap Regression. The research has been applied to the Egyptian insurance market marine function. This function consists of total premium (y) , total indemaities (x1), agent commission (x2) , administrative expenses(x3) Summary and conclusions:- The discarding of the outlying and influential observations approach cannot be immediately recommended unless there is strong evidence, which indicates that it resulted from a mistake. Robust regression analysis provides an alternative to a least squares regression model when fundamental assumptions are unfulfilled by the nature of the data. Other robust estimation methods have been suggested. When fundamental regression analysis assumptions are violated, the researcher may wish to consider what alternatives are available to him. If the data contain influential outliers, then he may wish to employ some form or robust regression that down weights the influence of the troublesome outliers. Will may compare his robust results to his classical results.
التقدیر الإحصائی لتأثیر المشاهدات وتحلیل الأخطاء على النموذج الخطى بالتطبیق على سوق التأمین المصری
محمد المهدى محمد على*- سلطان محمد عبدالحمید**- خضر جودة مضان***
* قسم الاحصاء التطبیقىوالتأمین- کلیة التجارة- جامعة قناة السویس- بورسعید- ج.م.ع.
**قسم الاحصاء التطبیقىوالتأمین- کلیة التجارة- جامعة المنصورة- المنصورة-ج.م.ع.
***قسم المحاسبة الکمیة - معهد الکفایة الانتاجیة- جامعة الزقازیق- الزقازیق - ج.م.ع.
مقدمــــــــــة Introduction:
عندما لا یتوافر فرض اعتدالیة توزیع الأخطاء للبیانات المستخدمة فإن الأمر المعالم المتحصل علیها باستخدام طریقة المربعات الصغرى تصبح غیر جیدة من حیث کبر حجم الأخطاء المعیاریـة أو عدم کفاءة و اتساع فترات الثقة بالإضافة إلى تأثر تلک المعالم المقدرة بوجود القیم المؤثرة. ومن ثم یجب البحث عن طرق بدیلة لطریقة المربعات الصغرى یمکن استخدامها فى التقدیرات فى حالة توافر تلک المشاکل.
مشکلة البحــــــــثResearch problem:
یقصد بالمشاهدات المؤثرة تلک المشاهدات ذات التأثیر القوى على مقدرات المربعات الصغرى، ویزداد تأثیرها کلما ابتعد موقع القیمة المؤثرة عن مرکز المشاهدات اتجاه البدایـــة أو النهایة, مما یعکس التواء التوزیع. و من ثم فإن تأثیر وجود القیم المؤثرة یؤدى إلى تأثیرات کبیرة على تقدیر النماذج الخطیة سواء من حیث المعالم المقدرة للنماذج، أو ما یستتبعه من مشاکل زیادة الأخطاء المعیاریة للنموذج المقدر. حیث یؤدى عدم دقة البیانات الخاصة بمتغیرات الدراسة إلى عدم دقة تقدیرات المعالم المقدرة وبالتالى الحصول على تنبؤات غیر دقیقة للنموذج المستخدم .
ویمکن القول بأن المشاهدات المؤثرة ذات تأثیر قوى على خصائص المربعات الصغرى من حیث تأثیرها على المعاملات المقدرة . لذا یفضل استخدام طرق بدیلة للمربعات الصغرى تخفض من تأثیر مثل هذه المشاهدات أو تفترض اى توزیع للخطأ العشوائی. ومن هذه الطرق Parametric Regression ، وکذلک طریقة الانحداراللامعلمىNonparametricRegression التى تستخدم فی حالة عدم معرفة التوزیع الذی تؤول إلیه وحدات الخطأ العشوائی.
هدف الدراســـــــة Research Objectives
تهتم الدراسة باکتشاف و تحدید المشاهدات المتطرفة و المؤثرة ومعالجتها باستخدام طرق بدیلة للمربعات الصغرى وکذلک محاولة معالجتها باستخدام الانحدار اللامعلمى، ومن هذه الطرق :
1-M- Regression وتستخدم عندما یکون توزیع الأخطاء ملتویا.
2- طریقة Bootstrap regression وهى تعتمد على تقدیر النموذج المتاح عن طریق سحب عینات من نفس حجم المشاهدات وإعادة تقدیر النموذج سـواء کان Parametric أو . Non Parametric
3- طریقة Bootstrap Robust Regression وهى عبارة عن مزیج من عدة طرق هى طریقة M-estimators و S-estmators بالإضافة إلى Bootstrap Regression.
أهمیة البحث Research Significance:
تنبع أهمیة البحث من الإضافات التى یمکن تقدیمها على المستویین العلمى والتطبیقى حیث یستمد البحث أهمیته مما یلى:
1- استخدام طرق تعتمد على الدمج بین طریقتین أو أکثر فى معالجة القیم المؤثرة.
2- استخدام طرق تعتمد بصفة رئیسیة على إعادة المعاینة.
بیانات الدراسة ومصادرها:
تعتمد الدراسة أساسا علی جمع البیـانات المطلوبة التى تتعلق بإجمالی الأقســـــاط فى التأمین البحرى بالإضافة إلى بعض المتغیرات التفسیریة. واعتمد الباحث على هذه البیانات من التقاریر السنویة التى تصدرها الهیئة المصریة للرقابة على التأمین Egyptian Insurance Supervisory Authority.
ثانیاً: المتغیرات التفسیریة: وتشمل المتغیرات التفسیریة التى لها دوراً کبیراً فی تفسیر المتغیر التابع ومنها:
1- إجمالی التعویضات أو صافی التعویضات (x1).
2- العمولات و تکالیف الإنتاج (x2).
3- المصروفات الإداریة و العمومیة(x3).
ثالثاً: النموذج المستخدم: تعتمد الدراسة على النموذج الخطى لإجمالی أقساط التأمین البحری وتم تحدید متغیرات الدراسة بناء على الدراسات التأمینیة السابقة وکذلک على دراسات الهیئة العامة للرقابة على التأمین.
رابعاً: اختبار معنویة النموذج:
أ- اختبار نسبة الإمکان الأکبر Likelihood Ratio
ویستخدم هذا الاختبار فى اختبار معنویة النموذج ککل واختبار معنویة المتغیرات التفسیریة کما یلى:
1- اختبار معنویة النموذج ککل: ویمکن حساب نسبة الامکان للنموذج ککل کالاتى:
حیث أن و تمثلان قیمة الإمکان الأکبر للنموذج فى حالة وجود کل المتغیرات وفى حالة عدم وجود متغیر تفسیرى ما. ویتم مقارنة قیمة الاختبار بقیمة .
2- اختبار معنویة المتغیرات التفسیریة: ویعتمد على النماذج المقیدة وغیر المقیدة لتحدید معنویة المتغیرات التفسیریة وفى هذه الحالة فإن و تمثلان قیمة الإمکان الأکبر باستخدام کل المتغیرات التفسیریة وقیمة الإمکان الأکبر فى حالة حذف متغیر تفسیرى هام.
خامسا: معاییر جودة النموذج: وتهتم بفحص مدى ملاءمة النماذج المقدرة إحصائیا فى حالة وجود قیم مؤثرة وذلک باستخدام الطرق التالیة:
أ- معیار المعلومات لأکایکى Akaike Information Criterion AIC
ویستخدم معیار اکایکى للمفاضلة بین نموذجین أو اکثر على أساس وجود قیم مؤثرة, و یمکن استخدام الصیغة التالیة:
ویتوقف تحدید القیم المؤثرة على قیمة معامل التحدید و عدد القیم المــــؤثرة أو المحذوفة من البیانات m .
ب- معیار بیز لشوارتزSchwartz Bayesian Criterion (SBC)
و یستخدم المعیار فى المفاضلة بین النماذج على أساس وجود قیم مؤثرة الصیغة التالیة:
حیثn : عدد المشــاهدات المتاحة،: مجموع مربعات الأخطاء للنمـوذج.
طرق اکتشاف المشاهدات المؤثرة:
القیم المؤثرة هى تلک المشاهدات التى یؤدى وجودها إلى تأثیر کبیر على المعالم المقدرة. وهناک عدة مقاییس تهتم بالکشف عن تلک المشاهدات سواء کانت مشاهدة واحدة أو أکثر ومنها ما یلى:
1- مصفوفة القبعة Hat Matrix: تهتم باکتشاف وتحدید المشاهدات المؤثرة بالمتغیرات التفسیریة باستخدام مصفوفة القبعة و تعتمد على عناصر القطر الرئیسى hiiویسمى القبعة وتأخذ الصیغة التالیة:
If تکون المشاهدة مؤثرة.
If تکون المشاهدة معتدلة.
if hii=1
if تکون المشاهدة طبیعیة
2- طریقة DFFITS Procedure: یستخدم مقیاس DFITS للکشف عن المشاهدات المؤثرة فى المتغیرات التــــابعة والتفسیریة وتعتبر مشاهدة ما مؤثرة إذا کان استبعادها یحدث تغیراً ملحوظاً فى قیم معاملات النموذج المستخدم و تأخذ الصیغة التالیة:
تعتبر المشاهدة مؤثرة إذا کانت القیمة المطلقة لـ DFFITS أکبر من الواحد الصحیح.
3- طریقة ProcedureDFBETAS: تعتمد بشکل أساسی علی قیاس الفروق بین قیم معالم النموذج المقدرة باستخدام کل المشاهدات المتاحة وقیم معالم النموذج المقدر بعد حذف المشاهدة i أى باستخدام (n-1) مشاهدة وتأخذ الصیغة التالیة:
توضح قیمة و إشارة BETASDF مدى تأثیر المشاهدة المحذوفة سواء بالزیــــادة أو بالنقص علی معالم النموذج المقدر، بالإضافة إلى أن القیمة المطلقة توضح حجم الفروق نسبة إلى الانحراف المعیاری المقدر لمعالم النموذج.
4- طریقة نسبة الإمکان الأکبر: Likelihood Ratio وتعتمد على تقدیر دالة الإمکان الأکبر فى حالة استخدام کل المشاهدات و فى حالة استبعاد المشاهدات المؤثرة ویتم حساب نسبة الإمکان الأکبر من الصیغة التالیة:
وفى هذه الحالة تعبر کل من و عن قیمة الإمکان الأکبر باستخدام کل المشاهدات وقیمة الإمکان الأکبر بعد حذف المشاهدات المؤثرة.
5- السلاسل الزمنیة: وتتأثر السلاسل الزمنیة بعدة أنواع من القیم المؤثرة منها ما یلى:
1- القیمة المؤثرة المضافة Additive Outliers(AO) وتؤثر على الأخطاء التالیة.
2- القیمة المؤثرة لمستوى الإزاحة Level Shift(LS) و تؤثر على القیم التنبؤیة.
3- القیمة المؤثرة للتغیرات الطارئة Transitory Change(TC) وهى تنتج عن التغیرات المفاجئة.
4- القیمة المؤثرة المبتکرة Innovative Outliers(IO) و توزیعات القیم المتطرفة Extreme Disturbance و تعبر عن تأثیر النبضات السلسلة .
5- القیمة المؤثرة الموسمیة SO)Seasonal Outliers( وهى ناتجة عن أثر الموســم.
وبفرض أن السلسلة تحتوى على k من القیم المؤثرة, یمکن عرض تأثیراتها المجمعة بالشکل التالى
أولا: استخدام التوزیع الطبیعی فى اکتشاف القیم المؤثرة: هناک عدة اختبارات یستخدم فیها التّوزیع الطّبیعى لاکتشاف القیم المتطرفة, و منها:-
1- اختبار :Rosnerیستخدم هذا الاختبار فی اکتشاف المشاهدات المؤثرة عندما یکون عدد المشاهدات 25 فأکثر. و یهتم الاختبار بالقیم المؤثرة التی تکون کبیرة أو صغیرة.ویأخذ الصیغة التالیة:
حیث یمثل :
:الوسط الحسابی للقیم ((n - i بعد حذف عدد i من المشاهدات.
:الانحراف المعیاری للقیم((n – Iبعد حذف عدد i من المشاهدات.
: قیم المشاهدات بعد حذف i من المشاهدات المتطرفة.
2- اختبار Dixon : یعتمد هذا الاختبار على نسبة المسافة بین المشاهدة التى یشک فیها أنها متطرفة وتلک المجاورة أو التالیة لها قد تکون على بعد مشاهدة واحدة أو مشاهدتین محذوفتین.یستخدم اختبار Dixon لاکتشاف عدد صغـیر من المشــاهدات المتطرفـــــة، ویستخدم الاختبار عندما یکون حجم العینة ینحصر بین 3 مشاهدات إلی 25 مشاهدة. ویأخذ الاختبار الصیغة التالیة:
3- اختبار 'Grubbs: یعتمد بصفة رئیسیة على التحقق من مدى توافر فرض التوزیع الطبیعی للبیانات المتاحة حیث یقوم على اکتشاف مشاهدة مؤثرة واحدة کل مرة ثم إجراء الاختبار فإذا تم حذف المشاهدة مؤثرة و إعادة الاختبار مرة أخرى حتى نتأکد من أن توزیع البیانات أصبح توزیعا طبیعیا.یأخذ الاختبار الصیغة التالیة:
4- طریقة أقل انحرافات مطلقة عن الوسیط(MAM):تعتمد بصورة أساسیة على طریقة الانحدار Robust Regression Method . وتعتبر مشاهدة ما مؤثرة إذا کانت قیمة z أکبر من الرقم 3 . وتعتمد على طریقة أقل انحرافات مطلقة عن الوسیطMAM . ویأخذ الاختبار الصیغة التالیة:
ثانیا: استخدام الأخطـاء العشوائیة فى اکتشاف القیم المؤثرة:أن دراسة الأخطاء یعتبر من أهم الطرق لمعرفة ما یواجه النماذج الخطیة من مشاکل سواء فی عملیة التوصیف أو التقدیر أو التنبؤ بالمتغیرات المستقبلیة. ستتناول الدراسة بعضاً من هذه الأخطاء على النحو التالى:
1- أخطاء LUND`S: یعتمد هذا الخطأ على اکتشاف مشاهدة ما مؤثرة بالنموذج الخطى العام فى حالة عدم ثبات تباین الأخطاء ویأخذ الصیغة التالیة:
2- أخطاء (Studentized Deleted Residuals (d :
یعتمد هذا الاختبار على اکتشاف مشاهدة مؤثرة بالبیانات ثم حذف تلک المشاهدة وإعادة تطبیق نفس الاختبار على المشاهدات المتبقیة وهکذا یستمر اکتشـاف وحذف المشاهدات حتى لا توجد مشاهدات متطرفة یمکن حذفها. و یأخذ الاختبار الصیغة التالیة:
3- أخطاء : Press Residualsیتوقف هذا الاختبار علی التنبؤ بمجموع مربعات الأخطاء للأخطاء الناتجة عن تقدیر معالم النموذج المستخدم باستخدام طریقة المربعات الصغرى للمشاهدات المتبقیة فی التحــــلیل بعد حذف المشاهدات المؤثرة. یأخذ الصیغة التالیة:
أخیرا یمکن استخدام تحلیل الأخطاء لتحدید واکتشاف المشاهدات المؤثرة و خاصة بالمتغیر التابع, بالإضافة إلى معرفة شکل توزیع البیانات وتحدید مشاکل القیاس المخــتلفة التی تواجه النموذج المستخدم.
طرق التقدیر البدیـــــــــــــــــــلة:
1- طریقة الحذف: تعتمد على تقدیر النموذج باستخدام کل المشاهدات ثم حذف مشاهدة ما مؤثرة ثم إعادة التقدیر باستخدام المشاهدات المتبقیة. وتأخذ الصورة التالیة:
2- طریقة التحویلات:تعتمد على إیجاد أفضل تحویلة لمتغیرات النموذج بهدف التقلیل من أثر القیم المؤثرة والحصول على أخطاء عشوائیة تتوزع طبیعیا. ویمکن عرض أهداف عملیة التحویل کما یلى:-
1-العمل على ثبات تباین المتغیر التابعHomoscedasticity .
2- جعل قیم المتغیر التابع طبیعیا
3- خطیة نماذج الانحدار،إذا کانت البیانات الأصلیة تؤدى إلى نماذج غیر خطّیة.
3- طریقة M-estimator: تستخدم فى حالة وجود قیم مؤثرة وتعطى تقدیرات ذات حساسیة أقل فى حالة هذه الحالة دون الحاجة إلى حذف القیم المؤثرة.وتأخذ دالة الهدف الصیغة التالیة:
حیث و :دالة موجبة وتتمیز بالخصائص التالیة:-
:تقدر بواسطة(MAD) median absolute deviation . وتأخذ الصورة الآتیة:-
و M-estimator تکون ذات فاعلیة ضد القیم المؤثرة فى المتغیرات التابعة دون المتغیرات التفسیریة.
4- طریقة S-estimators :تعتبر طریقة إحدى بدائل المربعات الصغرى للحصول على تقدیرات معالم النموذج المستخدم فی حالة وجود قیم مؤثرة وتعتمد على القیم المطلقة للأخطاء العشوائیة , ولذا تستخدم هذه الطریقة فی تقدیر معالم النماذج فی حالة وجود قیم مؤثرة متعددة. و تصنف هذه الطریقة من نوع High-breakdown وهى تقوم على تحقیق الحد الأدنى للمعادلة التالیة:
ثم تقدیر الانحراف المعیارى للأخطاء من الصیغة التالیة:
،
وبالتالی تصبح دالة الهدف کما یلى:
1 > b >0 حیث
5- طریقة البوتستراب Robust- Bootstrap Regression
تستخدم طریقة فى تقدیر النماذج التى من الصعب تحدید توزیع بیاناتها و تدمج هذه الطریقة بواسطة کلاً من مقــــــدرات M-estimates و مقدرات S-estimates و تعطى مقدرات جیدة أکثر کفاءة فی حالة وجود قیم مؤثرة علاوة على تقارب توزیع أخطائها مع التوزیع الطبیعى. و تعتمد على مقدر کمقـــــدر M-estimate و مقدر الانحراف المعــــــیاری کمــــــقدر S-estimate و یمکن تحدید توزیع الأخطاء لکلا المقدرین کما یلی:
ویمکن تقدیر کلا من و وذلک باستخدام أوزان طریقة المربعات الصغرى کما یلى:
و یمکن تقدیر باستخدام دوال الأوزان السابقة کالتالی:
ویمکن تکوین معاینة البوتستراب من المشاهدات الأصلیة ثم إعادة تقدیر المعادلات السابقة کما یلى:
وتصبح الأوزان المستخدمة کما یلى:
وتکون الأخطاء المتحصل علیها کما یلى:
6-طریقة انحدار التل المعیاریة: وتعتمد هذه الطریقة على أساس قبول قدر بسیط من التحیز فى تقدیرات معالم النموذج المستخدم فى مقابل تخفیض کبیر فى تباینات هذه التقدیرات مما ینعکس على أخطائها المعیاریة الأمر الذی یجعلها فى النهایة أفضل و اکثر دقة من تقدیرات المربعات الصغرى وخاصة فی ظل وجود مشکلة الازدواج الخطى بین المتغیرات التفسیریة. و یکون مقدر التل المعیارى (Standardized RidgeRegression)کما یلی:
حیث أن وجود ذو علاقات خطیة بین المتغیرات التفسیریة یؤدى إلى کبر حجم تباینها مما یعطى مقدرات غیر ملائمة لذا فأننا نحتاج إلى تحسین مقـدرات Robust فى ظل وجود مقدرات متحیزة.وستتناول الدراسة فی هذا الجزء الطریقة العامة:
(Generalized Shrunken Type - M estimators)
تعتمد على استخدام مقدر مختلط لمعالجة وجود قیم مؤثرة وازدواج خطى متعدد وهو عبارة عن مقدر Robust مع مقدر Shrinkage ما یلی:
ومن الواضح أن مقدر یشیر إلى الحالة التى تصبح المصفوفة المنکمشة على الصورة التالیة: D =Ik
ویمکن اشتقاق بعض المقدرات المهمة باستخدام بعض الخصائص المحددة للمصفوفة D المنکمشة Shrinkage Parameter Matrix کما یلى:-
أ- عندما تأخذ المصفوفة المنکمشة الصیغة التالیة:
وتعبر المعادلة السابقة مقدرShrunken Type - M-estimator (SM)عندما c > 0 .
ب- وعندما تصبح المصفوفة المنکمشة على الصورة التالیة: D = x (x + k)-1 فإننا نحصل على الانحدار العام لـRidgeفى حالة وجود M-estimator من الصیغة التالیة:
وهو یمثل الانحدار العام من نوع Generalized ridge Type-Mestimator(GRM)
7- طریقة M M -estimtor: وهى حالة خاصة من M-estimation طورت بواسطةYohai عام 1987. وتأخذ دالة الهدف الصیغة التالیة:
وتعتبر من الطرق ذات الکفاءة العالیة مقارنة بطریقة المربعات ذات ثلاث مراحل وتعتمد على طریقة s-estimate فى القیم initial estimate والخطوة الثانیة حساب M-estimation والخطوة الثالثة تقدیر معالم انحدار M-estimationباستخدام دالة التأثیر حیث .
6- طریقة Least trimmed squares(LTS): وفى عام 1984 طور Rousseeuw طریقة بدیلة ذات کفاءة عالیة للتعامل مع القیم المؤثرة تهتم بتخفیض دالة الهدف التالیة:
حیث تعبر عن رتب أخطاء المربعات الصغرى.
الدراســــــــــة التطبیقیة:
ستتناول الدراسة التطبیقیة استخدام عدد من البرامج الإحصائیة و التى تتضمن طرق التقدیر البدیلـــة لطریقة المربعات الصغرى.وتقدم الحزمة الإحصائیة STATA 12.0 مجموعة من الطرق البدیلة من بینها عائلةRobust مثل طریقة LAD ,بالإضافة إلى بعض الطرق Nonparmatric مثل طریقة Bootstrapping regression و Robust bootstrap regression.
تقدیر معالم النموذج الخطى اجمالى الأقساط:
یمکن کتابة النموذج الخطى لأجمالی الأقساط على الشکل التالى:
حیث تمثل:
y : إجمالی قیمة أقساط التأمین البحری بضائع.
:X1 إجمالی التعویضات .
X2: العمولات وتکالیف الإنتاج.
X3: المصروفات الإداریة و العمومیة.
الجدول(1). یوضح بیانات نموذج إجمالی الأقساط للفترة (1984-2006):
DATA
X3
X2
X1
Y
Obser.
12424
48503
29460
43987
1984
17368
54138
42991
49318
1985
22190
58135
25918
53644
1986
26006
70743
40651
64403
1987
29243
73952
30013
68908
1988
25659
97431
42509
36116
1989
28065
107953
23899
98319
1990
34572
138811
43220
111405
1991
40447
161735
43611
120893
1992
49149
211999
37974
132464
1993
3012
15544
2298
9715
1994
3283
14365
2571
10261
1995
3551
13490
3182
10143
1996
3919
18890
2479
11805
1997
5579
19605
4342
15081
1998
4804
20605
5215
13737
1999
4675
19124
4434
14166
2000
4513
16289
4448
12537
2001
4348
17048
3829
12789
2002
4136
16832
4043
12023
2003
4541
17728
4541
12441
2004
4851
17561
5325
13254
2005
6861
24475
4126
18542
2006
وکانت النتائج المتحصل علیها من تقدیر النموذج الخطى کمایلى:
0.9413
0.9321
2.082
D.W
101.63
F
0.000
P value
1.07993E8
MSE
5127.79
MAE
11.1976
MAPE
0.0
ME
-4.45
MPE
429.05
AIC
432.62
BIC
433.6
SBC
4
C(p)
تحدید المشاهدات المؤثرة بالنموذج الخطى:
سیتناول هذا الجزء تحدید القیم المؤثرة و الأخطاء الشاذة بالنموذج الخطى کما یلى:
ویتضح من نتائج تقدیر النموذج الخطى إجمالی الأقساط أن الحالات التى یکون أخطاؤها شاذة والتى یزید قیمة أخطـــاؤها المعیاریة عن 3 لکــــل من (t Studentized Residuals, ) و( d , Deleted Studentized Residuals ) کما یلى:
جدول (2). المشاهدات الشاذة لبیانات نموذج اجمالى الأقساط Unusual Residual
Z
t
d
y
Obs
-3.19
-3.613
-6.29
36116
6
3.11
3.15
4.16
98319
7
2.85
3.1
-3.212
111405
8
2.781
3.001
3.15
132464
10
ویسجل الجدول (2) قیم الأخطاء بالنسبة (d وt و z) الأکبر من الرقم 2 أو 3. و تعتبر هذه القیم متطرفة یجب حذفها من التحلیل حیث Studentized Residuals یقیس عدد المشاهدات بالمتغیر التابع التى تختلف اختلافا کبیرا عن القیم التنبؤیة ویتبن أن المشاهدات 6 و7 و 8 و 10 مؤثرة.من نتائج تقدیر النموذج الخطى یتضح کذلک وجود عدد من المشاهدات المؤثرة و التى یمکن عرضها بالجدول رقم (3)کما یلى:
جدول (3). المشاهدات المؤثرة فى النموذج الخطى اجمالى الأقساطInfluential Points
DFITS
M.D
Leverage
Row
-0.5215
22.58
0.5284
5
-3.314
4.88
0.2174
6
-2.172
29.388
0.5909
10
القیمة المتوسطة لـ Leverage کانت 0.1739
ومن جدول رقم (3) یتبین أن المشاهدات المؤثرة التى تکون قیمة رافعتها کبیرة وهى المشاهدات رقم 5 و 6 و 10. حیث توضح قیمة الرافعة المشاهدات ذات التأثیر الکبیر على معالم النموذج المقدر کما توضح إحصائیة DFFITS حجم التأثیر على المعالم المقدرة, بینما توضح Mahalanobis Distance (M.D) أکبر الفروق لهذه القیم.
تقدیر النموذج باستخدام طرق بدیلة للمربعات الصغرى:
هناک عدة طرق بدیلة تعالج وجود القیم المؤثرة بالبیانات المتاحة, وتتمیز هذه الطرق بمعالجة وجود القیم المؤثرة وتقدیر معالمها. وسیتم أولا دراسة معامل الالتواء و التفرطح للنموذج إجمالی الأقساط للمشاهدات الأصلیة کما یلى.
جدول (4). اختبار اعتدالیة النموذج المستخدم.
Obs
Mean
St.d
Jqb
ske
kurto
متغیرات
23
17876.13
17051.1
3.04
.48
1.5
X1
23
54559.7
54935.1
10.25
1.5
4.3
X2
23
14921.7
14017.9
3.6
0.96
2.7
X3
23
41128.3
39873.5
4.9
1.13
2.9
Y
و یتضح من الجدول (4) أن جمیع المتغیرات بما فیها المتغیر التابع تختلف فی کل من معامل الالتواء ومعامل التفرطح عن (3 , 0), وهذا یعنى أن جمیع متغیرات الدراسة بالنسبة لنموذج إجمالی الأقساط تنحرف عن التوزیع الطبیعى. ولذا سنستخدم مجموعة من الطرق البدیلة للمربعات الصغرى التى تهتم بتقدیر معالم النموذج المقدر فى حالة وجود قیم مؤثرة .ومن هذه الطرق الى سوف یتم تناولها:
أ- النموذج الخطى:یتم تقدیر نموذج لإجمالی الأقساط کانت النتائج المتحصل علیها بالجدول (5).
جدول(5). نتائج الطرق البدیلة النموذج الخطى
R2
المعالم المقدرة
Methods
Model
0.855
1.13
.42
.15
-378.7
Huber
M-estimator
0.853
.94
.53
.09
-877.2
Tukey
0.851
.815
.52
.21
-788.9
Ramsay
0.854
1.15
.42
.16
-378.7
Hample
0.86
1.12
.42
.16
-207.6
Least Absolute deviation(LAD)
0.86
1.13
.42
.17
-207.7
Bootstrap Robust
.921
1.1
.21
.9
1403
Generalized Shrunken Robust estimator
0.94
1.98
.24
-.13
932.3
S-estimator
ویتضح من الجدول (5) نتائج طرق التقدیر البدیلة لطریقة المربعات الصغرى فی حالة وجود قیم مؤثرة للنموذج الخطى. و من هذه النتائج یتضح ما یلى:
- تقارب طرق M-estimator من حیث قیم معامل التحدید و من حیث إشارات معالم النموذج المقدر. ویمکن کتابة النموذج المقدر لـ Huber على الشکل التالى:
- التقارب الواضح بین طریقتى Least Absolute deviation وBootstrap Robust من حیث قیم المعالم و إشارتها بالإضافة الى قیمة معامل التحدید.
- ارتفاع قیمة معامل التحدید باستخدام الطریقة العامة GeneralizedShrunken(GSM) Robustestimator حیث بلغ .920
- بینما طریقة S-estimator أعطت نتائج مرتفعة بالنسبة لمعامل التحدید الا أن هناک اختلاف فى إشارات X1 عن النظریة.ولذا یفضل استخدام طریقةأو طریقة Bootstrap Robust .وبالتالى فإن النموذج الأفضل یأخذ الشکل التالى:
AIC= n ln(1-R2) + 2Ln (n-m)! +2m
Methods
-37.36
M-estimator
-38.95
LTS
-38.95
Bootstrap Robust
-52.11
GSM
-58.44
S-estimate
و من نتائج معیار AIC یفضل نموذج .Bootstrap Robust
ب- نتائج النموذج شبه اللوغاریتمی: سوف یتم تقدیر النموذج الخطى باستخدام التحویلة شبه اللوغاریتمیة للمتغیر التابع فقط. والجدول (6) یعطى نتائج الطرق البدیلة فى حالة استخدام التحویلة اللوغاریتمیة للمتغیر التابع فقط لنموذج اجمالى الأقساط.
جدول (6). نتائج الطرق البدیلة النموذج شبه اللوغاریتمی
R2
المعالم المقدرة
Methods
Model
.852
.00005
-3.89e-06
.00002
9.17
Huber
M-estimator
.851
.00006
-4.79e-05
.00001
8.14
Tukey
.85
.00005
-5.42e-06
.00021
9.2
Ramsay
.85
.00004
-5.59e-06
.00001
9.23
Hample
.89
.00025
-5.89e-06
.00022
9.87
Least Absolute deviation
.82
.00007
-3.89e-06
.00002
9.17
Bootstrap Robust
.98
.00015
-3.87e-06
.00003
10.2
Generalized Shrunken Robust estimator
.93
.00006
-5.45e-06
.00001
9.21
S-estimator
یتضح من تقدیر نموذج إجمالی الأقساط للنموذج شبة اللوغاریتمى ما یلى:
- اختلاف إشارات معالم النموذج وخاصة للمتغیر X1 .
- تشابه هذه النتائج مع تقدیر المربعات الصغرى..
جـ- نتائج النموذج اللوغاریتمی: یتضح من النتائج عدم مناسبة التحویلة شبه اللوغاریتمیة لأحد متغیرات الدراسة ومن ثم یمکن استخدام التحویلة اللوغاریتمیة لجمیع متغیرات الدراسة سواء المتغیر التابع أو المتغیرات التفسیریة ویمکن عرض نتائج التقدیر بالجدول(7) کما یلى:
جدول(7). نتائج الطرق البدیلة النموذج اللوغاریتمی
R2
المعالم المقدرة
Methods
Model
.88
.65
.338
-.010
0.77
Huber
M-estimator
.89
.65
.338
-.010
0.77
Tukey
.89
.65
.338
-.010
0.77
Ramsay
.883
.65
.338
-.010
0.77
Hample
.953
-.39
.35
.08
0.87
Least Absolute deviation
.911
.406
.504
.09
0.33
Bootstrap Robust
.975
.36
.45
0.096
1.21
Generalized Shrunken Robust estimator
.961
.65
.338
-.010
0.77
S-estimator
ویتضح من نتائج الجدول(7) عدة ملاحظات من أهمها ما یلی:
أن عائلة طریقة الانحدار المتین تعطى نتائج موحدة حیث تعالج هذه الطریقة القیم المؤثرة فى کلا المتغیرات سواء التابعة وغیر کفء للمتغیرات التفسیریة أو کلیهما معا. ولذا یفضل فى هذه الحالة طریقتی GSM و Bootstrap Robustویصبح النموذج الأفضل على الصورة التالیة:
حیث بلغت قیمة -74.37 = AIC
النتائج والتوصیــــــــــــات:
أولا - النتائج:
1- وجود قیم مؤثرة بالبیانات فی تحلیل النماذج الخطیة یشیر إلى وجوب استخدام طرق بدیلة لطریقة المربعات الصغرى. ومن هذه الطرق :
-Weighted Least Squares(WLS)
-Iteratvely Reweighted Least Squares(IRLS)
M-Estmators-
-Least Median Squares Regression (LMS)
-Generalized Shrunken Robust estimator
2- بینما فی حالة عدم توفر فرض تجانس الأخطاء فیفضل استخدام الطرق التالیة:
-Weighted Least Squares(WLS)
-Iteratvely Reweighted Least Squares(IRLS)
-Least Median Squares Regression(LMS)
3- بینما فی حالة عدم اتباع الخطأ العشوائی للتوزیع الطبیعی فیفضل استخدام الطرق التالیة:
-Least Absolute Deviation(LAD)
-Iteratvely Reweighted Least Squares(IRLS)
-LeastMedian Squares Regression (LMS)
ثانیاً- التوصیـــــات:
1- أن استخدام النماذج الریاضیة و الإحصائیة فى مجال التأمین البحرى یحقق نتائج أکثر موضوعیة یمکن الاستناد علیها فی اتخاذ القرارات المستقبلیة.
2- الاعتماد على النماذج الإحصائیة فی تحدید الآثار السلبیة و الإیجابیة لتفاعل و تداخل متغیرات قطاع التأمین البحرى فی إعطاء نتائج اکثر دقة یمکن اختبارها.
3- الاعتماد على النماذج الإحصائیة فی تحدید اتجاهات المتغیرات حال إضافة متغیرات لم یسبق استخدامها.
4- یؤدى وجود قیم مؤثرة بالبیانات إلى عدم توافر فرض التوزیع الطبیعى للأخطاء ,الأمر الذى یؤدى إلى نتائج غیر مناسبة وخاصة فى توصیف النموذج.
5- یفضل استخدام طرق الانحدار البدیلة فى حالة وجود قیم مؤثرة فى البیانات.
6- یمکن استخدامها الطرق Kernel Regression و تحتوى على ثمانیة أنواع من Kernel فى معالجة القیم المؤثرة مستقبلا, بالإضافة إلى عائلة توزیع Exponential وتشمل عدة طرق منها Binomial Logistic Function وطــرق Poisson و Inverse Gaussianبالإضــــــافة إلى Iteratively Smoothes the partail residuals.
المراجـــــــــــع:
A.Atkinson, M.Riani (2000). “Robust Diagnostic regression analysis”, New York, Springer.
Abskharoun. L. Samy (1988). "On The Performance of Outliers Rejection Rules in Statistical data" . PHD Faculty of Commerce UN Mansoura.
Badi, H. Baltagi (2002)."Econometrics" . Second, Revised Edition,Springer.
Barrera .M.S&Yahai.V.J,(2005). "A fast algorithm for S-regression estimates", British Columbia UN.
Box, G. E. P. and D. J. Tidwell (1962). "Transformations of the independent variables," Technometrics, 4.
Brys, G. ;Huber, M. and Struyf, A. (2004). "Robust measures of tail weight ". Submitted, available at http://www.agoras.ua.ac.be.
Chang, I., Tiao, G.C., and Chen, C.,(1988). "Estimation of time series parameters in the presence of outliers". Techno metrics, 30.
Chatterjee, S. and Machler, M.(1995). "Robust Regression: A Weighted Least Squares Approach," Communications in Statistics, Theory and Methods, 26.
Chatterjee, S. (1997)."Robust regression: A weighted least Squres approach". Cmmu.Statist.,26.
Cook, R. D., Pena, D. and Weisberg, S. (1988) . "The likelihood displacement: A unifying principle for influence measures,", Commu. Statist., 17.
Darlington, R. B. and Smulders, T. V. (2001). " Problems with residual analysis". Animal Behavior, 62.& www.idealibrary.com
Draper, N.P., and H. Smith (1998). "Applied regression analysis" John Wily & Sons, Inc.
Efron, B. and Tibshirani, R. J. (1993)."An Introduction to the Bootstrap", Chapman and London .
Enany, M. (1989a) "Some Alternative Techniques for Improvements Over OLS: An Application Of Biased Regression Estimators". The Egyptian Statistical. Journal, 33, NO. 4.
Enany, M. (1989b). "Alternative to least squares model fitting An application of robust regression" Journal of Commercial Research, Vol 11, No. 3, Zagazig UN.
Fattah, E. M. A. (1997)."Multicollinearity of Independent Variables in The Multiple Linear Regression Model amd its Effect on Estimating Population Percentiles". Faculty of Commerce, El-Mansura Unaersity.
Freedman, D. A. (1981). "Bootstrapping regression models".Annual Statistical,9.
Frank E. Grubbs,(1994). "Procedures for Detection Outlying Observations in Samples", Technometrics,Vol.11,No. 1.
Gibbons, R. D., (1994). "Statistical Methods for Groundwater Monitoring" John Wiley & Sons, New York
Hadi, A.(1992). "Identifying multiple outliers in multivariate data", Journal of the Royal Statistical Society, B,54.
Hogg, R. V. (1979)."Statistical Robustness: one view of its use in application today", The American Statistician, 33.
Huber, P. J. (1987)." Robust Statistics". New Yok, John Wily.
John Fox. (2002). " Nonparametric regression " . Appendix to An and S-PLUS Companion to Applied regression,Oaks CA:Sage.
Maddala , G. S. ( 2001)"Introduction to econometrics", 3th, New York.
Makridakis, S. and others(1998). "Forecasting Methods and Applications". 3rd , John Wiley ,New Yok.
Mooney, C.Z., and Duval, R.D (1993). "Bootstrapping :A Nonparametric Approach to Statistical Inference," Sage Publications, Newberry Park, Ca., 21.
Motuisk, H. (2005). "Detecting outliers graphpad software" www.Graphpad.Com.
Neter, J.et al.,(1996). "Applied Linear Regression Models". Richard Irwin,INC.
Peracchi, F. (2001). " Econometrics" John Wiley&Sons,New York
PENA, D. (2001)." Outliers, Influential Observations, and Missing data", Accurse in Advanced time series Analysis, New York , Wiley.
Regina.K& Agustin .M, (2001)."Seasonal Outliers in time series", Unversity Carlos.
Rousseeuw, P. J. and Croux, C. (1993). ” Alternatives to the median absolute deviation”. Journal of the American Statistical Association, 88 (424).
Rousseeuw, P. J. and Leroy, A. M. (1987)." Robust regression and outlier detection". New York, NY: Wiley.
Rousseeuw, P. J. (2003). "Robust Regression and outlier detection" ,Wiley , New York.
Rousseeuw, P. J. (1984). "Least median of squares regression." Journal of the American Statistical Association, 79 (388).
Ruppert, D. (1992). "Computing S-estimators for regression and multivariate location and dispersion," Journal of Computational Graphical Statistics, 1.
Salam, M. F. A. (2000)."Methods of estimation in linear regression analysis with outliers and nonnormaly errors". Faculty of Commerce UN Zagazig.
Salam, M. F. A. (2000)."Generalized Shrunken- Type M Estimation". Faculty of Commerce, Zagazig UN,Vol 18.
Salibian-Barrera, M. and R. H. Zamar (2002). " Bootstrapping robust estimates of regression". The Annals of Statistics, 30.
Salibian-Barrera, M. and R. H. Zamar (2002). Bootstrapping M M-estimators for linear regression with fixed designs" Carleton University ,
Savin, N.E., and K.J. White (1978). "Estimation and testing for functional form and autocorrelation: A simultaneous approach". Journal of Econometrics, 8.
Stock, J.H. and M.W. Watson (2003). "Introduction to econometrics" Boston: Addison - Wesley.
Wang, L.Q. (1990)."Generalized Shrunken Least Squares regression" Chinese, J. Appl. Prob. and Statist., 3.
William Wu- Shyong Wei,(1989)."Time Series Analysis Univariate and Multivariate Methods",United Kingdom.
STATISTICAL ESTIMATION OF EFFECTS OF OBSERVATIONS AND RESIDUAL ANALYSIS ON LINEAR MODEL WITH APPLICATION ON EGYPTIAN INSURANCE MARKET.
M. M. Mohamed*; A. M. Soltan** and Kh. G. Ramadan***
***Productive Efficiency Institute of Zagazig University, Zagazig, Egypt.
ABSTRACT
The Parameters of a linear model are usually estimated by the method of least squares which is sensitive to large values of the additive error term. The advent of modern computers has led to alternative methods to least squares go under the robust regression, these methods are insensitive to deviations from normal distributions and to the effects of outliers in the data. The main purpose of this is to study the problems caused by the presence of outliers. To achieve this aim, there different approaches: M-estimators, Generalized Shrunken M- estimators, Least absolute deviation, S-estimators. Bootstrap Regression depend on re-sampling bootstrap, Robust Bootstrap Regression.
The research has been applied to the Egyptian insurance market marine function. This function consists of total premium (y) , total indemaities (x1), agent commission (x2) , administrative expenses(x3) Summary and conclusions:- The discarding of the outlying and influential observations approach cannot be immediately recommended unless there is strong evidence, which indicates that it resulted from a mistake.
Robust regression analysis provides an alternative to a least squares regression model when fundamental assumptions are unfulfilled by the nature of the data. Other robust estimation methods have been suggested. When fundamental regression analysis assumptions are violated, the researcher may wish to consider what alternatives are available to him. If the data contain influential outliers, then he may wish to employ some form or robust regression that down weights the influence of the troublesome outliers. Will may compare his robust results to his classical results.
Keywords: Statistical estimation, residual analysis, linear model, Egyptian insurance market.