داده پرت چیستداده پرت به عنوان ناهنجاری فریبندهای عمل میکند که اغلب بینش عمیقی را در مجموعهای از دادهها در خود جای داده است.
علیرغم این که دادههای پرت به عنوان نقاط داده اشتباه ظاهر میشوند، این نوع از دادهها دارای پتانسیل ارائه افشاگریهای ارزشمند در مورد فرآیندهای اساسی یا آشکارسازی خطاهای بالقوه در جمع آوری دادهها هستند.
در این مقاله به بررسی موارد زیر خواهیم پرداخت:
- داده پرت چیست؟
- کاربرد داده پرت چیست؟
- در تجزیه و تحلیل، نقش داده پرت چیست؟
- نحوه پیدا کردن داده پرت
- نحوه برخورد با داده پرت
- علل ایجاد داده پرت چیست؟
- راههای جلوگیری از ایجاد داده پرت
- انواع داده پرت
1# داده پرت چیست؟
داده پرت، نقاط دادهای هستند که خارج از اکثریت دادههای موجود در یک مجموعه داده خاص قرار دارند.
این مقادیر ممکن است از نظر ارزش بسیار بالاتر یا پایینتر از سایر نقاط باشند و ممکن است، نتایج تجزیه و تحلیل دادهها را به گونهای تحت تأثیر قرار دهند که نمونه داده را نادرست نشان دهند.
با یادگیری نحوه شناسایی و مدیریت موارد پرت، تحلیلگران داده میتوانند این احتمال را افزایش دهند که تجزیه و تحلیل آنها به صورت دقیق، معتبر و قابل اطمینان نتایج را منعکس خواهد کرد.
1-1# علل اهمیت حذف داده پرت چیست؟
علل اهمیت حذف دادههای پرت عبارت اند از:
- تأثیر بر تجزیه و تحلیل: موارد پرت، تأثیر نامتناسبی بر معیارهای آماری میگذارند، نتایج کلی را منحرف میکنند و منجر به نتیجهگیریهای نادرست میشوند.
حذف نقاط پرت میتواند کمک کند تا اطمینان لازم در ارتباط با این موارد به دست آورد که تجزیه و تحلیل کاملاً مبتنی بر نمونهای بوده که نمایندهای از اطلاعات موجود است. - اهمیت آماری: موارد پرت میتوانند بر اعتبار و پایایی استنباطهای آماری حاصل از واقعیتها تأثیر بگذارند.
حذف داده پرت، در صورت لزوم، میتواند به حفظ اهمیت آماری آنالیز کمک کند.
شناسایی و برخورد دقیق با موارد پرت در تجزیه و تحلیل دادهها برای اطمینان از یکپارچگی و دقت نتایج بسیار مهم است.
2# کاربرد داده پرت چیست؟
از جمله کاربردهای داده پرت میتوان به موارد زیر اشاره کرد:
- تشخیص ناهنجاری: شناسایی الگوهای غیرعادی در دادهها
- کنترل کیفیت: نظارت بر نقص یا بینظمی
- تجزیه و تحلیل مالی: شناسایی فعالیتهای متقلبانه یا معاملات غیرمعمول
- مدلسازی پیشینیکننده: بهبود دقت مدل با مدیریت مناسب موارد پرت
از دیگر کاربردهای دادههای پرت میتوان به موارد زیر اشاره کرد.
1-2# امور مالی: شناسایی تراکنشهای متقلبانه
در بخش مالی، تشخیص موارد دور از دسترس نقش مهمی در شناسایی تراکنشهای تقلبی ایفا میکند.
برای مثال، یک شرکت بزرگ کارت اعتباری ممکن است از الگوریتمهای یادگیری ماشینی برای علامت گذاری الگوهای مخارج غیرعادی استفاده کند.
اگر مشتری که معمولاً خریدهای کوچک و محلی انجام میدهد، به صورت ناگهانی تراکنش بزرگی را در یک کشور خارجی انجام دهد، این امر میتواند برای بررسی بیشتر به عنوان یک مورد دور از دسترس علامت گذاری شود.
در این مورد، روش تشخیص پرت ممکن است چندین عامل را ترکیب کند:
- مبلغ تراکنش با استفاده از روشهای z-score یا IQR
- موقعیت جغرافیایی (با استفاده از خوشه بندی در علم داده)
- زمان معامله (با استفاده از تحلیل سری زمانی)
این شرکت باید بین حساسیت (مشاهده کردن همه تراکنشهای تقلبی) و ویژگی (عدم علامت گذاری بیش از حد تراکنشهای قانونی مشکوک) تعادل ایجاد کند.
2-2# مراقبتهای بهداشتی: شناسایی ناهنجاریها در دادههای بیمار
در مراقبتهای بهداشتی، داده پرت میتواند هم مسائل مربوط به کیفیت دادهها و هم اورژانس پزشکی بالقوه را نشان دهد.
به عنوان مثال، یک بیمارستان ممکن است علائم حیاتی بیماران را به صورت مداوم کنترل کند.
الگوریتمهای تشخیص دورتر را میتوان برای هشدار به کارکنان پزشکی در مورد تغییرات ناگهانی که ممکن است نشان دهنده وضعیت رو به وخامت باشد، استفاده کرد.
چالشهای این کار عبارت اند از:
- برخورد با دادههای چند متغیره (علائم حیاتی متعدد)
- حسابداری برای تک تک بیماران پایه
- مدیریت دادههای سری زمانی با فصلی بودن بالقوه
3-2# ساخت: کنترل کیفیت
در تولید، تشخیص داده دورافتاده اغلب برای کنترل کیفیت، تعمیر و نگهداری پیش بینی استفاده میشود.
به عنوان مثال، یک سازنده نیمه هادی ممکن است پارامترهای مختلفی را در طول فرآیند تولید تراشه کنترل کند.
داده پرت در این پارامترها میتواند، مشکلات مربوط به تجهیزات یا فرآیند تولید را نشان دهد.
این سناریو ممکن است شامل موارد زیر باشد:
- دادههایی با ابعاد بالا از چندین سنسور
- تشخیص پرت در زمان واقعی
- متعادل کردن هزینه هشدارهای اشتباه با هزینه نقص از دست رفته
3# در تجزیه و تحلیل دادهها نقش داده پرت چیست؟
داده پرت نقش مهمی در تجزیه و تحلیل دادهها ایفا میکند که بسته به منشأ و تأثیر آنالیز متفاوت خواهد بود.
به عنوان مثال، در برخی زمینهها، دادههای پرت ممکن است بینشی در مورد رخدادهای نادر ارائه دهند که نشان دهنده نیاز به تجزیه و تحلیل بیشتر است.
در صنعت مراقبتهای بهداشتی، یک نقطه داده پرت ممکن است نشان دهنده فردی با مجموعهای غیرعادی از علائم یا الگوی بهبود باشد.
این موضوع میتواند نشان دهد که شما باید بیشتر کاوش کنید، مانند نگاه کردن به بیماران با ویژگیهای مشابه برای دیدن نتایج بالقوه.
در موارد دیگر، نقاط پرت ممکن است منابع خطا را نشان دهند.
نبود دقت اندازه گیری، اشتباهات املایی یا عوامل دیگر ممکن است خطاهایی را به مجموعه داده وارد کند که نشان دهنده دادههای واقعی نباشد.
وجود نقاط پرت در مجموعه دادهها ممکن است نشان دهنده کیفیت پایین داده باشد و سوگیری را در تحلیل وارد کند.
4# نحوه پیدا کردن داده پرت
بسته به نقش و هدف از تشخیص موارد پرت میتوان چندین روش را انتخاب کرد.
برخی از روشهایی که میتوان با استفاده از آن داده پرت را انتخاب کرد، در ادامه آورده شده است.
1-4# مرتب سازی دادهها
با مرتب سازی دادههای خود به ترتیب صعودی یا نزولی، ممکن است مشخص شود که برخی از نقاط داده بسیار بالاتر یا پایین تر از سایرین هستند.
به عنوان مثال، اگر مجموعه داده زیر را داشته باشید:
1، 1، 3، 4، 5، 5، 102
شما به احتمال زیاد تعیین خواهید کرد که 102 یک عدد پرت است.
سپس نقاط داده را با دقت بیشتری بررسی میکنید تا منبع نقطه داده پرت را شناسایی کنید.
2-4# تجسم دادهها
راه دیگر برای تعیین این که آیا در مجموعه دادههای خود مقادیر پرت دارید یا خیر، تجسم دادهها است.
شما میتوانید این کار را با نمودار کردن مجموعه دادههای خود انجام دهید.
شما میتوانید هر نمایش گرافیکی مناسب خود را انتخاب کنید؛ اما نمودارهای پراکنده و هیستوگرام، دو گزینه رایج برای شناسایی نقاط پرت هستند.
هیستوگرامها دادهها را در bins نمایش میدهند که بخشهایی از داده را نشان میدهد.
هر bin نشان دهنده تعداد نقاط داده ای است که دارای یک مقدار خاص هستند یا در محدوده ای از مقادیر قرار میگیرند.
این موضوع میتواند به شما نشان دهد که یک نقطه داده بسیار خارج از محدوده است.
به عنوان مثال، اگر یک bin بین مقادیر 10 و 30 و یک bin با مقدار 200 دارید، ممکن است به مقادیری در محدوده 200 با دقت بیشتری نگاه کنید.
Scatter مقادیر را روی یک نمودار استاندارد با محور x و y رسم میکند و با طبقه بندی اکثر نقاط در یک خوشه، نقاط پرت را به نمایش میگذارد.
اگر یک نقطه بسیار متفاوت از بقیه خوشه باشد، یک داده پرت را نشان میدهد.
3-4# محدوده بین چارکی
ارزیابی محدوده بین چارکی (IQR) یک مجموعه داده، از جمله راههای دیگر برای تشخیص دادههای پرت است.
IQR با کم کردن مقدار چارک اول (Q1) از مقدار چارک سوم (Q3) محاسبه میشود.
این مقدار از طریق نمودارهای جعبه ای که با ایجاد یک کادر در امتداد یک محور y ترسیم میشود، تجسم خواهد شد.
پایین کادر مقدار چارک اول و بالای کادر مقدار ربع سوم داده شده است.
در مجموعه دادهها، 25 درصد زیر چارک اول (Q1) و 75 درصد زیر چارک سوم (Q3) قرار میگیرند.
نقاط دورافتاده اغلب به عنوان مقادیری تعریف میشوند که زیر Q1 – 1.5 (IQR) یا بالاتر از Q3 + 1.5 (IQR) قرار میگیرند.
4-4# امتیاز Z
برای دادههایی که از توزیع نرمال پیروی میکنند، امتیازهای Z میتواند یکی از راههای تشخیص فاصله یک نقطه داده از میانگین مجموعه داده باشد.
توزیع نرمال نشان میدهد که دادهها از یک منحنی زنگی شکل پیروی میکنند.
Z-score تعداد انحرافات استاندارد (معیار واریانس) دور از میانگین یک نقطه است.
در بیشتر موارد، نمره بیش از سه نشان دهنده یک نقطه دور است.
قبل از انتخاب این روش به عنوان شکل تشخیص داده پرت، مهم است که آزمایش کنید تا مطمئن شوید که دادهها از توزیع نرمال پیروی میکنند.
هنگامی که دادهها از توزیع نرمال پیروی کنند، 68 درصد از نقاط داده در 1 انحراف استاندارد میانگین قرار گرفته و 95 درصد بین 2 انحراف استاندارد میانگین قرار میگیرند.
5# نحوه برخورد با داده پرت
پس از شناسایی داده پرت، گام بعدی تعیین بهترین روش مقابله با این داده پرت خواهد بود.
برای انجام این کار، میتوان چندین گزینه را در نظر گرفت که عبارت اند از:
- حذف یا تصحیح مقادیر پرت: اگر متوجه شدید که اعداد پرت ناشی از خطاهای اندازه گیری هستند، ممکن است از حذف آنها از مجموعه دادهها یا اصلاح آنها در صورت امکان بهرهمند شوید.
- اعمال تبدیل دادهها: تبدیلهای لگاریتمی، ریشه دوم یا معکوس میتوانند به کاهش تأثیر عوامل پرت بر تجزیه و تحلیل کمک کنند.
دگرگونیهایی مانند این، اغلب واریانس دادهها را تثبیت میکند و آنها را برای آزمایشهای آماری خاص مناسب تر میکند. - استفاده از روشهای آماری قوی: استفاده از روشهایی برای تجزیه و تحلیل که حساسیت کمتری نسبت به موارد پرت دارند، مانند انتخاب میانه مجموعه دادههای شما به جای میانگین، میتواند بدون نیاز به حذف موارد پرت به نتایج قابل اعتمادتری ختم شود.
6# علل ایجاد داده پرت چیست؟
چهار دلیل اصلی برای ایجاد داده پرت در یک مجموعه داده وجود دارد که در ادامه به بررسی آنها خواهیم پرداخت.
1-6# خطاهای ورود اطلاعات
اشتباهاتی ممکن است در طول فرآیند جمع آوری یا ثبت دادهها رخ دهد که منجر به مقادیر اشتباهی میشود که به صورت قابل توجهی از بقیه دادهها انحراف دارند.
این خطاها میتواند شامل اشتباهات تایپی، اندازهگیریهای نادرست یا جهشهای ناخواسته در مجموعه داده باشد.
2-6# تنوع نمونه برداری
تغییرات طبیعی در نمونهها گاهی اوقات میتواند، منجر به ایجاد داده پرت شود.
اگر یک مطالعه بهگونهای تصادفی مورد یا فردی را به دست آورد که از جامعه هدف نیست، میتواند به مقادیر غیرعادی در مجموعه داده منجر شود.
این امر ممکن است به دلیل رویدادها یا ویژگیهای غیرعادی اتفاق بیفتد یا اگر آزمایشگر مورد یا موضوع را در شرایط غیرعادی اندازه گیری کند.
3-6# خطاهای اندازه گیری
عدم دقت در استفاده از ابزار اندازه گیری میتواند باعث ایجاد داده پرت شود.
این خطاها میتوانند از فرآیند استخراج دادهها، برنامه ریزی آزمایش یا اجرا ناشی شوند.
تجهیزات معیوب، کالیبراسیون نامناسب یا عوامل محیطی میتوانند منجر به اندازهگیریهایی شوند که با مقادیر واقعی متفاوت هستند.
4-6# ناهنجاریهای واقعی
در برخی موارد، مقادیر پرت میتوانند مقادیر غیرمنتظره واقعی را در دادهها نشان دهند که به دلیل خطا یا تغییرپذیری به وجود نیامدهاند.
این موارد به عنوان ناهنجاریهای واقعی یا جدید شناخته میشوند که میتوانند بینشهای ارزشمندی را در مورد حوزه موضوعی ارائه دهند و همچنین، ممکن است پدیدهها یا الگوهای جدیدی را نشان دهند که مستلزم بررسی بیشتر است.
7# راههای جلوگیری از ایجاد داده پرت
در این بخش به بررسی راه جلوگیری از ایجاد داده پرت خواهیم پرداخت که به صورت زیر هستند:
- استفاده از روشهای جمع آوری دادههای باکیفیت: با استفاده از روشهای جمع آوری دادههای باکیفیت، میتوان احتمال خطاهای اندازه گیری و خطاهای ورود دادهها را کاهش داد.
- اعتبارسنجی دادهها: پس از جمع آوری دادهها، باید آنها را تأیید کنید تا مطمئن شوید که دقیق و کامل هستند.
- استفاده از روشهای آماری برای شناسایی نقاط پرت: برخی از روشهای آماری وجود دارند که میتوان از آنها برای شناسایی داده پرت استفاده کرد.
این روشها میتوانند به کاربر کمک کنند تا تعیین کند که آیا یک نقطه دورافتاده احتمالاً به دلیل وجود خطای اندازه گیری رخ داده یا علت وجود آن تغییرات طبیعی است. - بررسی موارد پرت: اگر یک نقطه پرت شناسایی شد، باید آن را بررسی کرد تا علت آن مشخص شود.
اگر نقطه پرت به دلیل خطای اندازه گیری یا خطای ورود داده باشد، میتوان آن را اصلاح کرد.
اگر نقطه پرت به دلیل تغییرات طبیعی باشد، ممکن است، لازم باشد تحلیل آماری را بر این اساس تنظیم کرد.
توجه به این نکته نیز ضروری است که هیچ راه واحدی برای جلوگیری از موارد پرت وجود ندارد.
بهترین رویکرد بسته به مجموعه دادههای خاص و تجزیه و تحلیلی که انجام میدهید، متفاوت خواهد بود.
با این حال، با پیروی از نکات بالا، میتوان احتمال وجود موارد پرت را کاهش داد و دقت تجزیه و تحلیل آماری را بهبود بخشید.
8# انواع داده پرت
دو نوع داده پرت وجود دارد که عبارت اند از:
- پرت تک متغیره: یک مقدار شدید است که فقط به یک متغیر مربوط میشود.
به عنوان مثال، فردی در حال حاضر با قد 251 سانتی متر بلندترین مرد زنده جهان است.
این حالت یک حالت پرت تک متغیره در نظر گرفته میشود؛ زیرا یک حالت افراطی تنها عامل آن است: ارتفاع. - پرت چند متغیره: ترکیبی از مقادیر غیرعادی یا شدید برای حداقل دو متغیر است.
به عنوان مثال، اگر به قد و وزن گروهی از بزرگسالان نگاه کنید، ممکن است مشاهده کنید که یک نفر در مجموعه داده شما 175 سانتیمتر قد دارد، اندازه گیری که برای این متغیر خاص در محدوده طبیعی قرار میگیرد. همچنین ممکن است، مشاهده کنید که این فرد در حدود 50 کیلوگرم وزن دارد.
این مشاهده نیز به تنهایی در محدوده نرمال متغیر مورد نظر قرار میگیرد: وزن.
با این حال، وقتی این دو مشاهدات را با هم در نظر بگیرید، یک فرد بالغ دارید که 175 سانتیمتر قد دارد و وزن آن در حدود 50 کیلوگرم است. این یک عدد پرت چند متغیره است.
علاوه بر تمایز بین اعداد پرت تک متغیره و چند متغیره، نقاط پرت دیگری وجود دارند که به عنوان یکی از موارد زیر طبقه بندی میشوند:
- نقاط پرت جهانی: نقاط داده منفردی هستند که از بقیه توزیع دادهها فاصله زیادی دارند.
- مقادیر پرت متنی: مقادیری هستند که به صورت قابل توجهی از بقیه نقاط داده در یک زمینه منحرف میشوند، به این معنا که اگر همان مقدار در زمینه متفاوتی رخ دهد، ممکن است یک مقدار پرت در نظر گرفته نشود.
نقاط پرت در این دسته معمولاً در دادههای سری زمانی یافت میشوند. - نقاط پرت جمعی: به عنوان زیرمجموعه ای از نقاط داده در نظر گرفته میشوند که با توجه به کل مجموعه داده کاملاً متفاوت هستند.
9# نکاتی در رابطه با دادههای پرت
اگر شک دارید که نقاط پرت باید حذف شوند یا خیر، موارد زیر را در نظر بگیرید:
- اگر داده پرت به دلیل خطای اندازه گیری یا اشتباه در ورود دادهها باشد، در صورت امکان باید اصلاح شود یا اگر اصلاح امکان پذیر نباشد، باید حذف شود.
- اگر داده پرت نشان دهنده یک رویداد نادر واقعی یا مقدار شدید باشد، حذف آن ممکن است، منجر به از دست رفتن اطلاعات مهم شود.
- تاثیر موارد دورافتاده بر تحلیل یا مدل خاص شما باید در نظر گرفته شود.
اگر نتیجه گیری شما را به صورت قابل توجهی تغییر میدهد، ممکن است به جای حذف صرفاً از روشهای قوی استفاده کنید.
1-9# تکنیکهای تبدیل داده پرت چیست؟
تکنیکهای تبدیل داده پرت به صورت زیر هستند:
- تبدیل لگاریتمی: این امر میتواند، زمانی که دادهها با مقادیر زیادی دارای انحراف راست هستند، کمک کند.
- تبدیل Box-Cox: خانوادهای از تبدیلهای قدرتمندی که شامل تبدیل log به عنوان یک مورد خاص است.
- Winsorization: این امر شامل محدود کردن مقادیر زیاد به صدک مشخصی از دادهها است.
2-9# روشهای محاسبه داده پرت چیست؟
روش محاسبه داده پرت به شکل زیر است:
- میانگین انتساب: مقادیر پرت را با میانگین یا میانه دادهها جایگزین کنید.
- نسبت رگرسیون: از متغیرهای دیگر برای پیش بینی و جایگزینی مقدار پرت استفاده کنید.
- انتساب چندگانه: مجموعه دادههای منتسب قابل قبول متعددی را ایجاد کنید و نتایج به دست آمده از هر کدام را ترکیب کنید.
نظرتون درباره این مقاله چیه؟
ما رو راهنمایی کنید تا اون رو کامل تر کنیم و نواقصش رو رفع کنیم.
توی بخش دیدگاه ها منتظر پیشنهادهای فوق العاده شما هستیم.