داده پرت چیستداده پرت به عنوان ناهنجاری فریبنده‌ای عمل می‌کند که اغلب بینش عمیقی را در مجموعه‌ای از داده‌ها در خود جای داده است.

علی‌رغم این که داده‌های پرت به عنوان نقاط داده اشتباه ظاهر می‌شوند، این نوع از داده‌ها دارای پتانسیل ارائه افشاگری‌های ارزشمند در مورد فرآیندهای اساسی یا آشکارسازی خطاهای بالقوه در جمع آوری داده‌ها هستند.

در این مقاله به بررسی موارد زیر خواهیم پرداخت:

  • داده پرت چیست؟
  • کاربرد داده پرت چیست؟
  • در تجزیه و تحلیل، نقش داده پرت چیست؟
  • نحوه پیدا کردن داده پرت
  • نحوه برخورد با داده پرت
  • علل ایجاد داده پرت چیست؟
  • راه‌های جلوگیری از ایجاد داده پرت
  • انواع داده پرت

1# داده پرت چیست؟

داده پرت چیست؟

داده پرت، نقاط داده‌ای هستند که خارج از اکثریت داده‌های موجود در یک مجموعه داده خاص قرار دارند.

این مقادیر ممکن است از نظر ارزش بسیار بالاتر یا پایین‌تر از سایر نقاط باشند و ممکن است، نتایج تجزیه و تحلیل داده‌ها را به گونه‌ای تحت تأثیر قرار دهند که نمونه داده را نادرست نشان دهند.

با یادگیری نحوه شناسایی و مدیریت موارد پرت، تحلیلگران داده می‌توانند این احتمال را افزایش دهند که تجزیه و تحلیل آنها به صورت دقیق، معتبر و قابل اطمینان نتایج را منعکس خواهد کرد.

1-1# علل اهمیت حذف داده پرت چیست؟

علل اهمیت حذف داده‌های پرت عبارت اند از:

  • تأثیر بر تجزیه و تحلیل: موارد پرت، تأثیر نامتناسبی بر معیارهای آماری می‌گذارند، نتایج کلی را منحرف می‌کنند و منجر به نتیجه‌‌گیری‌های نادرست می‌شوند.
    حذف نقاط پرت می‌تواند کمک کند تا اطمینان لازم در ارتباط با این موارد به دست آورد که تجزیه و تحلیل کاملاً مبتنی بر نمونه‌ای بوده که نماینده‌ای از اطلاعات موجود است.
  • اهمیت آماری: موارد پرت می‌توانند بر اعتبار و پایایی استنباط‌های آماری حاصل از واقعیت‌ها تأثیر بگذارند.
    حذف داده پرت، در صورت لزوم، می‌تواند به حفظ اهمیت آماری آنالیز کمک کند.

شناسایی و برخورد دقیق با موارد پرت در تجزیه و تحلیل داده‌ها برای اطمینان از یکپارچگی و دقت نتایج بسیار مهم است.

2# کاربرد داده پرت چیست؟

کاربرد داده پرت

از جمله کاربردهای داده پرت می‌توان به موارد زیر اشاره کرد:

  • تشخیص ناهنجاری: شناسایی الگوهای غیرعادی در داده‌ها
  • کنترل کیفیت: نظارت بر نقص یا بی‌نظمی
  • تجزیه و تحلیل مالی: شناسایی فعالیت‌های متقلبانه یا معاملات غیرمعمول
  • مدل‌‌سازی پیش‌ینی‌‌کننده: بهبود دقت مدل با مدیریت مناسب موارد پرت

از دیگر کاربردهای داده‌های پرت می‌توان به موارد زیر اشاره کرد.

1-2# امور مالی: شناسایی تراکنش‌های متقلبانه

در بخش مالی، تشخیص موارد دور از دسترس نقش مهمی در شناسایی تراکنش‌های تقلبی ایفا می‌کند.

برای مثال، یک شرکت بزرگ کارت اعتباری ممکن است از الگوریتم‌های یادگیری ماشینی برای علامت ‌گذاری الگوهای مخارج غیرعادی استفاده کند.

اگر مشتری که معمولاً خریدهای کوچک و محلی انجام می‌دهد، به صورت ناگهانی تراکنش بزرگی را در یک کشور خارجی انجام دهد، این امر می‌تواند برای بررسی بیشتر به عنوان یک مورد دور از دسترس علامت گذاری شود.

در این مورد، روش تشخیص پرت ممکن است چندین عامل را ترکیب کند:

  • مبلغ تراکنش با استفاده از روش‌های z-score یا IQR
  • موقعیت جغرافیایی (با استفاده از خوشه بندی در علم داده)
  • زمان معامله (با استفاده از تحلیل سری زمانی)

این شرکت باید بین حساسیت (مشاهده کردن همه تراکنش‌های تقلبی) و ویژگی (عدم علامت گذاری بیش از حد تراکنش‌های قانونی مشکوک) تعادل ایجاد کند.

2-2# مراقبت‌های بهداشتی: شناسایی ناهنجاری‌ها در داده‌های بیمار

در مراقبت‌های بهداشتی، داده پرت می‌تواند هم مسائل مربوط به کیفیت داده‌ها و هم اورژانس پزشکی بالقوه را نشان دهد.

به عنوان مثال، یک بیمارستان ممکن است علائم حیاتی بیماران را به صورت مداوم کنترل کند.

الگوریتم‌های تشخیص دورتر را می‌توان برای هشدار به کارکنان پزشکی در مورد تغییرات ناگهانی که ممکن است نشان دهنده وضعیت رو به وخامت باشد، استفاده کرد.

چالش‌های این کار عبارت اند از:

  • برخورد با داده‌های چند متغیره (علائم حیاتی متعدد)
  • حسابداری برای تک تک بیماران پایه
  • مدیریت داده‌های سری زمانی با فصلی بودن بالقوه

3-2# ساخت: کنترل کیفیت

در تولید، تشخیص داده دورافتاده اغلب برای کنترل کیفیت، تعمیر و نگهداری پیش بینی استفاده می‌شود.

به عنوان مثال، یک سازنده نیمه هادی ممکن است پارامترهای مختلفی را در طول فرآیند تولید تراشه کنترل کند.

داده پرت در این پارامترها می‌تواند، مشکلات مربوط به تجهیزات یا فرآیند تولید را نشان دهد.

این سناریو ممکن است شامل موارد زیر باشد:

  • داده‌هایی با ابعاد بالا از چندین سنسور
  • تشخیص پرت در زمان واقعی
  • متعادل کردن هزینه هشدارهای اشتباه با هزینه نقص از دست رفته
این را هم ببینید
انبار داده چیست؟ (معرفی 4 نوع آن)

3# در تجزیه و تحلیل داده‌ها نقش داده پرت چیست؟

در تجزیه و تحلیل داده‌ها نقش داده پرت چیست؟

داده پرت نقش مهمی در تجزیه و تحلیل داده‌ها ایفا می‌کند که بسته به منشأ و تأثیر آنالیز متفاوت خواهد بود.

به عنوان مثال، در برخی زمینه‌ها، داده‌های پرت ممکن است بینشی در مورد رخدادهای نادر ارائه دهند که نشان دهنده نیاز به تجزیه و تحلیل بیشتر است.

در صنعت مراقبت‌های بهداشتی، یک نقطه داده پرت ممکن است نشان دهنده فردی با مجموعه‌ای غیرعادی از علائم یا الگوی بهبود باشد.

این موضوع می‌تواند نشان دهد که شما باید بیشتر کاوش کنید، مانند نگاه کردن به بیماران با ویژگی‌های مشابه برای دیدن نتایج بالقوه.

در موارد دیگر، نقاط پرت ممکن است منابع خطا را نشان دهند.

نبود دقت اندازه گیری، اشتباهات املایی یا عوامل دیگر ممکن است خطاهایی را به مجموعه داده وارد کند که نشان دهنده داده‌های واقعی نباشد.

وجود نقاط پرت در مجموعه داده‌ها ممکن است نشان دهنده کیفیت پایین داده باشد و سوگیری را در تحلیل وارد کند.

4# نحوه پیدا کردن داده پرت

نحوه پیدا کردن داده پرت

بسته به نقش و هدف از تشخیص موارد پرت می‌توان چندین روش را انتخاب کرد.

برخی از روش‌هایی که می‌توان با استفاده از آن داده پرت را انتخاب کرد، در ادامه آورده شده است.

1-4# مرتب سازی داده‌ها

با مرتب ‌سازی داده‌های خود به ترتیب صعودی یا نزولی، ممکن است مشخص شود که برخی از نقاط داده بسیار بالاتر یا پایین‌ تر از سایرین هستند.

به عنوان مثال، اگر مجموعه داده زیر را داشته باشید:

1، 1، 3، 4، 5، 5، 102

شما به احتمال زیاد تعیین خواهید کرد که 102 یک عدد پرت است.

سپس نقاط داده را با دقت بیشتری بررسی می‌کنید تا منبع نقطه داده پرت را شناسایی کنید.

2-4# تجسم داده‌ها

راه دیگر برای تعیین این که آیا در مجموعه داده‌های خود مقادیر پرت دارید یا خیر، تجسم داده‌ها است.

شما می‌توانید این کار را با نمودار کردن مجموعه داده‌های خود انجام دهید.

شما می‌توانید هر نمایش گرافیکی مناسب خود را انتخاب کنید؛ اما نمودارهای پراکنده و هیستوگرام، دو گزینه رایج برای شناسایی نقاط پرت هستند.

هیستوگرام‌ها داده‌ها را در bins نمایش می‌دهند که بخش‌هایی از داده را نشان می‌دهد.

هر bin نشان دهنده تعداد نقاط داده ای است که دارای یک مقدار خاص هستند یا در محدوده ای از مقادیر قرار می‌گیرند.

این موضوع می‌تواند به شما نشان دهد که یک نقطه داده بسیار خارج از محدوده است.

به عنوان مثال، اگر یک bin بین مقادیر 10 و 30 و یک bin با مقدار 200 دارید، ممکن است به مقادیری در محدوده 200 با دقت بیشتری نگاه کنید.

Scatter مقادیر را روی یک نمودار استاندارد با محور x و y رسم می‌کند و با طبقه بندی اکثر نقاط در یک خوشه، نقاط پرت را به نمایش می‌گذارد.

اگر یک نقطه بسیار متفاوت از بقیه خوشه باشد، یک داده پرت را نشان می‌دهد.

3-4# محدوده بین چارکی

ارزیابی محدوده بین چارکی (IQR) یک مجموعه داده، از جمله راه‌های دیگر برای تشخیص داده‌های پرت است.

IQR با کم کردن مقدار چارک اول (Q1) از مقدار چارک سوم (Q3) محاسبه می‌شود.

این مقدار از طریق نمودارهای جعبه ای که با ایجاد یک کادر در امتداد یک محور y ترسیم می‌شود، تجسم خواهد شد.

پایین کادر مقدار چارک اول و بالای کادر مقدار ربع سوم داده شده است.

در مجموعه داده‌ها، 25 درصد زیر چارک اول (Q1) و 75 درصد زیر چارک سوم (Q3) قرار می‌گیرند.

نقاط دورافتاده اغلب به عنوان مقادیری تعریف می‌شوند که زیر Q1 – 1.5 (IQR) یا بالاتر از Q3 + 1.5 (IQR) قرار می‌گیرند.

4-4# امتیاز Z

برای داده‌هایی که از توزیع نرمال پیروی می‌کنند، امتیازهای Z می‌تواند یکی از راه‌های تشخیص فاصله یک نقطه داده از میانگین مجموعه داده باشد.

توزیع نرمال نشان می‌دهد که داده‌ها از یک منحنی زنگی شکل پیروی می‌کنند.

Z-score تعداد انحرافات استاندارد (معیار واریانس) دور از میانگین یک نقطه است.

در بیشتر موارد، نمره بیش از سه نشان دهنده یک نقطه دور است.

قبل از انتخاب این روش به ‌عنوان شکل تشخیص داده پرت، مهم است که آزمایش کنید تا مطمئن شوید که داده‌ها از توزیع نرمال پیروی می‌کنند.

هنگامی که داده‌ها از توزیع نرمال پیروی کنند، 68 درصد از نقاط داده در 1 انحراف استاندارد میانگین قرار گرفته و 95 درصد بین 2 انحراف استاندارد میانگین قرار می‌گیرند.

5# نحوه برخورد با داده پرت

نحوه برخورد

پس از شناسایی داده پرت، گام بعدی تعیین بهترین روش مقابله با این داده پرت خواهد بود.

برای انجام این کار، می‌توان چندین گزینه را در نظر گرفت که عبارت اند از:

  • حذف یا تصحیح مقادیر پرت: اگر متوجه شدید که اعداد پرت ناشی از خطاهای اندازه گیری هستند، ممکن است از حذف آنها از مجموعه داده‌ها یا اصلاح آنها در صورت امکان بهره‌مند شوید.
  • اعمال تبدیل داده‌ها: تبدیل‌های لگاریتمی، ریشه دوم یا معکوس می‌توانند به کاهش تأثیر عوامل پرت بر تجزیه و تحلیل کمک کنند.
    دگرگونی‌هایی مانند این، اغلب واریانس داده‌ها را تثبیت می‌کند و آن‌ها را برای آزمایش‌های آماری خاص مناسب تر می‌کند.
  • استفاده از روش‌های آماری قوی: استفاده از روش‌هایی برای تجزیه و تحلیل که حساسیت کمتری نسبت به موارد پرت دارند، مانند انتخاب میانه مجموعه داده‌های شما به جای میانگین، می‌تواند بدون نیاز به حذف موارد پرت به نتایج قابل اعتمادتری ختم شود.

6# علل ایجاد داده پرت چیست؟

علل ایجاد

چهار دلیل اصلی برای ایجاد داده پرت در یک مجموعه داده وجود دارد که در ادامه به بررسی آنها خواهیم پرداخت.

1-6# خطاهای ورود اطلاعات

اشتباهاتی ممکن است در طول فرآیند جمع ‌آوری یا ثبت داده‌ها رخ دهد که منجر به مقادیر اشتباهی می‌شود که به صورت قابل توجهی از بقیه داده‌ها انحراف دارند.

این خطاها می‌تواند شامل اشتباهات تایپی، اندازه‌گیری‌های نادرست یا جهش‌های ناخواسته در مجموعه داده باشد.

2-6# تنوع نمونه برداری

تغییرات طبیعی در نمونه‌ها گاهی اوقات می‌تواند، منجر به ایجاد داده پرت شود.

اگر یک مطالعه به‌گونه‌ای تصادفی مورد یا فردی را به دست آورد که از جامعه هدف نیست، می‌تواند به مقادیر غیرعادی در مجموعه داده منجر شود.

این امر ممکن است به دلیل رویدادها یا ویژگی‌های غیرعادی اتفاق بیفتد یا اگر آزمایشگر مورد یا موضوع را در شرایط غیرعادی اندازه گیری کند.

3-6# خطاهای اندازه گیری

عدم دقت در استفاده از ابزار اندازه گیری می‌تواند باعث ایجاد داده پرت شود.

این خطاها می‌توانند از فرآیند استخراج داده‌ها، برنامه ریزی آزمایش یا اجرا ناشی شوند.

تجهیزات معیوب، کالیبراسیون نامناسب یا عوامل محیطی می‌توانند منجر به اندازه‌گیری‌هایی شوند که با مقادیر واقعی متفاوت هستند.

4-6# ناهنجاری‌های واقعی

در برخی موارد، مقادیر پرت می‌توانند مقادیر غیرمنتظره واقعی را در داده‌ها نشان دهند که به دلیل خطا یا تغییرپذیری به وجود نیامده‌اند.

این موارد به عنوان ناهنجاری‌های واقعی یا جدید شناخته می‌شوند که می‌توانند بینش‌های ارزشمندی را در مورد حوزه موضوعی ارائه دهند و همچنین، ممکن است پدیده‌ها یا الگوهای جدیدی را نشان دهند که مستلزم بررسی بیشتر است.

این را هم ببینید
آشنایی با علم داده (4 رکن اصلی و 5 مرحله فرآیند)

7# راه‌های جلوگیری از ایجاد داده پرت

راه‌های جلوگیری از ایجاد داده پرت

در این بخش به بررسی راه جلوگیری از ایجاد داده پرت خواهیم پرداخت که به صورت زیر هستند:

  • استفاده از روش‌های جمع ‌آوری داده‌های باکیفیت: با استفاده از روش‌های جمع ‌آوری داده‌های باکیفیت، می‌توان احتمال خطاهای اندازه ‌گیری و خطاهای ورود داده‌ها را کاهش داد.
  • اعتبارسنجی داده‌ها: پس از جمع ‌آوری داده‌ها، باید آنها را تأیید کنید تا مطمئن شوید که دقیق و کامل هستند.
  • استفاده از روش‌های آماری برای شناسایی نقاط پرت: برخی از روش‌های آماری وجود دارند که می‌توان از آنها برای شناسایی داده پرت استفاده کرد.
    این روش‌ها می‌توانند به کاربر کمک کنند تا تعیین کند که آیا یک نقطه دورافتاده احتمالاً به دلیل وجود خطای اندازه ‌گیری رخ داده یا علت وجود آن تغییرات طبیعی است.
  • بررسی موارد پرت: اگر یک نقطه پرت شناسایی شد، باید آن را بررسی کرد تا علت آن مشخص شود.
    اگر نقطه پرت به دلیل خطای اندازه گیری یا خطای ورود داده باشد، می‌توان آن را اصلاح کرد.
    اگر نقطه پرت به دلیل تغییرات طبیعی باشد، ممکن است، لازم باشد تحلیل آماری را بر این اساس تنظیم کرد.

توجه به این نکته نیز ضروری است که هیچ راه واحدی برای جلوگیری از موارد پرت وجود ندارد.

بهترین رویکرد بسته به مجموعه داده‌های خاص و تجزیه و تحلیلی که انجام می‌دهید، متفاوت خواهد بود.

با این حال، با پیروی از نکات بالا، می‌توان احتمال وجود موارد پرت را کاهش داد و دقت تجزیه و تحلیل آماری را بهبود بخشید.

8# انواع داده پرت

انواع داده پرت

دو نوع داده پرت وجود دارد که عبارت اند از:

  • پرت تک متغیره: یک مقدار شدید است که فقط به یک متغیر مربوط می‌شود.
    به عنوان مثال، فردی در حال حاضر با قد 251 سانتی متر بلندترین مرد زنده جهان است.
    این حالت یک حالت پرت تک متغیره در نظر گرفته می‌شود؛ زیرا یک حالت افراطی تنها عامل آن است: ارتفاع.
  • پرت چند متغیره: ترکیبی از مقادیر غیرعادی یا شدید برای حداقل دو متغیر است.
    به عنوان مثال، اگر به قد و وزن گروهی از بزرگسالان نگاه کنید، ممکن است مشاهده کنید که یک نفر در مجموعه داده شما 175 سانتیمتر قد دارد، اندازه گیری که برای این متغیر خاص در محدوده طبیعی قرار می‌گیرد. همچنین ممکن است، مشاهده کنید که این فرد در حدود 50 کیلوگرم وزن دارد.
    این مشاهده نیز به تنهایی در محدوده نرمال متغیر مورد نظر قرار می‌گیرد: وزن.
    با این حال، وقتی این دو مشاهدات را با هم در نظر بگیرید، یک فرد بالغ دارید که 175 سانتیمتر قد دارد و وزن آن در حدود 50 کیلوگرم است. این یک عدد پرت چند متغیره است.

علاوه بر تمایز بین اعداد پرت تک متغیره و چند متغیره، نقاط پرت دیگری وجود دارند که به عنوان یکی از موارد زیر طبقه بندی می‌شوند:

  • نقاط پرت جهانی: نقاط داده منفردی هستند که از بقیه توزیع داده‌ها فاصله زیادی دارند.
  • مقادیر پرت متنی: مقادیری هستند که به صورت قابل توجهی از بقیه نقاط داده در یک زمینه منحرف می‌شوند، به این معنا که اگر همان مقدار در زمینه متفاوتی رخ دهد، ممکن است یک مقدار پرت در نظر گرفته نشود.
    نقاط پرت در این دسته معمولاً در داده‌های سری زمانی یافت می‌شوند.
  • نقاط پرت جمعی: به عنوان زیرمجموعه ای از نقاط داده در نظر گرفته می‌شوند که با توجه به کل مجموعه داده کاملاً متفاوت هستند.

9# نکاتی در رابطه با داده‌های پرت

نکاتی در رابطه با داده‌های پرت

اگر شک دارید که نقاط پرت باید حذف شوند یا خیر، موارد زیر را در نظر بگیرید:

  • اگر داده پرت به دلیل خطای اندازه گیری یا اشتباه در ورود داده‌ها باشد، در صورت امکان باید اصلاح شود یا اگر اصلاح امکان پذیر نباشد، باید حذف شود.
  • اگر داده پرت نشان دهنده یک رویداد نادر واقعی یا مقدار شدید باشد، حذف آن ممکن است، منجر به از دست رفتن اطلاعات مهم شود.
  • تاثیر موارد دورافتاده بر تحلیل یا مدل خاص شما باید در نظر گرفته شود.
    اگر نتیجه گیری شما را به صورت قابل توجهی تغییر می‌دهد، ممکن است به جای حذف صرفاً از روش‌های قوی استفاده کنید.

1-9# تکنیک‌های تبدیل داده پرت چیست؟

تکنیک‌های تبدیل داده پرت به صورت زیر هستند:

  • تبدیل لگاریتمی: این امر می‌تواند، زمانی که داده‌ها با مقادیر زیادی دارای انحراف راست هستند، کمک کند.
  • تبدیل Box-Cox: خانواده‌ای از تبدیل‌های قدرتمندی که شامل تبدیل log به عنوان یک مورد خاص است.
  • Winsorization: این امر شامل محدود کردن مقادیر زیاد به صدک مشخصی از داده‌ها است.

2-9# روش‌های محاسبه داده پرت چیست؟

روش محاسبه داده پرت به شکل زیر است:

  • میانگین انتساب: مقادیر پرت را با میانگین یا میانه داده‌ها جایگزین کنید.
  • نسبت رگرسیون: از متغیرهای دیگر برای پیش بینی و جایگزینی مقدار پرت استفاده کنید.
  • انتساب چندگانه: مجموعه داده‌های منتسب قابل قبول متعددی را ایجاد کنید و نتایج به دست آمده از هر کدام را ترکیب کنید.

درباره نویسنده : فریبا صالح

فریبا صالح
فریبا صالح هستم، کارشناسی ارشد اقتصاد محض از دانشگاه اصفهان و علاقه‌مند به تولید محتوا در حوزه های مختلف.

نظرتون درباره این مقاله چیه؟
ما رو راهنمایی کنید تا اون رو کامل تر کنیم و نواقصش رو رفع کنیم.
توی بخش دیدگاه ها منتظر پیشنهادهای فوق العاده شما هستیم.

ارسال دیدگاه