شناسایی خطاهای داده‌‌

چهار روش برای پیدا کردن خطاهای داده

نویسنده: کیتلین گرت، تحلیلگر آماری

روش 1: مقادیر حداقل و حداکثر را اندازه گیری کنید

برای متغیرهای پیوسته، بررسی مقادیر حداقل و حداکثر برای هر ستون می‌تواند کمک نماید که آیا مقادیر شما در محدوده صحیح قرار دارند یا خیر. به عنوان مثال، با متغیری مانند سن، هیچوقت مقدار حداکثر به 400 نمی‌رسد. بررسی مقادیر حداقل و حداکثر یک راه عالی برای تشخیص صفرهای اضافی یا اعداد گمشده و رفع آن‌ها قبل از ورود به تجزیه و تحلیل است.

روش 2: به دنبال موارد گمشده باشید

ساده‌ترین راه برای یافتن موارد گمشده، انجام شمارش است. اگر نه، راه‌های دیگری برای یافتن مقادیر از دست رفته وجود دارد. سعی کنید ستون‌های خود را مرتب کنید (اعم از «صعودی» و «نزولی») تا ببینید آیا مقادیر گمشده‌ای در ستون‌های شما وجود دارد، یا مجموعه داده‌های خود را طوری فیلتر کنید که فقط به رکوردهایی با مقدار گمشده نگاه کنید. در حالی که گاهی اوقات مقادیر از دست رفته به طور اجتناب ناپذیری به دلیل شانس هستند، ارزش آن را دارد که دوباره بررسی کنید تا ببینید آیا ممکن است دلیلی برای فقدان وجود داشته باشد یا خیر، و به بهترین شکل ممکن به آنها رسیدگی کنید.

روش 3: مقادیر متغیرهای طبقه‌بندی را بررسی کنید

بسته به روش شما و تعداد افرادی که در یک پایگاه داده مشارکت می‌کنند، ممکن است هنگام وارد کردن داده‌ها، فضای زیادی برای خطا وجود داشته باشد. یکی از راه‌های سریع برای یافتن این موارد این است که دسته‌بندی‌های مختلفی را اعمال کنید تا مقادیر خطا مشخص شوند. به عنوان مثال لیستی از ایالت‌های آمریکا تهیه شده بود. مقادیر در قسمت بالایی صفحه گسترده به نظر خوب می‌رسید - - “- -”، “من”، و غیره - اما در قسمت انتهایی لیست، روش ورودی به مقادیر کامل‌تری تغییر کرده بود - ‘New Hampshire’ و ‘Maine’ . تصحیح دسته‌ها و متغیرها یک راه‌حل سریع برای شناسایی این خطاها بود.

روش 4: به “نرخ بروز” متغیرهای باینری (صفر و یک) نگاه کنید.

اگر یک متغیر باینری واقعی را به‌عنوان متغیری متشکل از 1 و 0 در نظر بگیریم، با نگاه کردن به میانگین آن (یا نرخ بروزرسانی) نسبت 1هایی را که در مجموعه داده خود دارید به شما نشان می‌دهد. ارزش این را دارد که دوباره این مورد را بررسی کنید تا مطمئن شوید که باینری شما به درستی تنظیم شده است. یکی از اشتباهات رایج این است که به جای 1 و 0، 1 و تهی وجود دارد. تشخیص این امر آسان می‌شود زیرا «نرخ» متغیر باینری برابر با 1 خواهد بود.

منبع

داده ها در لبه: رسیدگی به موارد پرت

قبل از اینکه به نحوه برخورد با داده‌های اصطلاحا پرت بپردازیم، بیایید به سرعت تعریف کنیم که یک نقطه دور چیست. نقطه پرت هر نقطه داده‌ای است که به طور مشخص با بقیه نقاط داده شما متفاوت است. وقتی به متغیری نگاه می‌کنید که توزیع نسبتاً نرمال دارد، می‌توانید مقادیر پرت را هر چیزی در نظر بگیرید که 3 یا بیشتر انحراف از میانگین آن دارد. در حالی که این به عنوان یک تعریف کارآمد کافی است، اما به خاطر داشته باشید که هیچ قانون طلایی برای تعریف اینکه چه چیزی پرت است وجود ندارد.

به طور کلی، پرت‌ها به یکی از دو دسته تعلق دارند: اشتباه در داده‌ها یا پرت واقعی. نوع اول، یک اشتباه در داده‌ها، می‌تواند به سادگی تایپ 10000 به جای 100.00 باشد - که منجر به تغییر بزرگی می‌شود زیرا بعداً این داده‌ها تجزیه و تحلیل می‌شوند.

نوع دوم، یک نقطه پرت واقعی، چیزی شبیه یافتن نام بیل گیتس در مجموعه داده شما خواهد بود. نمایه او احتمالاً به قدری متفاوت از سایر افراد موجود در لیست شما است که شامل کردن او ممکن است نتایج شما را تغییر دهد. مهم است که این انواع را متمایز کنیم زیرا در تجزیه و تحلیل آن‌ها را به طور متفاوتی مدیریت خواهیم کرد.

این به شما به عنوان تحلیلگر بستگی دارد که تعیین کنید در هر مجموعه داده معین کدام نقاط داده پرت هستند.

حال، چگونه با موارد پرت برخورد کنیم؟ در اینجا چهار رویکرد وجود دارد:

1. رکوردهای پرت را رها کنید.

در مورد بیل گیتس، یا یک مورد واقعی دیگر، گاهی اوقات بهتر است آن رکورد را به طور کامل از مجموعه داده خود حذف کنید تا آن شخص یا رویداد باعث انحراف تحلیل شما نشود.

2. داده‌های پرت خود را محدود کنید.

راه دیگر برای رسیدگی به موارد پرت واقعی، درپوش گذاشتن روی آن‌هاست. به عنوان مثال، اگر از درآمد استفاده می‌کنید، ممکن است متوجه شوید که افراد بالاتر از سطح درآمد مشخصی مانند افراد با درآمد پایین‌تر رفتار می‌کنند. در این مورد، می‌توانید ارزش درآمد را در سطحی محدود کنید که آن را دست نخورده نگه دارد.

3. یک مقدار جدید اختصاص دهید.

اگر به نظر می‌رسد که یک نقطه پرت به دلیل اشتباه در داده‌های شما باشد، سعی کنید یک مقدار را وارد کنید. روش‌های انتساب رایج شامل استفاده از میانگین یک متغیر یا استفاده از مدل رگرسیون برای پیش‌بینی مقدار گمشده است.

4. یک تحول را امتحان کنید.

یک رویکرد متفاوت برای مقادیر پرت واقعی می‌تواند ایجاد تغییر در داده‌ها به جای استفاده از خود داده‌ها باشد. برای مثال، سعی کنید یک نسخه درصدی از فیلد اصلی خود ایجاد کنید و به جای آن با آن فیلد جدید کار کنید.

اینکه چقدر بر تحلیل شما تأثیر می‌گذارد، به چند عامل بستگی دارد. یک عامل اندازه مجموعه داده است. در یک مجموعه داده بزرگ، هر نقطه مجزا وزن کمتری دارد، بنابراین یک نقطه دورتر نسبت به همان نقطه داده در یک مجموعه داده کوچکتر، نگران کننده‌تر است. ملاحظات دیگر این است که “یک نقطه چقدر” ممکن است پرت باشد - اینکه یک نقطه چقدر با بقیه مجموعه داده شما فاصله دارد. نقطه‌ای که ده برابر بزرگ‌تر از مرز بالایی شما باشد، نسبت به نقطه‌ای که دو برابر بزرگ‌تر است، آسیب بیشتری وارد می‌کند.

منبع