مشت نمونه‌ی خروار نیست

هیچ آماری، کامل دقیق و بدون اشکال نیست و باید ضریب خطایی برای آن در نظر گرفت. در بسیاری موارد هم آمارها با سوگیری همراه هستند. حتی اگر آمارها کاملاً دقیق هم باشند، گاهی ما به خوبی ربانشان را متوجه نمی‌شویم. به همین دلیل آمارها براحتی دروغ می‌گویند.

آمارها به ما دروغ می‌گویند؛ نه چون از اساس اشتباه و دروغ باشند؛ چون ما زبانشان را بلد نیستیم. طبیعی است که در نگاه اول احساس کنیم ما قرار نیست از آن سر در بیاوریم؛ چراکه زبان آماری، عدد است و اکثر ما میانه‌ی خوبی با اعداد نداریم. ولی در ادامه قرار است کمی بیشتر درباره‌ی آمار و روش کارش صحبت کنیم تا بتوانیم مانع فریب کاری آن شویم.

تصور کنید یک روز صبح، همکارتان می‌گوید دیروز در راه برگشت به خانه، دزدی را دیده است که گوشی یک خانم را دزیده و با عصبانیت ادامه می‌دهد: «جامعه پر از دزدی شده است. دیگر نمی‌شود با امنیت در خیابان راه رفت.» همان روز در یک سایت خبری، به نقل از نیروی انتظامی مطلبی می‌خوانید که می‌گوید: «آمار دزدی به نسبت ده سال گذشته در شهر کم شده است.» چه اتفاقی افتاد؟ چه کسی راست می‌گوید؟ هردوی آن‌ها راست می‌گویند؛ ولی چرا تناقض وجود دارد؟ همکار شما، فقط یک مورد دزدی را دیده و آن را به کل شهر تعمیم داده‌است؛ بدون آنکه بقیه‌ی خیابان‌ها و محلات شهر را گشته باشد و اطلاع دقیقی از آمار دزدی در کل شهر داشته باشد. اشتباه او این است که یک نمونه را عمومیت داده‌است و به قول ضرب المثل معروف «مشت را نمونه‌ی خروار گرفته است.». از آن طرف، نیروی انتظامی هم درست می‌گوید که آمار دزدی کم شده‌است؛ چون کل سرقت‌ها را حساب کرده‌اند؛ ولی آمار تفکیک شده‌ی دزدی را بررسی نکرده‌اند. مثلاً ممکن است آمار دزدی مسلحانه کم شده باشد؛ اما تعداد موبایل دزدی بیشتر شده باشد. برای همین همکار شما، حرف نیروی انتظامی را نمی‌پذیرد؛ چون در آن لحظه برای او صرفاً مشاهده‌اش و تعداد موبایل‌های دزدیده شده اهمیت دارد.

چرا هر مشتی، نمونه‌ی خروار نیست؟

در آمار، مفهومی به نام نمونه‌ آماری وجود دارد. نمونه آماری، به طور ساده یعنی به جای بررسی کل جمعیت آماری مثلاً همه‌ی افراد یک کشور، می‌توان بخشی از مردم کشور را به عنوان نمونه‌ای از کل جمعیت بررسی کرد. سپس نتایج آن گروه کوچک را به کل کشور تعمیم داد. هرچقدر تعداد نمونه‌های آماری بیشتر باشد، آمار دقیق‌تر می‌شود. تمام آمارهایی که می‌شنویم، براساس نمونه آماری به دست آمده‌اند؛ چراکه بررسی تمام بیماران سرطانی، کل درختان یک جنگل یا تمام ماهی‌های دریا، زمان‌بر و بسیار پرهزینه و گاه نشدنی است. نمونه‌ها باید چگونه انتخاب شوند؟ تصادفی و رندم، تا بشود به نتایج آن اعتماد کرد. اگر جز این باشد؛ یعنی نمونه‌ها جهت‌دار و مغرضانه انتخاب شوند، نتیجه غیرواقعی است. با یک مثال، مسئله‌ی انتخاب نمونه‌ها را بهتر متوجه می‌شویم.

فرض کنید به شما یک کیسه بدهند که در آن تعدادی مهره‌های آبی و قرمز، قرار دارد و از شما می‌خواهند نسبت مهره‌های آبی و قرمز را مشخص کنید. اگر تعداد مهره‌ها کم باشد، خب کار راحت است، آن‌ها را می‌شمارید. اما اگر ده هزار مهره باشد، باید چه کار کرد؟ اگر مطمئن باشیم که مهره‌ها، به طور یکنواخت پراکنده شده باشند، می‌توانیم یک مشت از آن‌ها را بر داریم و نسبت‌های مهره‌های قرمز و آبی را حساب کنیم. ولی همیشه، مهره‌ها به طور یکنواخت پراکنده نشده‌اند. اینجا کار سخت می‌شود و با انتخاب یک نمونه‌ی جهت‌دار، می‌شود با آمار یک دروغ بزرگ گفت.

فرض کنید یک روزنامه تیتر بزند «متوسط درآمد سالانه‌ی مردم تهران، ۱۵۰ میلیون تومان است.» و این تصور را برای مردم شهرهای دیگر به وجود بیاورد که مردم تهران، اصطلاحاً پول پارو می‌کنند. این آمار بر چه اساس به دست آمده است؟ احتمالاً مسئول این گزارش، از تمام مردم تهران، مقدار درآمد سالانه‌شان را نپرسیده‌ است و از همان روش نمونه آماری استفاده کرده است. نمونه‌ها بر چه اساس انتخاب شده‌اند؟ گزارش‌گر توضیح می‌دهد که یک روز به یک خیابان شهر رفته است و از مردم درباره‌ی درآمدشان سؤال کرده‌است؛ ولی این روش در تهران پاسخگو نیست. تهران شهر پرجمعیتی است که فاصله‌ی طبقاتی زیادی نه تنها میان محلات مختلف که در خیابان‌های محله‌ها، وجود دارد. یک خیابان در محله‌ای درختکاری شده و عرض زیادی دارد، بنابراین قیمت بیشتری نسبت به خیابان‌های مجاورش دارد. پس نمی‌شود فقط مردم ساکن خیابانی خاص را مد نظر قرار داد. به علاوه اینکه، ساعت مصاحبه و آمارگرفتن هم بسیار مهم است. اگر گزارش‌گر، ساعت ۱۰ صبح یک روز کاری برای آمارگیری رفته باشد، کارمندان دولتی در خانه نیستند و احتمالاً مسئول آمار فقط با کسانی که شغل آزاد دارند و به نسبت درآمد بیشتری هم دارند، صحبت می‌کند. شبیه مثال مهره‌ها، در اینجا هم مهره‌ها به صورت یکنواخت پراکنده نشده‌اند و اگر آمارگیر یا گزارش‌گر به این مسئله توجه نکند، آمار غلطی به دست می‌آورد.

برای حل این مسئله باید چه کار کرد؟ اولاً باید زمان بیشتری را به تهیه‌ی آمار اختصاص داد. نمونه‌ی آماری باید تصادفی انتخاب شود. وقتی قرار است آماری جامع گرفته شود که اهمیت بالایی هم دارد، نباید بر اساس افراد عمل کرد؛ مثلاً چون یک نفر خیابان یا محله‌ای را دوست دارد یا به نظرش بهتر است، برای آمارگیری به آنجا برود. در اینجا بهتر است فهرستی از تمام کوچه‌ها و خیابان‌های تهران تهیه کرد و به هرکام عددی را نسب داد. پس از آن تعدادی شماره را به وسیله‌ی کامپیوتر انتخاب کرد و با اعداد فهرست تطبیق داد و اینگونه خیابان‌های نمونه آمار را برگزید. مورد بعدی در حل این مشکل این است که نمونه‌ی انتخابی را در حد امکان بزرگ انتخاب کنیم. برای اینکه میانگین درآمد سالانه‌ی مردم تهران را متوجه شویم، ۱۰۰۰ نمونه، ما را به آمار دقیقی نمی‌رساند و هرچه این عدد بزرگتر باشد، احتمالاً نتیجه دقیق‌تر خواهد بود.

این نکته را فراموش نکنید که مردم ممکن است با شما همکاری نکنند یا اطلاعات اشتباهی به شما بدهند، بنابراین هیچ آماری، کامل دقیق و بدون اشکال نیست و باید ضریب خطایی برای آن در نظر گرفت. در مثال مهره‌ها هم، تا جای ممکن باید نمونه‌های آماری بیشتری را انتخاب کنیم تا به آمار تقریباً درستی برسیم.

این موارد، مثالی بودند برای آنکه بدانیم همیشه، مشت نمونه‌ی خروار نیست و این ضرب‌المثل در زندگی روزمره و واقعی ما ممکن است مصداق درستی نداشته باشد. بعلاوه باید به این نکته توجه کرد که آمارها، به ویژه آمارهای رسمی، لزوماً دروغ نیستند؛ اما چون به طور کلی آمارگیری شده‌اند با تجربه‌ی عینی ما، متفاوت است. بنابراین باید دقت لازم را داشته باشیم، تا فریب آمار را نخوریم.

چگونه آمارها به ما دروغ می‌گویند

مشت نمونه‌ی خروار نیست

چرا هر مشتی، نمونه‌ی خروار نیست؟

داده‌های سخت، تحلیل‌های نرم / بررسی حقیقت داده‌ها

در سه مرحله، سواد داده به دست آورید

نظرسنجی خیابانی و هزار و یک دردسر!