همانطور که در رسانههای چاپی، سواد خبری به معنای توانایی کسب خبر، نوشتن منسجم آن و تفکر انتقادی است، «سواد داده» توانایی پیدا کردن دادهها، تولید گزارش بوسیله آنها و تفکر انتقادی است.
سواد داده شامل سواد آماری است، همچنین برای یادگیری نحوه کار با دادهها و مجموعههای بزرگ، نحوه تولید خبر، اتصال چند مجموعه داده به یکدیگر و تفسیر آنها نیز باید به این نوع از سواد مجهز باشید. دانشگاه خبر Poynter’s News برای روزنامه نگاران کلاسهای ریاضی برگزار میکند تا با مفاهیمی مانند درصد تغییرات یا میانگین کامل آشنا شوند و بتوانند از آن استفاده کنند. جالب اینجاست که این مفاهیم در مدارس به دانش آموزان ۱۰ تا ۱۱ ساله تدریس میشود. اینکه روزنامهنگاران در موضوعات ریاضی که معمولا قبل از دبیرستان آموزش داده میشوند نیاز به کمک دارند نشان میدهد که تا چه اندازه تا «سواد خبر» فاصله داریم. اگر یک دیتاژورنالیست نداند که بازه اطمینان چیست، چگونه میتواند از تعداد زیادی داده برای بررسی تغییرات آب و هوایی استفاده کند؟ اگر یک دیتاژورنالیست نمیتواند میانگین را از میانه تشخیص دهد، چگونه میتواند درباره توزیع درآمد، روایتی صحیح بنویسد؟
هنگامی که با اعداد رو به رو میشوید چند ترفند میتواند به شما کمک کند که گزارش بهتری داشته باشید. همانطور که پروفسور Gerd Gigerenzer، استاد مؤسسه Max Planck میگوید، ابزارهای بهتر اگر با بینش استفاده نشوند، منجر به روزنامهنگاری بهتر نمیشوند. حتی اگر هیچ دانشی از ریاضی یا آمار ندارید، میتوانید با پرسیدن ۳ سوال بسیار ساده به یک روزنامهنگار با تجربه تبدیل شوید.
۱. دادهها چگونه جمعآوری شدهاند؟
گفتن این مسئله بدیهی به نظر میرسد، اما دادههایی که معمولاً به عنوان ارقام تولید ناخالص داخلی درمورد آنها اظهار نظر میشود، میتوانند به خوبی جعل شوند. Craig Murray سفیر سابق بریتانیا در کتاب خود به اسم «قتل در سمرقند» نوشته است، نرخ رشد در ازبکستان منوط به مذاکرات شدید بین دولت محلی و نهادهای بینالمللی است. به عبارت دیگر ربطی به اقتصاد محلی ندارد. کاری که شما میتوانید انجام دهید این است که هرزمان درمورد اعتبار یک عدد شک داشتید، آن را بررسی کنید. همانطور که درباره اعتبار نقل قول یک سیاستمدار بررسی میکنید. مثلاً درمورد ازبکستان، یک تماس تلفنی با فردی که سالها در آنجا زندگی کرده کافیست. آیا مردم فکر میکنند که کشورشان نسبت به سال ۱۹۹۵، ۳ برابر ثروتمند شدهاست؟ آزمونهای دیگر مانند قانون بنفورد، به شما امکان میدهند تا اعتبار دادهها را به صورت دقیق ارزیابی کنید، اما هیچکدام جایگزین تفکر انتقادی شما نخواهد شد.
۲. چه چیزی برای یادگیری دارد؟
خطر ابتلا به MS برای کسانی که شب کار هستند دو برابر میشود. مطمئناً هر آلمانی که عقلش کار کند، با خواندن این تیتر، کار در شیفت شب را ترک میکند. اما این متن به ما نمیگوید که این خطر واقعا چقدر بودهاست. ۱۰۰۰ آلمانی را در نظر بگیرید. یک فرد در این بین به MS دچار میشود. حالا اگر این ۱۰۰۰ نفر شیفت شب کار میکردند، تعداد مبتلایان به MS به ۲ نفر میرسید.
یا یک تیتر دیگر را درنظر بگیرید: به طور متوسط از هر ۱۵ اروپایی، یک نفر کاملاً بیسواد است. این تیتر بسیار ترسناک بنظر میرسد و کاملاً درست است. در میان ۵۰۰ میلیون اروپایی، ۳۶ میلیون احتمالاً خواندن بلد نیستند. علاوه بر این، ۳۶ میلیون نفر زیر ۷ سال هستند! پس زمانی که درمورد میانگین مینویسید، همیشه توزیع و نرخ پایه را در نظر بگیرید. میانگین را با میانه و مد بررسی کنید. این کار به شما کمک میکند تا درمورد دادهها بینش درستی به دست آورید.
۳. اطلاعات چقدر قابل اعتماد هستند؟
مسئله اندازهی نمونه بسیار مهم است. یک نظرسنجی گزارش کرده است که ۸۰ درصد مردم اسپانیا از سیستم قضایی ناراضی هستند. چگونه میتوان از ۸۰۰ پاسخ دهنده به نظر ۴۶ میلیون اسپانیایی رسید؟ هنگام تحقیق روی یک جمعیت بزرگ (بیش از چندهزار نفر) گاهی به بیش از هزار پاسخدهنده نیاز دارید تا به خطای کمتر از ۳ درصد برسید. به این معنی که اگر بخواهید نظرسنجی را با یک نمونه کاملاً متفاوت مجدداً انجام دهید، پاسخهایی که دریافت میکنید در فاصله ۳ درصدی از نتایجی است که بار اول دریافت کردهاید. آمار بسیار قدرتمند است و حجم نمونه به ندرت در نظرسنجیها ایجاد مشکل میکند.
به عنوان یک روزنامهنگار، به چالش کشیدن نتایج عددی یک مطالعه، مانند حجم نمونه، منطقی نیست، مگر اینکه شک و تردید جدی در مورد آن وجود داشتهباشد.
نکاتی برای کار با اعداد در اخبار
- مهمترین نکته برای مدیریت دادهها این است که از این کار لذت ببرید. دادهها میتوانند ترسناک بنظر برسند اما اگر اجازه بدهید که شما را بترسانند هرگز به جایی نمیرسید. با اعداد مانند چیزی برای بازی و اکتشاف رفتار کنید. آنها اغلب داستانها را شگفتانگیز میکنند. آنها را بدون ترس مدیریت کنید! همچنین میتوانید خلاق باشید و به دنبال یک داستان جایگزین باشید که با آن اعداد سازگارتر است. از خودتان بپرسید :«داستان دیگری میتواند این اعداد را به خوبی توضیح دهد؟»
- شک و تردید درمورد دادهها را با بدبینی اشتباه نگیرید. شک و تردید خوب است. اما بدبین دست از کار میکشد. اگر به دیتاژورنالیسم علاقه دارید، باید باور داشته باشید که دادهها مطالب بسیاری برای ارائه دارند. دادهها اگر با دقت مورد استفاده قرار بگیرند دانش عمیقی به ما میدهند. نه باید بدبین باشیم و نه ساده لوح! باید هوشیار باشیم.
- اگر به شما بگویم که مصرف دخانیات در دوران رکود اقتصادی بسیار افزایش داشته است ممکن است به من بگویید به همین دلیل است که همه افسرده شدهایم. اگر به شما بگویم مصرف دخانیات در رکود اقتصادی بسیار کاهش پیدا کردهاست میگویید برای همین مردم شکسته شدهاند. به عبارت دیگر آنچیزی که دادهها میگویند تفاوتی با تفسیری که بر آن اصرار دارید ندارد! اگر آمار بالا برود بد است، اگر پایین بیاید بد است. نکته اینجاست که اگر به دادهها اعتقاد دارید، سعی کنید قبل از اینکه صحبت کنید، آنها با شما صحبت کنند. شما باید ذهنی باز داشته باشید.
- بهترین سوالات، همان سوالات قدیمی هستند؛ آیا این واقعاً عدد بزرگی است؟ از کجا آمده؟ آیا مطمئن هستید که آن چیزی که شما فکر میکنید در واقع هم مهم است؟ اینها عموماً فقط دستورهایی برای فکر کردن در مورد دادهها و طیف گستردهای از مقایسههای بالقوه در طول زمان هستند.
مراحل اولیه کار با دادهها
حداقل سه مفهوم کلیدی هست که باید هنگام شروع یک پروژهی داده درک کنید:
- تقاضا برای دادهها باید با لیستی از سوالاتی که میخواهید به آنها پاسخ بدهید شروع شود.
- دادهها اغلب باید پاکسازی شوند.
- دادهها ممکن است دارای ویژگیهای غیرمستند باشند.
سوالاتی که میخواهید به آنها پاسخ دهید را بدانید
از بسیاری جهات، کار با دادهها مانند مصاحبه با یک منبع زنده است. شما از دادهها سؤال میپرسید و آنها را میگیرید. اما همانطور که یک منبع فقط میتواند پاسخهایی را بدهد که در مورد آنها اطلاعات دارد، یک مجموعه داده فقط میتواند به سوالاتی پاسخ دهد که سوابق مناسب و متغیرهای مناسب برای آنها دارد. شما باید به دقت در نظر بگیرید که به چه سوالاتی نیاز دارید حتی قبل از به دست آوردن اطلاعات، خودتان به آنها پاسخ دهید. به طور کلی شما معکوس کار میکنید. ابتدا، عبارات مبتنی بر داده را که میخواهید در داستان خود بیان کنید، فهرست کنید. سپس تصمیم بگیرید که کدام متغیرها و اطلاعات را باید به دست آورید و تجزیه و تحلیل کنید تا آن عبارات را بیان کنید.
مثالی را در رابطه با گزارشهای جرم محلی در نظر بگیرید. فرض کنید میخواهید گزارشی بنویسید و الگوهای جرم و جنایت در شهرتان را بررسی کنید. مطالبی که میخواهید بیاورد، شامل روز هفتهای است که احتمال وقوع جرم و جنایت در آن بیشتر است و همچنین میخواهید نقاط مختلف شهر را براساس نوع جرم تقسیمبندی کنید.
متوجه خواهید شد که باید به دنبال تاریخ و زمان وقوع هر جرم، نوع جرم (قتل، سرقت، دزدی و...) و همچنین آدرس محل وقوع جرم باشید. درنتیجه زمان، تاریخ، محل وقوع جرم و نوع جرم، حداقل متغیرهایی هستند که برای پاسخ به سوالاتتان به آنها نیاز دارید.
اما توجه داشته باشید که برخی سؤالاتِ جالب هم هستند که این چهار سؤال نمیتوانند به تنهایی به آنها پاسخ دهند. مانند نژاد، جنسیت قربانیان، ارزش اموال مسروقه و اینکه کدام افسران در دستگیری مجرمها بهتر عمل کردهاند. همچنین ممکن است فقط بتوانید برای یک دوره زمانی خاص، مانند سه سال گذشته، اطلاعات را دریافت کنید. این بدان معنیست که نمیتوانید بفهمید الگوهای جرم و جنایت تغییر کردهاست یا نه. این سؤلات ممکن است خارج از محدوده برنامهریزی شما برای بیان داستان باشد.
در اینجا باید به این مسئله توجه کنید؛ همهی متغیرها و سوابق را در پایگاه های دادهای درخواست کنید، نه فقط زیرمجموعهای که به پاسخ آن نیاز دارید. دسترسی به مجموعه کامل دادهها این امکان را به شما میدهد که به سوالات جدیدی که ممکن است در گزارشهایتان پیش بیاید پاسخ دهید و حتی ایدههای جدیدی برای گزارشهایتان پیدا کنید. ممکن است بعضی اطلاعات مانند هویت قربانیان یا نام فردی که به پلیس گزارش دادهاست محرمانه باشد اما حتی یک پایگاه داده جزئی بهتر از هیچ است.
دادهها را منظم کنید
اولین کاری که باید بعد از به دست آوردن دادهها انجام دهید، مرتب کردن دادهها و حذف دادههای اضافی است. یک راه سریع و خوب برای جستجوی دادهها و مرتب کردن آنها ایجاد جدول و طبقهبندی متغیرهاست.
به عنوان مثال هنگام استفاده از Excel میتوانید بوسیلهی قسمت filter یا pivot table که در متنهای دیگر آنها را بصورت مفصل توضیح دادهایم (دو دوتا چهارتای، یک دیتاژورنالیست)، طبقهبندی مناسبی از دادههای مورد نیازتان ایجاد کنید. برای مثال اگر جنسیت برای شما مهم است، میتوانید از طریق فیلد جنسیت دادههای خود را مرتب کنید. (به غلط املایی ها توجه کنید و سعی کنید غلط املاییهای ممکن را هم لحاظ کنید تا داده ای جا نماند!)