پاک شدن حافظه جمعی / مراقب داده‌های خود باشید

تهران- ایرنا مدرسه- ما می‌دانیم که افراد شغل خود را تغییر می‌دهند و شرکت‌های رسانه‌ای می‌آیند و می‌روند. مهم است که تلاش‌های شما در جایی باقی بماند و پس از رفتن شما جان سالم به در ببرد. پس روی محل ذخیره سازی داده‌های خود فکر و کار کنید.

Steve Doig، پیشگام دیتاژورنالیسم، در اولین نسخه از کتاب راهنمای روزنامه‌نگاری داده که در سال ۲۰۱۲ منتشر کرد نوشته بود یکی از گزارش‌های داده‌محور مورد علاقه‌اش، پروژه‌ای معروف به «پروژه قتل» اثر Tom Hargrove است.

در این پروژه که توسط سرویس خبری Scripps Howard News Service منتشر شد، هارگرو به اطلاعات دقیق جمعیتی درمورد ۱۸۵۰۰۰ قتل حل نشده نگاه کرد و الگوریتمی ساخت تا پیشنهاد کند که کدام قتل‌ها ممکن است به یکدیگر مرتبط باشند. قتل‌هایی که به یکدیگر مربوط هستند می‌توانند نشانه‌ی یک قتل زنجیره‌ای باشند.

Doig دراین‌باره نوشت: «این پروژه یک پروژه‌ی همه چیز تمام است؛ کار سخت، یک پایگاه داده بهتر از پایگاه داده دولت، تجزیه و تحلیل هوشمندانه با استفاده از تکنیک‌های علوم اجتماعی، ارائه تعاملی داده‌ها به صورت آنلاین به خوانندگان و...»

شش سال بعد در زمان چاپ دوم کتاب راهنمای روزنامه‌نگاری داده، آدرس اینترنتی این پروژه از بین رفت... (projects.scrippsnews.com/magazine/murder-mysteries)

این پروژه از اینترنت حذف شد زیرا ناشر آن، Scripps Howard از بین رفته بود. سرویس خبری Scripps چندین ادغام و تغییر ساختار را پشت سر گذاشت و درنهایت با Gannett ادغام شد. ما می‌دانیم که افراد شغل خود را تغییر می‌دهند و شرکت‌های رسانه‌ای می‌آیند و می‌روند. با این حال این مسئله عواقب فاجعه‌باری برای دیتاژورنالیسم داشته است.

پروژه‌های داده‌محور بسیار ظریف‌تر از گزارش‌های متنی و تصویری ساده هستند که در نسخه‌های چاپی روزنامه‌ها یا مجله‌ها منتشر می‌شوند. به صورت معمول ازبین رفتن پیوند بین داده‌ها برای کسانی که از بایگانی نگهداری می‌کنند مسئله خاص و مهمی نیست. استفاده از LexisNexis یا ProQuest یا ارائه‌دهندگان دیگر پایگاه‌های داده، کار ما را برای پیدا کردن هر نسخه از هر چیزی- مثلاً نسخه‌ای از نیویورک تایمز- در قرن بیست و یکم بسیار آسان کرده‌است. اما برای گزارش‌های مبتنی بر داده، از بین رفتن پیوندها نشان دهنده‌ی یک مشکل بسیار عمیق است!

گزارش‌های دیتاژورنالیسم در آرشیوهای سنتی نگهداری نمی‌شوند به این ترتیب آن‌ها درحال ناپدید شدن از صفحات وب هستند. تا زمانی که سازمان‌های خبری و کتابخانه‌ها اقدامی انجام ندهند، مورخان و پژوهشگران آینده نخواهند توانست مطالب منتشر شده در مثلاً The Boston Globe را بخوانند. این مسئله پیامدهایی جدی برای دانشمندان و حافظه جمعی در این حوزه دارد.

حفاظت از پیش‌نویس تاریخ!

روزنامه‌نگاری اغلب به عنوان «نخستین پیش‌نویس تاریخ» شناخته می‌شود. اگر پیش‌نویسِ اول ناقص باشد، دانشمندانِ آینده چکار خواهند کرد؟ آیا امروز را درک خواهند کرد؟ اگر گزارش‌ها از صفحات حذف شوند روزنامه‌نگاران مستقل چه کار خواهند کرد؟

این فقط یک مشکل محاسباتی نیست؛ یک مشکل انسانی است! برای درک این مسئله که چرا دیتاژورنالیسم به درستی آرشیو نمی‌شود باید راجع به آرشیو کردن اخبار معمولی صحبت کنیم.

همه‌ی سازمان‌های خبری از نرم افزاری به نام سیستم مدیریت محتوا یا CMS استفاده می‌کنند که به سازمان اجازه می‌دهد صدها محتوایی را که هرروز تولید می‌کند زمان‌بندی و مدیریت کند. همچنین ظاهر و ویژگی بصری ثابتی را بر هر محتوای منتشر شده اعمال می‌کند. از لحاظ تاریخی، سازمان‌های خبری قدیمی از یک CMS متفاوت برای نسخه‌های چاپی و اینترنتی استفاده می‌کردند. وب CMS به سازمان خبری اجازه می‌دهد تا تبلیغات را در هر صفحه‌ای قرار دهد که یکی از راه‌های کسب درآمد سازمان خبری است. معمولاً ویدئوها در CMS متفاوت هستند. پست‌های رسانه‌های اجتماعی ممکن است توسط یک برنامه متفاوت مثل SocialFlow یا Hootsuite مدیریت شوند.

این مسئله باید مورد توجه قرار بگیرد که بایگانی کردن یک عمل خود به خود نیست، بلکه به انتخاب‌های عمدی ما بستگی دارد. ما تصمیم می‌گیریم که چه چیز برای آینده مهم است و چه چیز اهمیت ندارد. اکثر مردم می‌پرسند «پس آرشیو اینترنت چه می‌شود؟»؛ آرشیو اینترنت یک گنج است و این گروه برای گرفتن عکس‌های فوری از سایت‌های خبری کار قابل تحسینی انجام می‌دهند. فناوری آن‌ها یکی از پیشرفته‌ترین فناوری‌های آرشیو دیجیتال است.

با این حال، رویکرد آن‌ها همه چیز را در بر نمی‌گیرد. آرشیو اینترنت فقط صفحات وب در دسترس عموم را جمع‌آوری می‌کند. سازمان‌های خبری که نیاز به ورود به سیستم دارند یا باید برای استفاده از مطالب آن‌ها هزینه پرداخت شود نمی‌توانند به صورت خودکار در بایگانی اینترنتی نگهداری شوند. صفحات وبی که محتوای ایستا یا HTML دارند راحت‌تر حفظ می‌شوند.

تجسم داده‌های پویا و تعاملی درحال حاضر پیشرفته‌ترین نوع گزارش دیتاژورنالیسم است. همچنین به دلایل مختلف سازمانی، این نوع گزارش‌ها معمولاً خارج از CMS ساخته می‌شوند. بنابراین حتی اگر امکان آرشیو کردن تصویرسازی داده‌ها وجود داشته باشد (که عموماً این کار را نمی‌کنند) بصورت خودکار ذخیره نمی‌شوند زیرا داخل CMS نیستند.

این یک مشکل پیچیده است و هیچ پاسخ آسانی ندارد.

در این بین چندکار مشخص وجود دارد که هر تیم دیتاژورنالیست می‌توانند انجام دهند تا مطمئن شوند گزارش‌های خود را برای آینده حفظ می‌کنند.

ویدئو بگیرید. این استراتژی از حفظ بازی‌های ویدئویی الگو گرفته است. ویدئو را در یک مکان مرکزی با متن ساده ذخیره کنید. هر زمان که فرمت ویدئویی جدیدی ظاهر شد مانند زمانی که VHS جای خود را به DVD داد یا DVD جای خود را به فرمت‌های جدید داد باید آن را تغییر دهید.
یک نسخه کوچک شده برای آیندگان بسازید. کتابخانه‌هایی مانند Django-bakery به صفحات پویا اجازه می‌دهند که بصورت صفحات ثابت ارائه شوند. یک پروژه داده را می‌توان به عنوان یک سایت پویا راه‌اندازی کرد، سپس می‌توان آن را به یک سایت ثابت تبدیل کرد.
به آینده فکر کنید. روزنامه‌نگاران تمایل دارند برای انتشار برنامه‌ریزی کنند و به سراغ موضوعات بعدی بروند. گزارش Matt Waite به اسم kill all your darlings راهنمای خوبی برای چگونگی تفکر درمورد یک گزارش دیتاژورنالیسم است.

درنهایت شما به یک سازمان جدید خبری منتقل می‌شوید یا سازمان خبری شما با سازمان دیگری ادغام می‌شود یا هزاران احتمال دیگر. مهم است که تلاش‌های شما در جایی باقی بماند و پس از رفتن شما جان سالم به در ببرد. پس روی محل ذخیره سازی داده‌های خود فکر و کار کنید. از متخصصان فناوری کمک بخواهید تا بتوانید داده‌ها را به بهترین شکل ذخیره‌سازی کنید.