داده‌ها، دانستنی‌ها و آگاهی‌هایی هستند که انسان برای ثبت و درک مشترک از هر پدیده‌ای از آن بهره می‌برند. روش تفسیر داده‌ها و کاربرد هر مجموعه‌ای از داده‌ها نیازمند شناخت انواع داده‌هاست.

هر روز از صبح تا شب، موقع کار یا مطالعه یا حتی ورزش، مهم نیست در شهر زندگی می‌کنیم یا ساکن روستا هستیم، همه‌ی ما در معرض سیلی از داده‌ها[1] هستیم. داده‌ها از هرجایی به دست ما می‌رسند و بسیاری از آن‌ها، درست یا غلط، ورد زبان مردم می‌شوند؛ درحالی که احتمالاً خودشان هم ندادند این داده‌ها را از کجا به دست آورده‌اند. این یک حقیقت است که همه‌ی ما همیشه هم تولیدکننده و هم مصرف کننده‌ی داده‌ها هستیم. ممکن است زمانی که در دریای خروشان داده‌ها، شناوریم؛ این سؤال برایمان پیش بیاید که اساساً داده چیست و از کجا به ما می‌رسد؟ اینکه هر داده در کجا متولد شده و چگونه به دست ما رسیده، در مرحله‌ی دوم اهمیت دارد. یش از آن باید بتوانیم داده‌ها را تحلیل کنیم و برای این کار باید سواد داده‌ها را بیاموزیم. پشت هر داده‌ای، داستانی وجود دارد و آیا ما باید داستان هرکدام از آن‌ها را که می‌شنویم باورکنیم؟

شرکت‌های بزرگ رسانه‌ای، مثل گوگل یا فیسبوک یا حتی ناسا، می‌توانند با داده‌هایی که دارند، جهان را تغییر دهند. اگر فردا صبح، ناسا اعلام کند زمین گرد نیست و تخت است، ناگهان بسیاری از معادلات جهانی عوض می‌شود. احتمالاً این حرف مخالفان زیادی دارد و در دنیای علم هم درگیری‌هایی را ایجاد می‌کند اما که از این طالاعات به راحتی عبور می‌کند؟ ما، اگرچه به اندازه‌ی این شرکت‌های بزرگ اثرگذار نیستیم؛ ولی با هر داده‌ای که دریافت می‌کنیم و سپس آن را به دیگران منتقل می‌کنیم، می‌توانیم اثرگذار باشیم. گاهی همین داده‌های کوچک، می‌توانند بحران‌های بزرگی را به وجود آورند.

فرض کنید می‌خواهید به شهری سفر کنید که از محل زندگی‌تان دور است و شناختی از آن جا ندارید؛ پس لازم است اطلاعاتی[2] راجع به آن شهر جمع‌آوری کنید. اطلاعاتی مانند وضعیت آب و هوای شهری که مقصد سفر شماست. در این صورت شما وضعیت آب و هوای طول سفر و شهرهایی که می‌خواهید از آن‌ها دیدن کنید را بررسی می‌کنید و مجموعه‌ای از  داده‌های مرتبط بهم به دست می‌آورید. به این داده‌ها، مجموعه‌ی داده[3] گفته می‌شود. اگر فقط وضعیت آب و هوا در یک روزِ یک شهر را چک کنید، داده‌ای که به دست می‌آورید، یک مبنا[4] است.

در مبحث سواد داده‌ها، اولین چیزی که باید به آن توجه کنیم این است که داده‌ها از چه چیزی ساخته شده‌اند؟ شاید به نظر بیاید که داده‌ها، به خصوص مجموعه‌ی داده‌ها، همان اطلاعات است و تفاوتی باهم ندارند؛ اما اینطور نیست. داده‌ها، مواد خامی هستند که هیچ کاری روی آن‌ها نشده‌است و زمانی که آن‌ها پردازش شوند، به اطلاعات تبدیل می‌شوند.

کلان‌ داده‌ها چگونه به وجود می‌آیند؟

اگر در همین سفری که مثال زده شد، زمین بخورید و دستتان بشکند و با یکی از دوستانتان برای درمان به بیمارستان بروید، به شما فرمی برای پذیرش و سوابق پزشکی‌ می‌دهند. از آن‌جایی که احتمالاً خودتان نمی‌توانید فرم را پر کنید، دوستتان این کار را به جای شما انجام می‌دهد. داده‌هایی که یادداشت می‌کند، در کنار هم اطلاعاتی را راجع به شما شکل می‌دهند که برای درمان شما نیاز است. سؤالاتی مانند سن، قد و وزن در دسته‌ی داده‌های کمی قرار می‌گیرند. ولی همه چیز را نمی‌شود با اعداد توضیح داد. سؤالی مثل «در زمان حادثه، چه اتفاقی رخداد؟» را باید توصیف کرد و پاسخش در گروه داده‌های کیفی قرار می‌گیرند. داده‌های کیفی، اغلب با متن نشان داده می‌شوند. بعد از پر کردن فرم، پزشک هم از شما سؤالاتی می‌پرسد یا می‌خواهد که از شکستگی دستتان عکس برداری کنید؛ برای آنکه خودش هم داده‌هایی را به دست آورد. این داده‌ها، همه‌ی چیزهایی که در پرونده‌ی پزشکی شما ثبت می‌شود، داده‌های زیادی هستند؛ اما آیا می‌شود به آن‌ها کلان داده[5] گفت؟

مرز میان داده و کلان داده، خیلی واضح نیست؛ ولی کلان داده‌ها سه مشخصه‌ی اصلی دارند که آن‌ها را متفاوت از داده‌ها می‌کند. این مشخصات عبارتند از: ظرفیت، تنوع و روند رشد داده‌ها. پرونده‌ی پزشکی شما، به خصوص وقتی برای موردی مثل شکستگی دست باشد، خیلی داده‌های زیادی ندارد و نهایتاQ چند صفحه است؛ اما پرونده‌ی پزشکی تمام بیماران یک بیمارستان، انبوهی از داده‌ها هستند که فضای مجازی یا فیزیکی زیادی را اشغال می‌کنند. داده‌های پزشکی، تنوع زیادی دارند و شامل اعداد، توضیحات، نتیجه‌ی آزمایش‌ها و عکس‌های رادیولوژی می‌شوند. براساس داده‌های کمی و کیفی اطلاعات زیادی می‌شود به دست آورد. براساس پرونده‌ها هم می‌شود دریافت بیماران چه زمان‌هایی بیشترین مراجعه را به بیمارستان داشته‌اند یا برای چه کارهایی بیشتر مراجعه کرده‌اند. در نتیجه پرونده‌ی پزشکی هر فرد، داده و پرونده‌ی پزشکی تمام بیماران یک بیمارستان کلان داده محسوب می‌شوند.

اگر ما سؤالات درستی مطرح کنیم، متوجه می‌شویم هدف پشت داده‌ها چیست و می‌توانیم آن‌ها را تحلیل کنیم. مردم در ایجاد کلان داده‌ها م<ثر هستند؛ اما برای اینکه بتوانیم علت ارزشمندی بعضی چیزها را دریابیم یا بدانیم چرا بعضی از داده‌ها در جامعه رواج پیدا می‌کنند باید به ریزداده‌ها [6] توجه کنیم.

ریزداده‌ها چه هستند و درکجا کاربرد دارند؟

تصور کنید برای جشن تولدتان می‌خواهید کیک سفارش دهید. در خیابانی که در آن سکونت دارید، دو قنادی هست که یکی از آن‌ها به تازگی افتتاح شده است و شما تا به حال کیک‌هایش را امتحان نکرده‌اید؛ ولی از همسایه‌تان شنیده‌اید که طمع خوبی دارند. چه‌طور باید انتخاب کنید که به کدام قنادی سفارش دهید؟ در عصر دیجیتال و به لطف اینترنت، برنامه‌هایی وجود دارند که می‌توانیم به کیک فروشی‌ها هم امتیاز دهیم و لازم نیست برویم و از همسایه‌ها راجع به تجربه‌ی خریدشان سؤال بپرسیم. ریزداده‌ها در اینجا به کمک ما می‌آیند. امیتاز هر کاربر یک ریزداده حساب می‌شود. امتیاز دهی‌ها براساس یک بازه‌ی 1 تا 5 است و تمام مشتریان می‌توانند بعد از تحویل سفارششان، امیتاز خود را ثبت کنند. اگر تعداد زیادی از افراد امیتازشان را ثبت کنند، آن وقت ما با داده‌های درستی مواجه هستیم و براساس آن می‌توانیم تصمیم درستی بگیریم. ریزداده‌ها همچنین به صاحبان قنادی کمک می‌کند تا نظرات مشتریان خود را بدانند و براساس آن‌ها تغییرات لازم را در محصولاتشان به وجود آورند. اگر تعداد افرادی که امیتاز داده‌اند، کم باشد؛ نمی‌توانیم با اطمینان بگوییم که نتیجه‌گیری ما درست است.

داده‌هایی که ما با آن‌ها مواجه می‌شویم، ممکن است از روستایی در آفریقا یا یکی از آسمان خراش‌های توکیو آمده باشند و هرکدام هدف و داستان خاص خود را دارند. برای اینکه مقهور داستان‌هایشان نشویم، در قدم اول باید بدانیم که داده‌ها چیستند و آن‌ها را بشناسیم و بعد برای آنکه بتوانیم آن‌ها را تحلیل و بررسی کنیم، بهتر است سواد داده را فرابگیریم.

1) Data  

2) Information

3) Data set  

4) Datum

5) Big Data

6) Little Data