هر روز از صبح تا شب، موقع کار یا مطالعه یا حتی ورزش، مهم نیست در شهر زندگی میکنیم یا ساکن روستا هستیم، همهی ما در معرض سیلی از دادهها[1] هستیم. دادهها از هرجایی به دست ما میرسند و بسیاری از آنها، درست یا غلط، ورد زبان مردم میشوند؛ درحالی که احتمالاً خودشان هم ندادند این دادهها را از کجا به دست آوردهاند. این یک حقیقت است که همهی ما همیشه هم تولیدکننده و هم مصرف کنندهی دادهها هستیم. ممکن است زمانی که در دریای خروشان دادهها، شناوریم؛ این سؤال برایمان پیش بیاید که اساساً داده چیست و از کجا به ما میرسد؟ اینکه هر داده در کجا متولد شده و چگونه به دست ما رسیده، در مرحلهی دوم اهمیت دارد. یش از آن باید بتوانیم دادهها را تحلیل کنیم و برای این کار باید سواد دادهها را بیاموزیم. پشت هر دادهای، داستانی وجود دارد و آیا ما باید داستان هرکدام از آنها را که میشنویم باورکنیم؟
شرکتهای بزرگ رسانهای، مثل گوگل یا فیسبوک یا حتی ناسا، میتوانند با دادههایی که دارند، جهان را تغییر دهند. اگر فردا صبح، ناسا اعلام کند زمین گرد نیست و تخت است، ناگهان بسیاری از معادلات جهانی عوض میشود. احتمالاً این حرف مخالفان زیادی دارد و در دنیای علم هم درگیریهایی را ایجاد میکند اما که از این طالاعات به راحتی عبور میکند؟ ما، اگرچه به اندازهی این شرکتهای بزرگ اثرگذار نیستیم؛ ولی با هر دادهای که دریافت میکنیم و سپس آن را به دیگران منتقل میکنیم، میتوانیم اثرگذار باشیم. گاهی همین دادههای کوچک، میتوانند بحرانهای بزرگی را به وجود آورند.
فرض کنید میخواهید به شهری سفر کنید که از محل زندگیتان دور است و شناختی از آن جا ندارید؛ پس لازم است اطلاعاتی[2] راجع به آن شهر جمعآوری کنید. اطلاعاتی مانند وضعیت آب و هوای شهری که مقصد سفر شماست. در این صورت شما وضعیت آب و هوای طول سفر و شهرهایی که میخواهید از آنها دیدن کنید را بررسی میکنید و مجموعهای از دادههای مرتبط بهم به دست میآورید. به این دادهها، مجموعهی داده[3] گفته میشود. اگر فقط وضعیت آب و هوا در یک روزِ یک شهر را چک کنید، دادهای که به دست میآورید، یک مبنا[4] است.
در مبحث سواد دادهها، اولین چیزی که باید به آن توجه کنیم این است که دادهها از چه چیزی ساخته شدهاند؟ شاید به نظر بیاید که دادهها، به خصوص مجموعهی دادهها، همان اطلاعات است و تفاوتی باهم ندارند؛ اما اینطور نیست. دادهها، مواد خامی هستند که هیچ کاری روی آنها نشدهاست و زمانی که آنها پردازش شوند، به اطلاعات تبدیل میشوند.
کلان دادهها چگونه به وجود میآیند؟
اگر در همین سفری که مثال زده شد، زمین بخورید و دستتان بشکند و با یکی از دوستانتان برای درمان به بیمارستان بروید، به شما فرمی برای پذیرش و سوابق پزشکی میدهند. از آنجایی که احتمالاً خودتان نمیتوانید فرم را پر کنید، دوستتان این کار را به جای شما انجام میدهد. دادههایی که یادداشت میکند، در کنار هم اطلاعاتی را راجع به شما شکل میدهند که برای درمان شما نیاز است. سؤالاتی مانند سن، قد و وزن در دستهی دادههای کمی قرار میگیرند. ولی همه چیز را نمیشود با اعداد توضیح داد. سؤالی مثل «در زمان حادثه، چه اتفاقی رخداد؟» را باید توصیف کرد و پاسخش در گروه دادههای کیفی قرار میگیرند. دادههای کیفی، اغلب با متن نشان داده میشوند. بعد از پر کردن فرم، پزشک هم از شما سؤالاتی میپرسد یا میخواهد که از شکستگی دستتان عکس برداری کنید؛ برای آنکه خودش هم دادههایی را به دست آورد. این دادهها، همهی چیزهایی که در پروندهی پزشکی شما ثبت میشود، دادههای زیادی هستند؛ اما آیا میشود به آنها کلان داده[5] گفت؟
مرز میان داده و کلان داده، خیلی واضح نیست؛ ولی کلان دادهها سه مشخصهی اصلی دارند که آنها را متفاوت از دادهها میکند. این مشخصات عبارتند از: ظرفیت، تنوع و روند رشد دادهها. پروندهی پزشکی شما، به خصوص وقتی برای موردی مثل شکستگی دست باشد، خیلی دادههای زیادی ندارد و نهایتاQ چند صفحه است؛ اما پروندهی پزشکی تمام بیماران یک بیمارستان، انبوهی از دادهها هستند که فضای مجازی یا فیزیکی زیادی را اشغال میکنند. دادههای پزشکی، تنوع زیادی دارند و شامل اعداد، توضیحات، نتیجهی آزمایشها و عکسهای رادیولوژی میشوند. براساس دادههای کمی و کیفی اطلاعات زیادی میشود به دست آورد. براساس پروندهها هم میشود دریافت بیماران چه زمانهایی بیشترین مراجعه را به بیمارستان داشتهاند یا برای چه کارهایی بیشتر مراجعه کردهاند. در نتیجه پروندهی پزشکی هر فرد، داده و پروندهی پزشکی تمام بیماران یک بیمارستان کلان داده محسوب میشوند.
اگر ما سؤالات درستی مطرح کنیم، متوجه میشویم هدف پشت دادهها چیست و میتوانیم آنها را تحلیل کنیم. مردم در ایجاد کلان دادهها م<ثر هستند؛ اما برای اینکه بتوانیم علت ارزشمندی بعضی چیزها را دریابیم یا بدانیم چرا بعضی از دادهها در جامعه رواج پیدا میکنند باید به ریزدادهها [6] توجه کنیم.
ریزدادهها چه هستند و درکجا کاربرد دارند؟
تصور کنید برای جشن تولدتان میخواهید کیک سفارش دهید. در خیابانی که در آن سکونت دارید، دو قنادی هست که یکی از آنها به تازگی افتتاح شده است و شما تا به حال کیکهایش را امتحان نکردهاید؛ ولی از همسایهتان شنیدهاید که طمع خوبی دارند. چهطور باید انتخاب کنید که به کدام قنادی سفارش دهید؟ در عصر دیجیتال و به لطف اینترنت، برنامههایی وجود دارند که میتوانیم به کیک فروشیها هم امتیاز دهیم و لازم نیست برویم و از همسایهها راجع به تجربهی خریدشان سؤال بپرسیم. ریزدادهها در اینجا به کمک ما میآیند. امیتاز هر کاربر یک ریزداده حساب میشود. امتیاز دهیها براساس یک بازهی 1 تا 5 است و تمام مشتریان میتوانند بعد از تحویل سفارششان، امیتاز خود را ثبت کنند. اگر تعداد زیادی از افراد امیتازشان را ثبت کنند، آن وقت ما با دادههای درستی مواجه هستیم و براساس آن میتوانیم تصمیم درستی بگیریم. ریزدادهها همچنین به صاحبان قنادی کمک میکند تا نظرات مشتریان خود را بدانند و براساس آنها تغییرات لازم را در محصولاتشان به وجود آورند. اگر تعداد افرادی که امیتاز دادهاند، کم باشد؛ نمیتوانیم با اطمینان بگوییم که نتیجهگیری ما درست است.
دادههایی که ما با آنها مواجه میشویم، ممکن است از روستایی در آفریقا یا یکی از آسمان خراشهای توکیو آمده باشند و هرکدام هدف و داستان خاص خود را دارند. برای اینکه مقهور داستانهایشان نشویم، در قدم اول باید بدانیم که دادهها چیستند و آنها را بشناسیم و بعد برای آنکه بتوانیم آنها را تحلیل و بررسی کنیم، بهتر است سواد داده را فرابگیریم.
1) Data
2) Information
3) Data set
4) Datum
5) Big Data
6) Little Data
نظر شما