ممکن است شما هم شنیده باشید که هاروارد شغلی به نام «دانشمند داده» را جذاب‌ترین شغل قرن بیست و یکم نامیده است. در این مقاله قصد داریم نقش دانشمند داده، مهارت‌ها، مدارک و تحصیلات مورد نیاز، تجربیات کاری و مسئولیت‌های او را بررسی کنیم. در حقیقت تعریف استانداردی از نقش دانشمند داده وجود ندارد و به ندرت پیش می‌آید که سابقه کاری ایده‌آل و مجموعه مهارت‌های مورد نیاز این شغل در یک فرد یافت شود؛ اما ما قصد داریم بهترین تعریف ممکن را به شما ارائه دهیم.

قبل از اینکه به نقش دانشمند داده بپردازیم، بهتر است تاکید کنیم که اغلب اوقات این شغل با شغل‌های دیگری همچون تحلیلگر داده، مهندس داده و … اشتباه گرفته می‌شود. اما توجه کنید که تمامی این مشاغل تفاوت‌های بسیاری باهم دارند که جلوتر به آن‌ها اشاره خواهیم کرد.

در اینجا نموداری می‌بینید که برخی از تخصص‌های رایج یک دانشمند داده را نشان می‌دهد. سطح تجربه و دانش یک دانشمند داده در هر یک از این تخصص‌ها، ممکن است در سطح مبتدی، قابل قبول و متخصص یا ایده‌آل طبقه‌بندی شود.

 

گرچه تخصص‌های بالا و رشته‌های دیگری که در اینجا نشان داده نشده است همگی می‌تواند عنوان ویژگی‌های یک دانشمند داده را به خود بگیرد، ما پایه و اساس این دانشمندان را چهار ستون و رکن کلی در نظر می‌گیریم. تخصص‌های جزئی‌تر ممکن است از ترکیب این ارکان بدست آیند.

ارکان علم داده

با وجود اینکه دانشمندان داده اغلب زمینه‌های آموزشی و تجربیات کاری متفاوتی دارند، اکثر آنها باید در چهار زمینه قوی باشند، یا در ایده‌آل‌ترین حالت، متخصص باشند. این چهار زمینه عبارت‌اند از: کسب و کار، ریاضیات (شامل آمار و احتمال)، علوم کامپیوتر (به عنوان مثال، معماری و مهندسی نرم‌افزار یا داده) و ارتباطات (کتبی و شفاهی).

ارکان علم داده
ارکان علم داده

مهارت‌ها و تخصص‌های دیگری نیز وجود دارد که داشتن آن‌ها مطلوب واقع می‌شود، اما به طور کلی این چهار مهارت اهمیت بیشتری دارند. از این عناصر تا پایان این مقاله با عنوان ارکان دانشمند داده یاد می‌شود.

اکثر دانشمندان در یک یا دو رکن قوی هستند و به ندرت پیش می‌آید در هر چهار رکن قوی باشند. بر اساس این ارکان، دانشمند داده شخصی است که باید بتواند از منابع داده موجود استفاده کند و در صورت لزوم منابع جدیدی را برای استخراج اطلاعات معنی‌دار و پیشنهادات سازنده ایجاد کند. از این پیشنهادات می‌توان برای مدیریت تصمیمات و تغییرات کسب و کاری جهت دستیابی به اهداف سازنده‌ی کسب و کار استفاده کرد.

این امر از طریق تخصص در حوزه کسب و کار، ارتباطات کارآمد، تفسیر نتایج و استفاده از همه تکنیک‌های آماری مورد نیاز، زبان‌های برنامه‌نویسی، بسته‌های نرم‌افزاری، زیرساخت داده‌ها و … انجام می‌شود.

منظور از علم داده چیست؟

برای درک اهمیت این ارکان، ابتدا باید معنی علوم داده و همچنین فرایند علم داده را درک کرد. مطالب قابل ارائه در علم داده، پیش‌بینی یک مقدار بر اساس داده‌ها، طبقه بندی، لینک‌های پیشنهادی (مانند پیشنهادات آمازون و Netflix)، شناسایی و گروه‌بندی الگوها، تشخیص ناهنجاری‌هایی مانند جعل و تقلب، فرآیندهای خودکار و تصمیم گیری‌ها، امتیازدهی و رتبه‌بندی، تقسیم‌بندی، بهینه‌سازی و … را در بر می‌گیرد.

حتما بخوانید:  تبدیل داده به اطلاعات با هوش تجاری

هر یک از موضوعات بالا، برای دستیابی به یک هدف خاص و یا حل یک مشکل خاص در نظر گرفته شده است. به عنوان مثال، یک دانشمند داده ممکن است فکر کند که هدف او ایجاد یک موتور پیش‌بینی با عملکرد بالا است. از طرف دیگر، شرکتی که قصد دارد از موتور پیش‌بینی استفاده کند، ممکن است هدفش افزایش درآمد باشد که با استفاده از این موتور پیش‌بینی قابل دستیابی است.

گرچه به نظر می رسد این مسئله در نگاه اول چندان مشکل‌ساز نباشد، اما این مثال به خوبی نشان می‌دهد که چرا رکن اول (تخصص در حوزه کسب و کار) اهمیت بسیار زیادی دارد. اغلب مدیران موفق دارای سوابق تحصیلی کسب و کار محور، مانند کارشناسی ارشد مدیریت بازرگانی هستند.

باوجود اینکه بسیاری از مدیران افراد فوق‌العاده باهوشی هستند، ممکن است در تمام ابزارها، تکنیک‌ها و الگوریتم‌های مورد استفاده دانشمند داده (به عنوان مثال، تجزیه و تحلیل آماری، یادگیری ماشین و هوش مصنوعی) مهارت کافی نداشته باشند. با توجه به این موضوع، آن‌ها ممکن است نتوانند به خوبی اهداف خود را به دانشمند داده منتقل کنند.

حتی اگر یک مدیر اجرایی بتواند تشخیص دهد که یک موتور پیشنهاد دهنده خاص به افزایش درآمد کمک می‌کند، ممکن است متوجه این موضوع نباشد که روش‌های متنوع‌تری برای استفاده از داده‌های شرکت جهت افزایش درآمد وجود دارد.

در نتیجه باید مجددا تاکید کنیم که دانشمند داده باید نسبت به نحوه کار مشاغل و نحوه استفاده از داده‌های یک شرکت برای دستیابی به اهداف والا، درک کاملی داشته باشد.

با دانش قابل توجه در حوزه کسب و کار، یک دانشمند داده می‌تواند مرتبا برنامه‌های جدیدی را برای کمک به کسب و کار در رسیدن به اهداف خود و به حداکثر رساندن شاخص عملکرد آن پیشنهاد دهد.

فرآیند علم داده

در زیر نمودار مدل فرآیند GABDO آورده شده است. این فرآیند از پنج مرحله تشکیل شده است: هدف‌گذاری، دستیابی، ساخت، تحویل، بهینه‌سازی. اما ارکان دانشمند داده در اینجا چه نقشی ایفا می‌کنند؟

G
نمودار GABDO

ارکان دانشمند داده، مهارت‌ها و تحصیلات

پیش‌تر در مورد حوزه کسب و کار و ارتباطات صحبت کردیم. هوش تجاری و مهارت‌های ارتباطی درجه یک برای مرحله کشف و هدف‌گذاری بسیار مهم است.

مهارت‌هایی مانند ارتباطات (نوشتاری و کلامی) و توانایی سخنرانی در جمع، برای یک دانشمند داده نقشی کلیدی ایفا می‌کنند. در مرحله بازگو کردن و انتقال نتایج، مهم است که دانشمند داده بتواند نتایج را به روشی قابل فهم و جذاب انتقال دهد و از زبان و اصطلاحات مناسب برای مخاطبان خود استفاده کند.

برای مراحل دیگر، دانشمندان داده باید برای درک داده‌ها، انتخاب روش صحیح و به کار گیری راه‌حل باید از مهارت‌های برنامه نویسی قوی و همچنین دانشی کامل در مورد آمار، احتمالات و ریاضیات بهره بگیرند.

دانشمند داده باید توانایی‌هایی از جمله نوشتن الگوریتم‌های جدید یا اصلاح الگوریتم های موجود را داشته باشد. او باید بتواند به بسیاری از پایگاه‌های داده مختلف و منابع داده دسترسی داشته و دادها را در یک منبع مبتنی بر تجزیه و تحلیل ادغام کند، تمام گزینه‌های آماری، برنامه‌نویسی و … را بشناسد و بهترین‌ها را انتخاب کند، اطمینان حاصل کند که داده‌ها از یکپارچگی، کیفیت بالا و شرایط مطلوب برای به دست آوردن نتایج دقیق بهره‌مند هستند.

حتما بخوانید:  مقایسه مفاهیم تحلیل داده، علوم داده و کلان داده (Big Data)

دانشمند داده باید معیارهای عملکرد صحیح را انتخاب کند و برای به حداکثر رساندن عملکرد، تکنیک‌های مناسب را به کار گیرد. او باید نتایج خوب و بد را از هم تشخیص دهد و از خطرات احتمالی و خسارات مالی ناشی از نتیجه‌گیری اشتباه بکاهد.

مهم نیست که فرد چه راهی برای یادگیری در پیش گرفته است، دانشمند داده باید دارای دانش پیشرفته و مهارت‌های بسیار فنی در زمینه آمار، ریاضیات و علوم کامپیوتر باشد.

معنی “علم” در علم داده

اصطلاح علم معمولاً مترادف با روش علمی است. در اینجا تصویری وجود دارد که روش علمی را به عنوان یک روند مداوم تجسم می کند.

علم داده

به طور کلی، دانشمندان رشته‌های دیگر و دانشمندان داده باید توانایی سوال پرسیدن یا تعریف یک مسئله را داشته باشند، داده ها را جمع‌آوری و از آن‌ها استفاده کنند تا جواب یا راه حل‌هایی ارائه دهند، نهایتا راه حل را آزمایش کنند تا ببینند آیا مشکل حل شده است و در صورت لزوم راه حل را نهایی کند.

دانشمندان داده، تحلیل‌گران داده و مهندسین داده

همانطور که گفته شد، معمولا نقش دانشمند داده با سایر نقش‌های مشابه اشتباه گرفته می‌شود. مهم‌ترین این نقش‌ها تحلیل‌گران داده و مهندسان داده هستند که هر دو کاملاً با یکدیگر متفاوت‌اند و همچنین با علم داده نیز تفاوت دارند. در ادامه این نقش‌ها را با جزئیات بیشتری بررسی خواهیم کرد.

تحلیل‌گران داده

تحلیلگران داده بسیاری از مهارت‌ها و مسئولیت های یک دانشمند داده را دارند و بعضی اوقات نیز دارای سوابق آموزشی مشابه هستند. برخی از این مهارت‌های مشترک شامل توانایی پردازش و پاکسازی داده‌ها، جمع بندی داده‌ها، استفاده از برخی از آمار و فنون ریاضی، تجسم داده‌ها و آماده کردن گزارش‌ها می‌شود.

برخی از تفاوت‌های کلیدی این است که تحلیل‌گران داده معمولاً برنامه‌نویس نیستند و همچنین مسئولیت یادگیری ماشین و بسیاری از مراحل دیگر که در فرآیند علم داده در بالا ذکر شد را ندارند.

سرانجام ، تحلیل‌گران داده ها در تعاملات خود با مدیران نیز تفاوت چشمگیری دارند. تحلیل‌گران داده معمولا سوال‌هایی را دریافت می‌کنند، تجزیه و تحلیل انجام می‌دهند و نهایتا یافته‌های خود را گزارش می‌کنند.

دانشمندان داده، خودشان سوالات را بر اساس مهمترین اهداف تجاری و چگونگی استفاده از داده‌ها برای دستیابی به آن‌ها، ایجاد می کنند. علاوه بر این، دانشمندان داده به طور معمول از برنامه‌نویسی و نرم‌افزارهای تخصصی استفاده می‌کنند و آمار، تجزیه و تحلیل و تکنیک‌های مدل‌سازی بسیار پیشرفته‌تری را به کار می‌گیرند.

مهندسان داده

مهندسان داده در زمینه داده‌ها در مقیاس بزرگ اهمیت بیشتری پیدا می‌کنند و می‌توان آنها را نوعی معمار داده در نظر گرفت. آن‌ها بر خلاف دانشمندان و تحلیل‌گران داده، کمتر به آمار، تجزیه و تحلیل و مدل‌سازی می‌پردازند و بیشتر به معماری داده‌ها، زیرساخت‌های محاسبات و ذخیره داده‌ها و جریان داده‌ها توجه دارند.

داده‌هایی که دانشمندان داده از آنها استفاده می‌کنند اغلب از منابع مختلفی تهیه می‌شوند و باید استخراج، انتقال، تبدیل، یکپارچه‌سازی و ذخیره شوند؛ به گونه‌ای که برای تجزیه و تحلیل، هوش تجاری و مدل‌سازی آماده شوند.