با داده‌ها چه می‌توان کرد؟ 2



در قسمت قبل توضیحاتی در باره واژه ها و مفاهیمی پیرامون علم داده ها Data science که در سایتهای آموزشی و یا کتابهای مختلف استفاده می شود و ممکن است علاقمندان به این رشته را گیج کند، داده شد. همچنین آنگونه که گفته شد، علم داده ها ترکیبی از علوم کامپیوتری، آمار و هنر تحلیلی است. هر کدام از موارد ذکر شده سهم بسزایی از آغاز تا پایان همچون دریافت و جمع آوری داده ها تا مدل سازی آماری و تحلیل و نتیجه گیری نهایی دارد. از همین رو آموزشهای گوناگون موجود و ارائه شده در باره علم داده ها، چه در دانشگاهها و چه مراکز خصوصی مانند Boot Camp ها ریل ثابت و مشخصی ندارند. 
مثلا اگر کسی بخواهد زبان برنامه نویسی پایتون python را یاد بگیرد، برنامه های آموزشی تقریبا یکسانی توسط آموزشکده ها یا سایتها مختلف ارائه می شود. به عنوان مثال برای یادگیری یک زبان برنامه نویسی ابتدا با متغیرهای گوناگون variables، انواع مختلف داده ها و تفاوتهای آنها با یکدیگر آشنا می شویم. سپس نحوه اجرای عملیات بر روی کلمات و اعداد، موارد استفاده از داده ها در فرمهای گروهی مانند list, dictionary, tuple..، فانکشن function و نحوه بکار گیری آنها در یک برنامه و الی آخر آموزش داده می شود. بسته به نحوه آموزش اجزای تشکیل دهنده یک زبان برنامه نویسی کامپیوتر، هر سیستم آموزشی به فراخور تجربیات یادگیری دانشجویانش، بهتر یا بدتر عمل می کند.


آموزش و یادگیری علم داده ها کمی با آنچه که در باره زبان برنامه نویسی گفته شد، متفاوت است. با بررسی منابع مختلف در زمینه آموزش این رشته متوجه شدم که گاهی در ابتدا بیش از اندازه بر روی علوم کامپیوتری و گاه آنچنان بر روی جزییات آمار تاکید می شود که واقعا ضروری نیست. بله، برای اجرای الگوریتم بر روی نمونه ها و داده های بدست آمده باید پایتون و یا آر R را دانست و همچنین برای مدل سازی نیاز به دانش و آگاهی در ریاضیات و آمار است. اما به اعتقاد من، برای شروع و حتی رسیدن به حد نصاب قابل قبول در علم داده ها احتیاجی به این نیست که یک فرد برنامه نویسی زبان پایتون و یا آر را در حد کامل بداند. همین موضوع در مورد آمار هم صدق می کند. احتیاج به این نیست که به جزئیات و چگونگی عملکرد هریک از مدلهای مختلف در علم آمار اشراف کامل داشت. البته که باید فهمید ریگرشن (پردازش) خطی Linear Regression چه عملی را انجام می دهد و مثلا coefficient حاصله از این عمل چه چیزی را نشان می دهد.

اما اگر در ابتدای یادگیری بخواهیم از زیر و زبر چنین فرمول ترسناکی سر در بیاوریم، احتمالا عطای یادگیری علم داده ها را به لغایش می بخشیم و در همان آغاز از تصمیم خود منصرف می شویم.


برنامه Pandas  که با زبان پایتون نوشته شده است، تقریبا همه این مدلهای آماری را بر روی داده ها انجام می دهد و احتیاجی نیست که در حد یک متخصص آمار در این زمینه اطلاعات داشت. اشتباه نگیرید، منظورم این نیست که در زمینه آمار مطالعه، تحقیق و آگاهی کسب نکنید. البته هرگونه آگاهی بیشتر در این زمینه، قدرت تحلیلی را بالا می برد. اما بسیار دیده شده که تاکید بیش از حد، بخصوص در ابتدای کار بر روی جزئیات آماری، علاقمندان به یادگیری این رشته را نا امید می کند. در علم داده ها، با یادگیری و فهم درست تنها یک مدل Linear Regression می توان بسیاری از پیش بینی ها را انجام داده، اگر میان متغیرهای داده ها ارتباطی خاصی وجود داشته باشد. این تجربه بسیار وقتگیر و گرانبهایی است که با بررسی بسیاری از ملاتهای آموزشی در منابع، در جریان یادگیری این رشته مختلف بدست آورده ام و التبه همچنان در حال آموختن هستم.

برای آشنایی با زبان پایتون و برنامه نویسی کامپیوتری از طریق این زبان می توانید این برنامه رایگان آموزشی را  مرور کنید. خوبی این سایت در این است که می توانید در همانجا کد بنویسید و اجرا کنید. یکی از مشکلات یادگیری زبانهایی چون پایتون و جاوا این است که باید بصورت جداگانه اجرا شود. در Pandas نیر می شود کدهای پایتون را براحتی اجرا کرد. در این باره مفصلا توضیح داده خواهد شد. همچنین در این سایت مفاد آموزشی بسیار مفید دیگری مانند JavaScript, Vue, React, html, CSS موجود است که می توانید از آنها استفاده کنید.


همچنین منابع بسیاری برای آشنایی با آمار، حتی به زبان فارسی موجود است که با یک جستجوی کوچک در گوگل می توان به آنها دست یافت. در بسیاری موار برای نگاهی سریع به معادلات و مدلهای آماری، Wikipedia راهنمای خوبی است که درسمت چپ همین صفحه، پنجره جستجوی آن موجود است.

برای جلوگیری از اطاله کلام در این شماره، ادامه بحث را به شماره بعدی موکول می کنیم. در شماره بعد، Pandas را بر روی کامپیوتر نصب کرده و برخی از عملیاتهای ساده را بر روی آن اجرا می کنیم.


- اطلاعات مربوط به این بخش و قسمتهای دیگر در باره پانداز، بیشتر برگرفته از کتاب  Python for Data Analysis, Data Wrangling with Pandas, NumPy,and IPython چاپ دوم از انتشارات اورایلی است که توسط Wes McKinney، خالق پانداز، نوشته شده است.

*- بیشتر ملاتها در مورد بررسی آماری در این سلسله مطالب، برگرفته از دو کتاب An Introduction to Statistical Learning و The Elements of Statistical Learning Data Mining, Inference, and Prediction از انتشارات سپرینگر springer.com/us و کلاسهای ارائه شده آنلاین توسط دانشگاه هاروارد است.

**- استفاده از این سلسله مطالب با ذکر منبع آزاد است.

Comments

Popular posts from this blog

با داده‌ها چه می‌توان کرد؟ 9 - پردازش خطی بصورت عملی

با داده‌ها چه می‌توان کرد؟ 12 - کار با پانداز - 3 چگونه داده‌ها را وارد کنیم؟