डिग्री के बिना डेटा वैज्ञानिक कैसे बनें?

तकनीक उद्योग में, नए कौशल और भूमिकाएं पारंपरिक शिक्षा की तुलना में तेजी से उभर सकती हैं | हाल का उदाहरण डाटा साइंस के फील्ड में और उससे संबंधित व्यवसाय में डेटा वैज्ञानिक(Data Scientist) का है |

डेटा विज्ञान(Data Science) क्षेत्र की सबसे सरल परिभाषा तकनीक द्वारा सहायता प्राप्त करना, डेटा एकत्रित करने, विश्लेषण आप(Analysing) करने और व्याख्या(Interpret) करने का प्रथा है। अधिकांश कंप्यूटर साइंस डिग्री अभी तक डेटा साइंस को एक प्रमुख रूप में पेश नहीं करते हैं और जैसे, कई डेटा वैज्ञानिक स्वयं सीखें गए हैं | इसके कारण अब बिना डिग्री के डेटा वैज्ञानिक बनना मुमकिन है |

डेटा वैज्ञानिक क्या करते हैं?

ऊंचे स्तर पर, डेटा वैज्ञानिकों ने डेटा से अंतर्दृष्टि(insight) प्राप्त करने के लिए गणित, प्रोग्रामिंग टूल और तकनीकों, सॉफ़्टवेयर और स्टैटिस्टिकल मेथड(Statistical Method) का उपयोग किया है। कई डेटा वैज्ञानिकों के साक्षात्कार में, उन्होंने जो दिन-प्रतिदिन करने की बात की थी, उनमें से कुछ में शामिल हैं:

  1. नौकरी की घोषणा से वेतन के आंकड़े निकालना, स्टोर करना, और उनका विश्लेषण  करना
  2. एचआर मॉडल (HR Model) को बेहतर बनाने के लिए औद्योगिक मनोविज्ञान(industrial psychology) का इस्तेमाल करना
  3. एक महामारी के फैलने का अनुकरण(simulating the spread of an epidemic)
  4. कम-सामाजिक-आर्थिक स्थिति छात्रों के समूह का डाटा निकालना
  5. उत्पादों को अधिक प्रभावी रूप से बेचने के बारे में निर्णय लेने के लिए डेटा, मॉडल और एनालिटिक्स(analytics) का उपयोग करना

डेटा वैज्ञानिकों की कौशल आवश्यकताएं –

गणित :

एक प्रभावी डाटा वैज्ञानिक होने के लिए आवश्यक गणितीय कौशल की मात्रा की गर्मागर्म बहस की जाती है। कुछ लोगों का कहना हैं कि गहरी गणितीय ज्ञान की आवश्यकता है, जबकि अन्य का तर्क है कि अधिकांश स्टैटिस्टिकल एनालिसिस(Statistical analysis) प्रोग्रामिंग लाइब्रेरीज़ के माध्यम से किए जाते हैं | DataScienceWeekly  एक सफल डाटा वैज्ञानिक बनने के लिए न्यूनतम गणितीय अवधारणाओं(mathematical Concepts) की सूची इस प्रकार प्रदान करता है:

  • रैखिक बीजगणित(Linear Algebra)  के साथ बहुभिन्नरूपी पथरी(multivariate Calculus), लीनियर बीजगणित Khan Academy से मुक्त सीख सकते हैं।
  • रिग्रेशन(Regression), जिसमें रैखिक(linear) और गैर-रेखीय(Non linear) मॉडल दोनों को उचित रूप से संचालित करने की क्षमता शामिल है। आप Coursera में रैखिक रिग्रेशन(linear Regression) के बारे में सीख सकते हैं |
  • न्यूमेरिकल अनालिसिस जिसमें  टाइम सीरीज एनालिसिस तथा फोरकास्टिंग होती है , इसे Udacity  से सीखा जा सकता है |
  • प्रोबेबिलिटी थ्योरी जिसमें Baye’s Law  तथा Central Limit Theorem होती है ,  इसे आप Coursera  से पढ़ सकते हैं |
  • मशीन लर्निंग मेथड जिसमें – क्लस्स्ट्रिंग(clustering),  डिसिशन ट्री(Decision tree)  तथा K-NN होते हैं, इसके लिए आप Unanth.com  का इस्तेमाल कर सकते हैं |

प्रोग्रामिंग उपकरण और तकनीक :

प्रोग्राम की क्षमता विभिन्न तरीकों से डेटा वैज्ञानिकों की सहायता करती है | वे डेटा विज्ञान में सबसे अधिक समय-उपभोक्ता(time-consuming) कार्यों को स्वचालित(automate) करने के लिए स्क्रिप्ट लिख सकते हैं , विश्लेषण के लिए डेटा की सफाई करके तैयार  किया जाता है | वे डेटा को एक स्वरूप से दूसरे में बदलने के लिए स्क्रिप्ट लिख सकते हैं, जैसे कि SQL Query के नतीजे ढंग से स्वरूपित CSV रिपोर्ट में, या रिलेशनल डेटाबेस के विपरीत, सतत CSV डेटा को बदलने में | ज्यादातर मामलों में, डेटा विश्लेषण का उद्देश्य purpose-built Libraries में उपयोग किया जाता है जो कई बार दोहराए जाने वाले या जटिल गणनाओं(Complex Calculations) जैसे कि Pandas | डेटा एनालिसिस के परिणामों की कल्पना करने के लिए Matplotlib का उपयोग किया जा सकता है |

R एक अन्य लैंग्वेज जो डाटा विज्ञानिकों में बेहद लोकप्रिय है, जो Python की तरह एक सामान्य प्रोग्रामिंग  लैंग्वेज है, आर विशेष रूप से  स्टैटिस्टिकल कंप्यूटिंग(Statistical Computing) और ग्राफिक्स के साथ  कार्य करने के लिए बनाया गया था | आज के क्षेत्र में प्रवेश करने वाले अधिकांश डेटा वैज्ञानिकों को एक या  दूसरी लैंग्वेज के साथ सहज होने की उम्मीद होगी, लेकिन आपको  किसे चुनना चाहिए?

आप सभी प्रकार की चीजों के लिए Python का इस्तेमाल कर सकते हैं: गेम बनाने के लिए, सर्वरों के प्रशासन से लेकर वेब  एप्लीकेशन के निर्माण तक |

R को स्टेटिस्टिक्स और विज़ुअलाइज़ेशन के मुख्य फोकस के बाहर मामलों का उपयोग करने के लिए चुनना बहुत मुश्किल है हालांकि, दोनों  लैंग्वेज पर कुछ बुनियादी ट्यूटोरियल देखें और देखें कि आप  किस लैंग्वेज  को पसंद करते हैं| अंत में, टूल जिसे आप चुनते हैं, टूल के साथ आपकी skill से कम मायने रखता है, और आप ऐसे टूल चलाने में  सफल  हो सकते हैं  जैसे इस्तेमाल करने में आप शौकीन हो |

कहां से सीखे –

Unanth.com, Python for Data Science ऑनलाइन कोर्स प्रदान करता है, जिसमें लाइब्रेरी  जैसे – pandas, NumPy  तथा Matplotlib  क्षेत्र को प्रदान करता है |

Unanth.com  और भी कई प्रकार के Data Science Course  को वर्नाकुलर लैंग्वेज( अलग-अलग  भाषाओं) में उपलब्ध कराता है : Online Course to teach you the R  programming language for Data Science.

मशीन लर्निंग :

How to become Data Scientist without Degree - read.unanth.com

मशीन लर्निंग वह साधन है जिसके द्वारा कंप्यूटर स्पष्ट रूप से प्रोग्राम किए बिना कार्य सीख सकते हैं और सुधार कर सकते हैं | मशीन लर्निंग की तकनीक का उपयोग डेटा के आधार पर निर्णय और भविष्यवाणियों के लिए किया जा सकता है, और डेटा विज्ञान के क्षेत्र में इसके कई अनुप्रयोग हैं |

कल्पना कीजिए कि आप एक बड़े ऑनलाइन बाज़ार के लिए काम कर रहे एक डाटा वैज्ञानिक हैं जो कपटपूर्ण लेनदेन(fraudulent transaction) की बढ़ती संख्या से निपटने के लिए संघर्ष कर रहे हैं |

जब तक एक कपटपूर्ण लेनदेन(fraudulent transaction) की खोज की जाती है, तब तकआमतौर पर बहुत देर हो चुकी है और  नुकसान हो चुका है | आपकी कंपनी ने जितनी अधिक जानकारी दर्ज की है, उतनी ही यह उपयोगकर्ता, परिस्थितियों, और प्रत्येक धोखाधड़ी लेनदेन के पीछे व्यवहार कर सकती है| धोखाधड़ी लेन-देन को रोकने से पहले आपके पास उससे बचने के लिए तरीके होने चाहिए |

मशीन लर्निंग सीखें बिना काम करने वाले एक डाटा वैज्ञानिक के रूप में, आप पिछले धोखाधड़ी लेनदेन के बारे में उपलब्ध आंकड़ों का विश्लेषण करेंगे और पैटर्न ढूंढेंगे | उदाहरण के लिए, एक मशीन लर्निंग एल्गोरिथ्म(Machine Learaning Algorithm) एक ऐसे पैटर्न का पता लगा  सकती है जिसे मानव याद  नहीं रख सकता | जैसे दिन में किस समय धोखाधड़ी लेनदेन सबसे अधिक होने की संभावना है |

मशीन लर्निंग की क्षमताओं के कारण, यह डेटा विज्ञान का अभिन्न हिस्सा(integral Part) बन रहा है |  जब आप मशीन लर्निंग के बेसिक(basics) से परिचित हैं, और जब वे उपयोगी हो सकते हैं, तो आपको डेटा वैज्ञानिक के रूप में अपने करियर में सहायता मिलेगी |

कहां से सीखे –

जैसा कि पहले उल्लेख किया गया है, मशीन लर्निंग की मूल बातें सीखने का सबसे लोकप्रिय साधन Unanth.com  है |

एसक्यूएल(SQL) :

How to become Data Scientist without Degree - read.unanth.com

एसक्यूएल, या स्ट्रक्चर्ड क्वेरी लैंग्वेज, रिलेशनल डेटाबेस के साथ इंटरैक्ट करने के लिए इस्तेमाल की जाने वाली लैंग्वेज है | दुनिया भर में, अधिकांश डेटा रिलेशनल डेटाबेस में संग्रहित  किया जाता हैं। इस डेटा के साथ काम करने के लिए, आपको आवश्यक डेटा को निकालने के लिए डेटाबेस से क्वेरी करने में सक्षम होना चाहिए | यही कारण है कि एसक्यूएल के  फंडामेंटल को समझना एक डाटा वैज्ञानिक के रूप में आवश्यक है |

 

कहां से सीखे –

SQL Zoo व्यावहारिक अभ्यासों के साथ एक मुफ्त एसक्यूएल ट्यूटोरियल है, हालांकि Unanth.com व्याख्यान वीडियो के माध्यम से हिंदी में एसक्यूएल सीखने के लिए एक सुनहरा मंच है |

सॉफ्टवेयर :

डेटा वैज्ञानिकों द्वारा उपयोग किए जाने वाले सॉफ़्टवेयर  जैसे कि Tableau, microsoft Excel, RapidMiner और KNIME शामिल हैं | यदि आप एक डाटा वैज्ञानिक बनने की कोशिश कर रहे हैं, तो केवल एक सॉफ्टवेयर पैकेज  जिसके साथ आपको सहज होना चाहिए, वह Excel है | यह सिर्फ इसलिए है क्योंकि किसी भी कंपनी में आवेदन करने के लिए यह आपको आना चाहिए, जबकि अन्य सॉफ़्टवेयर पैकेज, जैसे Tableau  तथा RapidMiner  की आवश्यकता  इतनी नहीं होती है |

कहां से सीखे –

Unanth.com , Advanced Microsoft Excel Skills के पाठ्यक्रमों की एक संख्या प्रदान करता है | आपको डाटा एनालिसिस  और Excel के साथ डेटा पर रिपोर्टिंग  पर कार्य करना आना चाहिए |

स्टैटिस्टिकल मेथड :

आँकड़ों की एक मजबूत समझ संभवतः डेटा वैज्ञानिकों के लिए सबसे महत्वपूर्ण कौशल(skill) है | सीधे शब्दों में कहें, दुनिया में सभी प्रोग्रामिंग, गणितीय, और सॉफ्टवेयर कौशल(software skill) आपकी मदद  तब तक नहीं करेंगे जब तक आपको समझ नहीं आता कि कैसे आंकड़ों के विश्लेषण  किया जाता है और रिपोर्ट सही और उचित करी कैसे बनाई जाती है |

सभी अच्छे डेटा वैज्ञानिक अपने कौशल(skills) और  चुनी हुई टेक्नोलॉजी में अलग-अलग होते हैं, लेकिन एक चीज जो वे सभी साझा करते हैं वह है आंकड़ों की गहरी समझ |

कहां से सीखे –

आप आंकड़ों(statistics) और संभावना(Probability) के बारे में Khan Academy से मुफ्त सीख सकते हैं |

डाटा वैज्ञानिक के रूप में पहली नौकरी प्राप्त करना –

किसी एंट्री-स्तरीय(entry level) डेटा वैज्ञानिक के लिए विचार किए जाने की संभावना एक कंपनी में भूमिका कुछ अलग-अलग कारकों(factors) पर निर्धारित है : आपकी शिक्षा और आपके प्रदर्शन कौशल(Demonstrated skills) | अनुभव आमतौर पर एक कारक है |

आपकी शिक्षा में किसी भी अंतराल को मुआवजा देने के लिए अपने कौशल की गहराई का प्रदर्शन  करना होगा | उदाहरण के लिए, जो पूरी तरह से आत्म-सिखाया(self-taught)  है, उन्हें क्षतिपूर्ति(compensate) करने के लिए परियोजनाओं  के एक प्रभावशाली पोर्टफोलियो की आवश्यकता होगी | इसके विपरीत, डिग्री वाले किसी व्यक्ति को डेटा साइंस क्षेत्र में सम्मानित किया जाता है, जैसे कि गणित या कम्प्यूटर साइंस की डिग्री, एक भूमिका के लिए विचार करने के लिए कम व्यावहारिक कौशल प्रदर्शित करने की आवश्यकता होगी |

पोर्टफोलियो कैसे बनाएं –

How to become data scientist without Degree - read.unanth.com

एप्लाइड डेटा साइंस पोर्टफोलियो एक प्रासंगिक तृतीयक डिग्री(relevant tertiary degree) के रूप में ही शक्तिशाली हो सकता है। सीधे शब्दों में कहें, एक प्रासंगिक डिग्री दर्शाती है कि आपके पास डेटा विज्ञान का अभ्यास करने की क्षमता है। एक पोर्टफोलियो से पता चलता है कि आप पहले से ही निम्नलिखित कार्य में तत्पर हैं  |

अपने पोर्टफोलियो का निर्माण शुरू करने का एक बेहतरीन तरीका है Kaggle जिसमें उपलब्ध कुछ चुनौतियों और प्रतियोगिताओं को हल  किया जाता है | यदि संभव हो तो, अपनी स्क्रिप्ट और आउटपुट को Github का उपयोग करके ट्रैक करने का प्रयास करें ताकि रिक्रूटर्स देख सकें कि आपने समस्या को हल करने के लिए कैसे संपर्क किया था |

डेटा विज्ञान साक्षात्कार –

साक्षात्कार(Interview) की प्रक्रिया से पहले, या उसके दौरान, आपको डेटा विज्ञान की चुनौती को पूरा करने के लिए तैयार रहना चाहिए। यदि आपके साक्षात्कार के कमरे में एक सफेद बोर्ड है, तो अपने विचारों को संवाद करने और साक्षात्कारकर्ता(Interviewer) के साथ साझा समझ बनाने का उपयोग करें – भले ही आपको स्पष्ट रूप से “श्वेत बोर्ड पर चुनौती” चुनौती नहीं दी गई हो |