இயந்திர கற்றல் துறையில், ஒரு மாதிரியைப் பயிற்றுவிப்பதில் வெற்றிகரமான தரவுத் தயாரிப்பு முக்கிய பங்கு வகிக்கிறது. பாண்டாஸ் நூலகத்தைப் பயன்படுத்தும் போது, இயந்திரக் கற்றல் மாதிரியைப் பயிற்றுவிப்பதற்கான தரவைத் தயாரிப்பதில் பல படிகள் உள்ளன. இந்த படிகளில் தரவு ஏற்றுதல், தரவு சுத்தம் செய்தல், தரவு மாற்றம் மற்றும் தரவு பிரித்தல் ஆகியவை அடங்கும்.
தரவைத் தயாரிப்பதில் முதல் படி, அதை ஒரு Pandas DataFrame இல் ஏற்றுவது. ஒரு கோப்பிலிருந்து தரவைப் படிப்பதன் மூலம் அல்லது தரவுத்தளத்தை வினவுவதன் மூலம் இதைச் செய்யலாம். இந்த செயல்முறையை எளிதாக்குவதற்கு `read_csv()`, `read_excel()` மற்றும் `read_sql()` போன்ற பல்வேறு செயல்பாடுகளை Pandas வழங்குகிறது. தரவு ஏற்றப்பட்டதும், அது அட்டவணை வடிவத்தில் சேமிக்கப்படும், இது கையாளுதல் மற்றும் பகுப்பாய்வு செய்வதை எளிதாக்குகிறது.
அடுத்த கட்டம் தரவு சுத்தம் ஆகும், இதில் காணாமல் போன மதிப்புகளைக் கையாளுதல், நகல்களை அகற்றுதல் மற்றும் அவுட்லையர்களைக் கையாளுதல் ஆகியவை அடங்கும். சராசரி கணக்கீடு அல்லது முன்னோக்கி/பின்னோக்கி நிரப்புதல் போன்ற நுட்பங்களைப் பயன்படுத்தி விடுபட்ட மதிப்புகளை நிரப்பலாம். `duplicated()` மற்றும் `drop_duplicates()` செயல்பாடுகளைப் பயன்படுத்தி நகல்களை அடையாளம் கண்டு அகற்றலாம். இசட்-ஸ்கோர் அல்லது இண்டர்குவார்டைல் ரேஞ்ச் (IQR) போன்ற புள்ளிவிவர முறைகளைப் பயன்படுத்தி அவுட்லையர்களைக் கண்டறியலாம் மற்றும் அவற்றை அகற்றுவதன் மூலம் அல்லது அவற்றை மிகவும் பொருத்தமான மதிப்புக்கு மாற்றுவதன் மூலம் கையாளலாம்.
தரவை சுத்தம் செய்த பிறகு, அடுத்த கட்டம் தரவு மாற்றம் ஆகும். வகைப்படுத்தப்பட்ட மாறிகளை எண் பிரதிநிதித்துவங்களாக மாற்றுதல், எண் மாறிகளை அளவிடுதல் மற்றும் புதிய அம்சங்களை உருவாக்குதல் ஆகியவை இதில் அடங்கும். ஒரு சூடான குறியாக்கம் அல்லது லேபிள் குறியாக்கம் போன்ற நுட்பங்களைப் பயன்படுத்தி வகைப்படுத்தப்பட்ட மாறிகள் மாற்றப்படலாம். தரநிலைப்படுத்தல் அல்லது இயல்பாக்கம் போன்ற நுட்பங்களைப் பயன்படுத்தி எண் மாறிகள் அளவிடப்படலாம். ஏற்கனவே உள்ள அம்சங்களை இணைப்பதன் மூலமோ அல்லது கணித செயல்பாடுகளைப் பயன்படுத்துவதன் மூலமோ புதிய அம்சங்களை உருவாக்க முடியும்.
இறுதியாக, தரவு பயிற்சி மற்றும் சோதனை தொகுப்புகளாக பிரிக்கப்பட வேண்டும். காணப்படாத தரவுகளில் பயிற்சியளிக்கப்பட்ட மாதிரியின் செயல்திறனை மதிப்பிடுவதற்காக இது செய்யப்படுகிறது. Pandas இல் உள்ள `train_test_split()` செயல்பாடு, குறிப்பிட்ட விகிதத்தின் அடிப்படையில் தரவை பயிற்சி மற்றும் சோதனைத் தொகுப்புகளாகப் பிரிக்கப் பயன்படுகிறது. இலக்கு மாறியின் பரவலைப் பாதுகாக்கும் வகையில் தரவு பிரிக்கப்படுவதை உறுதி செய்வது முக்கியம்.
சுருக்கமாக, பாண்டாஸ் நூலகத்தைப் பயன்படுத்தி ஒரு இயந்திரக் கற்றல் மாதிரியைப் பயிற்றுவிப்பதற்கான தரவைத் தயாரிப்பதில் ஈடுபட்டுள்ள படிகளில் தரவு ஏற்றுதல், தரவு சுத்தம் செய்தல், தரவு மாற்றம் மற்றும் தரவுப் பிரித்தல் ஆகியவை அடங்கும். மாதிரியைப் பயிற்றுவிப்பதற்கும் நம்பகமான முடிவுகளைப் பெறுவதற்கும் தரவு பொருத்தமான வடிவத்தில் இருப்பதை உறுதி செய்வதற்கு இந்தப் படிகள் அவசியம்.
தொடர்பான பிற சமீபத்திய கேள்விகள் மற்றும் பதில்கள் இயந்திர கற்றலில் முன்னேறுதல்:
- இயந்திர கற்றலில் பெரிய தரவுத்தொகுப்புகளுடன் பணிபுரிவதில் உள்ள வரம்புகள் என்ன?
- இயந்திர கற்றல் சில உரையாடல் உதவிகளை செய்ய முடியுமா?
- டென்சர்ஃப்ளோ விளையாட்டு மைதானம் என்றால் என்ன?
- TensorFlow இன் விநியோகிக்கப்பட்ட கம்ப்யூட்டிங் செயல்பாட்டை ஆர்வமுள்ள பயன்முறை தடுக்கிறதா?
- பெரிய தரவுகளுடன் கூடிய ML மாடலின் திறமையான பயிற்சிக்காக சேமிப்பகத்திலிருந்து கணினியை துண்டிக்க Google கிளவுட் தீர்வுகளைப் பயன்படுத்த முடியுமா?
- Google Cloud Machine Learning Engine (CMLE) தானியங்கு வளம் கையகப்படுத்துதல் மற்றும் உள்ளமைவு மற்றும் மாதிரியின் பயிற்சி முடிந்ததும் வளத்தை நிறுத்துவதைக் கையாள்கிறதா?
- எந்த விக்கல்களும் இல்லாமல் தன்னிச்சையாக பெரிய தரவுத் தொகுப்புகளில் இயந்திர கற்றல் மாதிரிகளைப் பயிற்றுவிக்க முடியுமா?
- CMLE ஐப் பயன்படுத்தும் போது, ஒரு பதிப்பை உருவாக்க, ஏற்றுமதி செய்யப்பட்ட மாதிரியின் மூலத்தைக் குறிப்பிட வேண்டுமா?
- கூகுள் கிளவுட் ஸ்டோரேஜ் தரவிலிருந்து CMLE படித்து, அனுமானத்திற்காக ஒரு குறிப்பிட்ட பயிற்சி பெற்ற மாதிரியைப் பயன்படுத்த முடியுமா?
- ஆழ்ந்த நரம்பியல் நெட்வொர்க்குகளின் (DNNs) பயிற்சி மற்றும் அனுமானத்திற்கு Tensorflow பயன்படுத்தப்படுமா?
மெஷின் லேர்னிங்கில் முன்னேறுவதில் மேலும் கேள்விகள் மற்றும் பதில்களைக் காண்க