TensorFlow Keras Tokenizer API ஆனது உரையின் கார்பஸில் அடிக்கடி வரும் சொற்களைக் கண்டறியப் பயன்படுத்தப்படலாம். டோக்கனைசேஷன் என்பது இயற்கை மொழி செயலாக்கத்தில் (NLP) ஒரு அடிப்படை படியாகும், இது மேலும் செயலாக்கத்தை எளிதாக்குவதற்கு உரையை சிறிய அலகுகளாக, பொதுவாக சொற்கள் அல்லது துணை வார்த்தைகளாக உடைப்பதை உள்ளடக்குகிறது. டென்சர்ஃப்ளோவில் உள்ள டோக்கனைசர் ஏபிஐ, டெக்ஸ்ட் டேட்டாவை திறம்பட டோக்கனைசேஷன் செய்ய அனுமதிக்கிறது, வார்த்தைகளின் அதிர்வெண்ணைக் கணக்கிடுவது போன்ற பணிகளைச் செய்கிறது.
TensorFlow Keras Tokenizer API ஐப் பயன்படுத்தி அடிக்கடி வரும் வார்த்தைகளைக் கண்டறிய, நீங்கள் இந்தப் படிகளைப் பின்பற்றலாம்:
1. டோக்கனைசேஷன்: Tokenizer API ஐப் பயன்படுத்தி உரைத் தரவை டோக்கனைஸ் செய்வதன் மூலம் தொடங்கவும். நீங்கள் டோக்கனைசரின் உதாரணத்தை உருவாக்கி, தரவுகளில் உள்ள சொற்களின் சொற்களஞ்சியத்தை உருவாக்க உரை கார்பஸில் பொருத்தலாம்.
python from tensorflow.keras.preprocessing.text import Tokenizer # Sample text data texts = ['hello world', 'world of tensorflow', 'hello tensorflow'] # Create Tokenizer instance tokenizer = Tokenizer() tokenizer.fit_on_texts(texts)
2. வார்த்தை அட்டவணை: டோக்கனைசரில் இருந்து குறியீட்டு வார்த்தையை மீட்டெடுக்கவும், இது ஒவ்வொரு வார்த்தையையும் கார்பஸில் அதன் அதிர்வெண்ணின் அடிப்படையில் ஒரு தனித்துவமான முழு எண்ணாக வரைபடமாக்குகிறது.
python word_index = tokenizer.word_index
3. வார்த்தைகளின் எண்ணிக்கை: டோக்கனைசரின் `word_counts` பண்புக்கூறைப் பயன்படுத்தி டெக்ஸ்ட் கார்பஸில் உள்ள ஒவ்வொரு வார்த்தையின் அதிர்வெண்ணையும் கணக்கிடுங்கள்.
python word_counts = tokenizer.word_counts
4. வரிசையாக்க: அடிக்கடி வரும் சொற்களை அடையாளம் காண வார்த்தை எண்ணிக்கையை இறங்கு வரிசையில் வரிசைப்படுத்தவும்.
python sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
5. அடிக்கடி வரும் சொற்களைக் காட்டுகிறது: வரிசைப்படுத்தப்பட்ட வார்த்தைகளின் எண்ணிக்கையின் அடிப்படையில் மேல் N அடிக்கடி வரும் வார்த்தைகளைக் காட்டவும்.
python top_n = 5 most_frequent_words = [(word, count) for word, count in sorted_word_counts[:top_n]] print(most_frequent_words)
இந்தப் படிகளைப் பின்பற்றுவதன் மூலம், TensorFlow Keras Tokenizer APIஐப் பயன்படுத்தி, டெக்ஸ்ட் கார்பஸில் அடிக்கடி வரும் சொற்களைக் கண்டறியலாம். உரை பகுப்பாய்வு, மொழி மாதிரியாக்கம் மற்றும் தகவல் மீட்டெடுப்பு உள்ளிட்ட பல்வேறு NLP பணிகளுக்கு இந்த செயல்முறை அவசியம்.
TensorFlow Keras Tokenizer API ஆனது, டோக்கனைசேஷன், வார்த்தை அட்டவணைப்படுத்தல், எண்ணுதல், வரிசைப்படுத்துதல் மற்றும் காட்சிப் படிகள் மூலம் டெக்ஸ்ட் கார்பஸில் அடிக்கடி வரும் வார்த்தைகளை அடையாளம் காண திறம்படப் பயன்படுத்தப்படலாம். இந்த அணுகுமுறை தரவுக்குள் வார்த்தைகளின் விநியோகம் பற்றிய மதிப்புமிக்க நுண்ணறிவுகளை வழங்குகிறது, மேலும் NLP பயன்பாடுகளில் மேலும் பகுப்பாய்வு மற்றும் மாதிரியாக்கத்தை செயல்படுத்துகிறது.
தொடர்பான பிற சமீபத்திய கேள்விகள் மற்றும் பதில்கள் EITC/AI/TFF டென்சர்ஃப்ளோ அடிப்படைகள்:
- திசையன்களாக வார்த்தைகளை பிரதிநிதித்துவப்படுத்துவதற்கு சரியான அச்சுகளை தானாக ஒதுக்க உட்பொதித்தல் அடுக்கை எவ்வாறு பயன்படுத்தலாம்?
- CNNல் அதிகபட்சமாக பூலிங் செய்வதன் நோக்கம் என்ன?
- கன்வல்யூஷனல் நியூரல் நெட்வொர்க்கில் (சிஎன்என்) அம்சம் பிரித்தெடுத்தல் செயல்முறை பட அங்கீகாரத்திற்கு எவ்வாறு பயன்படுத்தப்படுகிறது?
- TensorFlow.js இல் இயங்கும் இயந்திர கற்றல் மாதிரிகளுக்கு ஒத்திசைவற்ற கற்றல் செயல்பாட்டைப் பயன்படுத்துவது அவசியமா?
- TensorFlow Keras Tokenizer API அதிகபட்ச சொற்களின் அளவுரு என்ன?
- TOCO என்றால் என்ன?
- இயந்திரக் கற்றல் மாதிரியில் உள்ள பல சகாப்தங்களுக்கும் மாதிரியை இயக்குவதிலிருந்து கணிப்பதன் துல்லியத்திற்கும் என்ன தொடர்பு?
- டென்சர்ஃப்ளோவின் நியூரல் ஸ்ட்ரக்ச்சர்டு லேர்னிங்கில் உள்ள பேக் அண்டை நாடுகளின் ஏபிஐ, இயற்கையான வரைபடத் தரவின் அடிப்படையில் ஆக்மென்டட் பயிற்சி தரவுத்தொகுப்பை உருவாக்குகிறதா?
- டென்சர்ஃப்ளோவின் நரம்பியல் கட்டமைக்கப்பட்ட கற்றலில் பேக் அண்டை நாடுகளின் API என்றால் என்ன?
- இயற்கையான வரைபடம் இல்லாத தரவுகளுடன் நரம்பியல் கட்டமைக்கப்பட்ட கற்றலைப் பயன்படுத்த முடியுமா?
EITC/AI/TFF TensorFlow Fundamentals இல் கூடுதல் கேள்விகள் மற்றும் பதில்களைக் காண்க