TensorFlow Keras Tokenizer APIஐ அடிக்கடி வார்த்தைகளைக் கண்டறிய பயன்படுத்த முடியுமா?

by அங்கார்ப் / ஞாயிற்றுக்கிழமை, 14 ஏப்ரல் 2024 / வெளியிடப்பட்ட செயற்கை நுண்ணறிவு, EITC/AI/TFF டென்சர்ஃப்ளோ அடிப்படைகள், டென்சர்ஃப்ளோவுடன் இயற்கை மொழி செயலாக்கம், டோக்கனைசேஷன்

TensorFlow Keras Tokenizer API ஆனது உரையின் கார்பஸில் அடிக்கடி வரும் சொற்களைக் கண்டறியப் பயன்படுத்தப்படலாம். டோக்கனைசேஷன் என்பது இயற்கை மொழி செயலாக்கத்தில் (NLP) ஒரு அடிப்படை படியாகும், இது மேலும் செயலாக்கத்தை எளிதாக்குவதற்கு உரையை சிறிய அலகுகளாக, பொதுவாக சொற்கள் அல்லது துணை வார்த்தைகளாக உடைப்பதை உள்ளடக்குகிறது. டென்சர்ஃப்ளோவில் உள்ள டோக்கனைசர் ஏபிஐ, டெக்ஸ்ட் டேட்டாவை திறம்பட டோக்கனைசேஷன் செய்ய அனுமதிக்கிறது, வார்த்தைகளின் அதிர்வெண்ணைக் கணக்கிடுவது போன்ற பணிகளைச் செய்கிறது.

TensorFlow Keras Tokenizer API ஐப் பயன்படுத்தி அடிக்கடி வரும் வார்த்தைகளைக் கண்டறிய, நீங்கள் இந்தப் படிகளைப் பின்பற்றலாம்:

1. டோக்கனைசேஷன்: Tokenizer API ஐப் பயன்படுத்தி உரைத் தரவை டோக்கனைஸ் செய்வதன் மூலம் தொடங்கவும். நீங்கள் டோக்கனைசரின் உதாரணத்தை உருவாக்கி, தரவுகளில் உள்ள சொற்களின் சொற்களஞ்சியத்தை உருவாக்க உரை கார்பஸில் பொருத்தலாம்.

python
from tensorflow.keras.preprocessing.text import Tokenizer

# Sample text data
texts = ['hello world', 'world of tensorflow', 'hello tensorflow']

# Create Tokenizer instance
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)

2. வார்த்தை அட்டவணை: டோக்கனைசரில் இருந்து குறியீட்டு வார்த்தையை மீட்டெடுக்கவும், இது ஒவ்வொரு வார்த்தையையும் கார்பஸில் அதன் அதிர்வெண்ணின் அடிப்படையில் ஒரு தனித்துவமான முழு எண்ணாக வரைபடமாக்குகிறது.

python
word_index = tokenizer.word_index

3. வார்த்தைகளின் எண்ணிக்கை: டோக்கனைசரின் `word_counts` பண்புக்கூறைப் பயன்படுத்தி டெக்ஸ்ட் கார்பஸில் உள்ள ஒவ்வொரு வார்த்தையின் அதிர்வெண்ணையும் கணக்கிடுங்கள்.

python
word_counts = tokenizer.word_counts

4. வரிசையாக்க: அடிக்கடி வரும் சொற்களை அடையாளம் காண வார்த்தை எண்ணிக்கையை இறங்கு வரிசையில் வரிசைப்படுத்தவும்.

python
sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)

5. அடிக்கடி வரும் சொற்களைக் காட்டுகிறது: வரிசைப்படுத்தப்பட்ட வார்த்தைகளின் எண்ணிக்கையின் அடிப்படையில் மேல் N அடிக்கடி வரும் வார்த்தைகளைக் காட்டவும்.

python
top_n = 5
most_frequent_words = [(word, count) for word, count in sorted_word_counts[:top_n]]
print(most_frequent_words)

இந்தப் படிகளைப் பின்பற்றுவதன் மூலம், TensorFlow Keras Tokenizer APIஐப் பயன்படுத்தி, டெக்ஸ்ட் கார்பஸில் அடிக்கடி வரும் சொற்களைக் கண்டறியலாம். உரை பகுப்பாய்வு, மொழி மாதிரியாக்கம் மற்றும் தகவல் மீட்டெடுப்பு உள்ளிட்ட பல்வேறு NLP பணிகளுக்கு இந்த செயல்முறை அவசியம்.

TensorFlow Keras Tokenizer API ஆனது, டோக்கனைசேஷன், வார்த்தை அட்டவணைப்படுத்தல், எண்ணுதல், வரிசைப்படுத்துதல் மற்றும் காட்சிப் படிகள் மூலம் டெக்ஸ்ட் கார்பஸில் அடிக்கடி வரும் வார்த்தைகளை அடையாளம் காண திறம்படப் பயன்படுத்தப்படலாம். இந்த அணுகுமுறை தரவுக்குள் வார்த்தைகளின் விநியோகம் பற்றிய மதிப்புமிக்க நுண்ணறிவுகளை வழங்குகிறது, மேலும் NLP பயன்பாடுகளில் மேலும் பகுப்பாய்வு மற்றும் மாதிரியாக்கத்தை செயல்படுத்துகிறது.

தொடர்பான பிற சமீபத்திய கேள்விகள் மற்றும் பதில்கள் EITC/AI/TFF டென்சர்ஃப்ளோ அடிப்படைகள்:

EITC/AI/TFF TensorFlow Fundamentals இல் கூடுதல் கேள்விகள் மற்றும் பதில்களைக் காண்க

மேலும் கேள்விகள் மற்றும் பதில்கள்:

குறித்துள்ளார்: செயற்கை நுண்ணறிவு, ஆணுக்கு, TensorFlow, உரை பகுப்பாய்வு, டோக்கனைசர் ஏபிஐ, வார்த்தை அதிர்வெண்

EITCA அகாடமி

TensorFlow Keras Tokenizer APIஐ அடிக்கடி வார்த்தைகளைக் கண்டறிய பயன்படுத்த முடியுமா?

தொடர்பான பிற சமீபத்திய கேள்விகள் மற்றும் பதில்கள் EITC/AI/TFF டென்சர்ஃப்ளோ அடிப்படைகள்:

மேலும் கேள்விகள் மற்றும் பதில்கள்:

EITCA அகாடமி என்பது ஐரோப்பிய தகவல் தொழில்நுட்ப சான்றிதழ் கட்டமைப்பின் ஒரு பகுதியாகும்

EITCA அகாடமியின் தகுதி 80% EITCI DSJC மானிய ஆதரவு

EITCA அகாடமி

உங்கள் பயனர்பெயர் அல்லது மின்னஞ்சல் முகவரி மூலம் உங்கள் கணக்கிற்கு உள்நுழைக

உங்கள் விவரங்களைத் மறந்துவிட்டதா?

ஒரு கணக்கை உருவாக்க

TensorFlow Keras Tokenizer APIஐ அடிக்கடி வார்த்தைகளைக் கண்டறிய பயன்படுத்த முடியுமா?

தொடர்பான பிற சமீபத்திய கேள்விகள் மற்றும் பதில்கள் EITC/AI/TFF டென்சர்ஃப்ளோ அடிப்படைகள்:

மேலும் கேள்விகள் மற்றும் பதில்கள்:

EITCA அகாடமியின் தகுதி 80% EITCI DSJC மானிய ஆதரவு