EITC/AI/ARL மேம்பட்ட வலுவூட்டல் கற்றல் என்பது செயற்கை நுண்ணறிவில் வலுவூட்டல் கற்றலுக்கான DeepMind இன் அணுகுமுறையின் ஐரோப்பிய IT சான்றிதழ் திட்டமாகும்.
EITC/AI/ARL மேம்பட்ட வலுவூட்டல் கற்றலின் பாடத்திட்டமானது, இந்த EITC சான்றிதழுக்கான மேற்கோளாக விரிவான வீடியோ செயற்கையான உள்ளடக்கத்தை உள்ளடக்கி, பின்வரும் கட்டமைப்பிற்குள் ஒழுங்கமைக்கப்பட்ட DeepMind கண்ணோட்டத்தில் வலுவூட்டல் கற்றல் நுட்பங்களில் கோட்பாட்டு அம்சங்கள் மற்றும் நடைமுறை திறன்கள் மீது கவனம் செலுத்துகிறது.
வலுவூட்டல் கற்றல் (ஆர்.எல்) என்பது இயந்திரக் கற்றலின் ஒரு பகுதியாகும், இது ஒட்டுமொத்த வெகுமதி என்ற கருத்தை அதிகரிக்க புத்திசாலித்தனமான முகவர்கள் ஒரு சூழலில் எவ்வாறு நடவடிக்கை எடுக்க வேண்டும் என்பதில் அக்கறை கொண்டுள்ளது. மேற்பார்வை செய்யப்பட்ட கற்றல் மற்றும் மேற்பார்வை செய்யப்படாத கற்றல் ஆகியவற்றுடன் வலுவூட்டல் கற்றல் மூன்று அடிப்படை இயந்திர கற்றல் முன்மாதிரிகளில் ஒன்றாகும்.
பெயரிடப்பட்ட உள்ளீடு/வெளியீட்டு ஜோடிகள் வழங்கப்பட வேண்டிய அவசியத்தில் மேற்பார்வையிடப்பட்ட கற்றலிலிருந்து வலுவூட்டல் கற்றல் வேறுபடுகிறது, மேலும் வெளிப்படையாக சரிசெய்ய துணை உகந்த செயல்கள் தேவையில்லை. அதற்கு பதிலாக, ஆய்வு (பெயரிடப்படாத பிரதேசத்தின்) மற்றும் சுரண்டல் (தற்போதைய அறிவின்) இடையே சமநிலையைக் கண்டறிவதில் கவனம் செலுத்தப்படுகிறது.
சூழல் பொதுவாக மார்கோவ் முடிவு செயல்முறை (எம்.டி.பி) வடிவத்தில் கூறப்படுகிறது, ஏனெனில் இந்த சூழலுக்கான பல வலுவூட்டல் கற்றல் வழிமுறைகள் டைனமிக் நிரலாக்க நுட்பங்களைப் பயன்படுத்துகின்றன. கிளாசிக்கல் டைனமிக் புரோகிராமிங் முறைகள் மற்றும் வலுவூட்டல் கற்றல் வழிமுறைகளுக்கு இடையிலான முக்கிய வேறுபாடு என்னவென்றால், பிந்தையவர்கள் MDP இன் சரியான கணித மாதிரியைப் பற்றிய அறிவைப் பெறுவதில்லை, மேலும் அவை பெரிய MDP களைக் குறிவைக்கின்றன, அங்கு சரியான முறைகள் அணுக முடியாதவை.
அதன் பொதுவான தன்மை காரணமாக, விளையாட்டுக் கோட்பாடு, கட்டுப்பாட்டுக் கோட்பாடு, செயல்பாட்டு ஆராய்ச்சி, தகவல் கோட்பாடு, உருவகப்படுத்துதல் அடிப்படையிலான தேர்வுமுறை, பல-முகவர் அமைப்புகள், திரள் நுண்ணறிவு மற்றும் புள்ளிவிவரங்கள் போன்ற பல பிரிவுகளில் வலுவூட்டல் கற்றல் ஆய்வு செய்யப்படுகிறது. செயல்பாட்டு ஆராய்ச்சி மற்றும் கட்டுப்பாட்டு இலக்கியங்களில், வலுவூட்டல் கற்றல் தோராயமான டைனமிக் நிரலாக்க அல்லது நியூரோ-டைனமிக் நிரலாக்க என அழைக்கப்படுகிறது. வலுவூட்டல் கற்றலில் ஆர்வத்தின் சிக்கல்கள் உகந்த கட்டுப்பாட்டுக் கோட்பாட்டிலும் ஆய்வு செய்யப்பட்டுள்ளன, இது பெரும்பாலும் உகந்த தீர்வுகளின் இருப்பு மற்றும் தன்மை மற்றும் அவற்றின் துல்லியமான கணக்கீட்டிற்கான வழிமுறைகள் மற்றும் கற்றல் அல்லது தோராயத்துடன் குறைவாகவே அக்கறை கொண்டுள்ளது, குறிப்பாக இல்லாத நிலையில் சூழலின் கணித மாதிரி. பொருளாதாரம் மற்றும் விளையாட்டுக் கோட்பாட்டில், வரம்புக்குட்பட்ட பகுத்தறிவின் கீழ் சமநிலை எவ்வாறு ஏற்படக்கூடும் என்பதை விளக்க வலுவூட்டல் கற்றல் பயன்படுத்தப்படலாம்.
அடிப்படை வலுவூட்டல் ஒரு மார்கோவ் முடிவு செயல்முறை (MDP) என வடிவமைக்கப்பட்டுள்ளது. கணிதத்தில், ஒரு மார்கோவ் முடிவு செயல்முறை (எம்.டி.பி) என்பது ஒரு தனித்துவமான நேர ஒத்திசைவு கட்டுப்பாட்டு செயல்முறையாகும். முடிவுகள் ஓரளவு சீரற்றதாகவும், முடிவெடுப்பவரின் கட்டுப்பாட்டின் கீழ் இருக்கும் சூழ்நிலைகளிலும் மாடலிங் முடிவெடுப்பதற்கான கணித கட்டமைப்பை இது வழங்குகிறது. டைனமிக் புரோகிராமிங் மூலம் தீர்க்கப்படும் தேர்வுமுறை சிக்கல்களைப் படிக்க MDP கள் பயனுள்ளதாக இருக்கும். MDP கள் 1950 களின் முற்பகுதியில் அறியப்பட்டன. ரொனால்ட் ஹோவர்டின் 1960 ஆம் ஆண்டு புத்தகம், டைனமிக் புரோகிராமிங் மற்றும் மார்கோவ் செயல்முறைகள் ஆகியவற்றின் விளைவாக மார்கோவ் முடிவு செயல்முறைகள் குறித்த ஒரு முக்கிய ஆய்வு அமைப்பு. ரோபாட்டிக்ஸ், தானியங்கி கட்டுப்பாடு, பொருளாதாரம் மற்றும் உற்பத்தி உள்ளிட்ட பல பிரிவுகளில் அவை பயன்படுத்தப்படுகின்றன. MDP களின் பெயர் ரஷ்ய கணிதவியலாளர் ஆண்ட்ரி மார்கோவிலிருந்து வந்தது, ஏனெனில் அவை மார்கோவ் சங்கிலிகளின் நீட்டிப்பு.
ஒவ்வொரு கால கட்டத்திலும், செயல்முறை சில மாநில எஸ் இல் உள்ளது, மேலும் முடிவெடுப்பவர் மாநிலத்தில் கிடைக்கக்கூடிய எந்தவொரு செயலையும் தேர்வு செய்யலாம். இந்த செயல்முறை அடுத்த முறை படிப்படியாக ஒரு புதிய மாநில எஸ்-க்கு தோராயமாக நகர்ந்து பதிலளிப்பதன் மூலம் பதிலளிக்கிறது. முடிவெடுப்பவர் தொடர்புடைய வெகுமதி ரா (எஸ், எஸ் ').
செயல்முறை அதன் புதிய நிலை S 'க்கு நகரும் நிகழ்தகவு தேர்ந்தெடுக்கப்பட்ட செயலால் பாதிக்கப்படுகிறது a. குறிப்பாக, இது மாநில மாற்றம் செயல்பாடு Pa (S, S ') ஆல் வழங்கப்படுகிறது. எனவே, அடுத்த மாநில எஸ் 'தற்போதைய நிலை எஸ் மற்றும் முடிவெடுப்பவரின் நடவடிக்கை ஆகியவற்றைப் பொறுத்தது. ஆனால் S மற்றும் a கொடுக்கப்பட்டால், இது முந்தைய எல்லா மாநிலங்களிலிருந்தும் செயல்களிலிருந்தும் நிபந்தனையுடன் சுயாதீனமாக இருக்கும். வேறு வார்த்தைகளில் கூறுவதானால், ஒரு MDP இன் மாநில மாற்றங்கள் மார்கோவ் சொத்தை திருப்திப்படுத்துகின்றன.
மார்கோவ் முடிவு செயல்முறைகள் மார்கோவ் சங்கிலிகளின் நீட்டிப்பு; வேறுபாடு என்பது செயல்களைச் சேர்ப்பது (தேர்வை அனுமதிப்பது) மற்றும் வெகுமதிகள் (உந்துதல் கொடுப்பது). மாறாக, ஒவ்வொரு மாநிலத்திற்கும் ஒரே ஒரு செயல் இருந்தால் (எ.கா. “காத்திரு”) மற்றும் அனைத்து வெகுமதிகளும் ஒரே மாதிரியாக இருந்தால் (எ.கா. “பூஜ்ஜியம்”), ஒரு மார்கோவ் முடிவு செயல்முறை ஒரு மார்கோவ் சங்கிலியாக குறைகிறது.
ஒரு வலுவூட்டல் கற்றல் முகவர் அதன் சூழலுடன் தனித்துவமான நேர படிகளில் தொடர்பு கொள்கிறது. ஒவ்வொரு முறையும் t, முகவர் தற்போதைய நிலை S (t) மற்றும் வெகுமதி r (t) ஐப் பெறுகிறார். பின்னர் அது கிடைக்கக்கூடிய செயல்களின் தொகுப்பிலிருந்து ஒரு செயலை (டி) தேர்வுசெய்கிறது, பின்னர் அது சுற்றுச்சூழலுக்கு அனுப்பப்படுகிறது. சூழல் ஒரு புதிய நிலைக்கு S (t + 1) நகர்கிறது மற்றும் மாற்றத்துடன் தொடர்புடைய வெகுமதி r (t + 1) தீர்மானிக்கப்படுகிறது. வலுவூட்டல் கற்றல் முகவரின் குறிக்கோள், எதிர்பார்க்கப்படும் ஒட்டுமொத்த வெகுமதியை அதிகரிக்கும் கொள்கையைக் கற்றுக்கொள்வதாகும்.
ஒரு எம்.டி.பி என சிக்கலை உருவாக்குவது முகவர் தற்போதைய சுற்றுச்சூழல் நிலையை நேரடியாக கவனிக்கிறது என்று கருதுகிறது. இந்த வழக்கில் சிக்கல் முழு கவனிக்கத்தக்கதாகக் கூறப்படுகிறது. முகவருக்கு மாநிலங்களின் துணைக்குழுவுக்கு மட்டுமே அணுகல் இருந்தால், அல்லது கவனிக்கப்பட்ட மாநிலங்கள் சத்தத்தால் சிதைந்துவிட்டால், முகவர் பகுதியளவு கவனிக்கத்தக்கதாகக் கூறப்படுகிறது, மேலும் முறையாக சிக்கலை ஓரளவு கவனிக்கக்கூடிய மார்கோவ் முடிவு செயல்முறையாக வடிவமைக்க வேண்டும். இரண்டு சந்தர்ப்பங்களிலும், முகவருக்குக் கிடைக்கும் செயல்களின் தொகுப்பைக் கட்டுப்படுத்தலாம். எடுத்துக்காட்டாக, கணக்கு இருப்பு நிலையை நேர்மறையாகக் கட்டுப்படுத்தலாம்; மாநிலத்தின் தற்போதைய மதிப்பு 3 ஆகவும், மாநில மாற்றம் மதிப்பை 4 ஆகக் குறைக்க முயற்சித்தால், மாற்றம் அனுமதிக்கப்படாது.
முகவரின் செயல்திறன் உகந்ததாக செயல்படும் ஒரு முகவருடன் ஒப்பிடும்போது, செயல்திறனில் உள்ள வேறுபாடு வருத்தத்தின் கருத்துக்கு வழிவகுக்கிறது. உகந்ததாக செயல்பட, முகவர் அதன் செயல்களின் நீண்டகால விளைவுகளைப் பற்றி நியாயப்படுத்த வேண்டும் (அதாவது, எதிர்கால வருமானத்தை அதிகப்படுத்துதல்), இருப்பினும் இது தொடர்பான உடனடி வெகுமதி எதிர்மறையாக இருக்கலாம்.
எனவே, வலுவூட்டல் கற்றல் குறிப்பாக நீண்டகால மற்றும் குறுகிய கால வெகுமதி வர்த்தகத்தை உள்ளடக்கிய சிக்கல்களுக்கு மிகவும் பொருத்தமானது. ரோபோ கட்டுப்பாடு, லிஃப்ட் திட்டமிடல், தொலைத்தொடர்பு, பேக்கமன், செக்கர்ஸ் மற்றும் கோ (ஆல்பாகோ) உள்ளிட்ட பல்வேறு சிக்கல்களுக்கு இது வெற்றிகரமாக பயன்படுத்தப்பட்டுள்ளது.
இரண்டு கூறுகள் வலுவூட்டல் கற்றலை சக்திவாய்ந்ததாக ஆக்குகின்றன: செயல்திறனை மேம்படுத்த மாதிரிகளின் பயன்பாடு மற்றும் பெரிய சூழல்களைக் கையாள செயல்பாட்டு தோராயத்தைப் பயன்படுத்துதல். இந்த இரண்டு முக்கிய கூறுகளுக்கு நன்றி, வலுவூட்டல் கற்றல் பின்வரும் சூழ்நிலைகளில் பெரிய சூழல்களில் பயன்படுத்தப்படலாம்:
- சூழலின் ஒரு மாதிரி அறியப்படுகிறது, ஆனால் ஒரு பகுப்பாய்வு தீர்வு கிடைக்கவில்லை.
- சூழலின் உருவகப்படுத்துதல் மாதிரி மட்டுமே வழங்கப்படுகிறது (உருவகப்படுத்துதல் அடிப்படையிலான தேர்வுமுறை பொருள்).
- சூழலைப் பற்றிய தகவல்களைச் சேகரிப்பதற்கான ஒரே வழி, அதனுடன் தொடர்புகொள்வதுதான்.
இந்த சிக்கல்களில் முதல் இரண்டு திட்டமிடல் சிக்கல்களாக கருதப்படலாம் (சில வகையான மாதிரி இருப்பதால்), கடைசியாக ஒரு உண்மையான கற்றல் சிக்கலாக கருதப்படலாம். இருப்பினும், வலுவூட்டல் கற்றல் இரண்டு திட்டமிடல் சிக்கல்களையும் இயந்திர கற்றல் சிக்கல்களாக மாற்றுகிறது.
ஆய்வு மற்றும் சுரண்டல் வர்த்தகம் பல ஆயுதக் கொள்ளைப் பிரச்சினை மற்றும் பர்னெட்டாஸ் மற்றும் கேடேகிஸ் (1997) ஆகியவற்றில் வரையறுக்கப்பட்ட மாநில விண்வெளி எம்.டி.பி.
வலுவூட்டல் கற்றலுக்கு புத்திசாலித்தனமான ஆய்வு வழிமுறைகள் தேவை; தோராயமாக செயல்களைத் தேர்ந்தெடுப்பது, மதிப்பிடப்பட்ட நிகழ்தகவு விநியோகத்தைக் குறிப்பிடாமல், மோசமான செயல்திறனைக் காட்டுகிறது. (சிறிய) வரையறுக்கப்பட்ட மார்கோவ் முடிவு செயல்முறைகளின் வழக்கு ஒப்பீட்டளவில் நன்கு புரிந்து கொள்ளப்படுகிறது. இருப்பினும், மாநிலங்களின் எண்ணிக்கையுடன் (அல்லது எல்லையற்ற மாநில இடைவெளிகளில் உள்ள சிக்கல்களுக்கு அளவிடக்கூடிய) வழிமுறைகளின் பற்றாக்குறை காரணமாக, எளிய ஆய்வு முறைகள் மிகவும் நடைமுறைக்குரியவை.
ஆய்வுப் பிரச்சினை புறக்கணிக்கப்பட்டாலும், அரசு கவனிக்கத்தக்கதாக இருந்தாலும் கூட, எந்தச் செயல்கள் அதிக ஒட்டுமொத்த வெகுமதிகளுக்கு இட்டுச் செல்கின்றன என்பதைக் கண்டறிய கடந்த கால அனுபவத்தைப் பயன்படுத்துவதில் சிக்கல் உள்ளது.
சான்றிதழ் பாடத்திட்டத்துடன் உங்களைப் பற்றி விரிவாக அறிந்துகொள்ள, கீழே உள்ள அட்டவணையை விரிவுபடுத்தி பகுப்பாய்வு செய்யலாம்.
EITC/AI/ARL மேம்பட்ட வலுவூட்டல் கற்றல் சான்றிதழ் பாடத்திட்டம் வீடியோ வடிவத்தில் திறந்த அணுகல் செயற்கையான பொருட்களைக் குறிப்பிடுகிறது. கற்றல் செயல்முறை ஒரு படிப்படியான கட்டமைப்பாக (நிரல்கள் -> பாடங்கள் -> தலைப்புகள்) தொடர்புடைய பாடத்திட்ட பகுதிகளை உள்ளடக்கியது. டொமைன் நிபுணர்களுடன் வரம்பற்ற ஆலோசனையும் வழங்கப்படுகிறது.
சான்றிதழின் செயல்முறை பற்றிய விவரங்களுக்கு சரிபார்க்கவும் எப்படி இது செயல்படுகிறது.
பாடத்திட்ட குறிப்பு வளங்கள்
ஆழமான வலுவூட்டல் கற்றல் வெளியீடு மூலம் மனித நிலை கட்டுப்பாடு
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
யு.சி. பெர்க்லியில் ஆழமான வலுவூட்டல் கற்றல் குறித்த திறந்த அணுகல் படிப்பு
http://rail.eecs.berkeley.edu/deeprlcourse/
மேனிஃபோல்ட்.ஐயிலிருந்து கே-அம்பட் கொள்ளை சிக்கலுக்கு ஆர்.எல்
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL மேம்பட்ட வலுவூட்டல் கற்றல் திட்டத்திற்கான முழுமையான ஆஃப்லைன் சுய-கற்றல் தயாரிப்பு பொருட்களை PDF கோப்பில் பதிவிறக்கவும்
EITC/AI/ARL தயாரிப்பு பொருட்கள் - நிலையான பதிப்பு
EITC/AI/ARL தயாரிப்புப் பொருட்கள் - மறுஆய்வுக் கேள்விகளுடன் விரிவாக்கப்பட்ட பதிப்பு