
Premier pas vers l'apprentissage par renforcement avec l'IA physique
Description
Introduction au livre
Ce livre aborde les théories fondamentales de l'apprentissage par renforcement qui sont essentielles pour son application pratique.
L'objectif de cet ouvrage est de fournir une base solide pour des recherches approfondies à ceux qui poursuivent des études professionnelles en intelligence artificielle physique, et d'établir systématiquement des théories pour ceux qui possèdent une vaste expérience pratique.
Pour représenter visuellement le flux de la pensée, chaque élément de pensée a été classé, relié étape par étape et schématisé.
Cela vous permettra d'en faire l'expérience plutôt que d'en déduire la logique.
Par conséquent, ce livre s'apparente davantage à un livre d'images.
Nous avons réduit au minimum l'utilisation des mathématiques et n'avons utilisé que les mathématiques essentielles.
Les mathématiques utilisées dans l'apprentissage par renforcement servent principalement à représenter des situations plutôt qu'à effectuer des calculs.
En réalité, ces calculs peuvent être plus difficiles.
Les débutants pourraient trouver cela déroutant, notamment à cause des indices associés aux variables.
Chaque fois qu'un concept mathématique difficile ou complexe est présenté, nous l'expliquons et le clarifions fidèlement afin que même les débutants puissent facilement comprendre la théorie.
En rendant les exemples concrets, nous nous sommes assurés que ceux qui étudient ce livre comprendront non seulement la théorie, mais la ressentiront également.
L'objectif de cet ouvrage est de fournir une base solide pour des recherches approfondies à ceux qui poursuivent des études professionnelles en intelligence artificielle physique, et d'établir systématiquement des théories pour ceux qui possèdent une vaste expérience pratique.
Pour représenter visuellement le flux de la pensée, chaque élément de pensée a été classé, relié étape par étape et schématisé.
Cela vous permettra d'en faire l'expérience plutôt que d'en déduire la logique.
Par conséquent, ce livre s'apparente davantage à un livre d'images.
Nous avons réduit au minimum l'utilisation des mathématiques et n'avons utilisé que les mathématiques essentielles.
Les mathématiques utilisées dans l'apprentissage par renforcement servent principalement à représenter des situations plutôt qu'à effectuer des calculs.
En réalité, ces calculs peuvent être plus difficiles.
Les débutants pourraient trouver cela déroutant, notamment à cause des indices associés aux variables.
Chaque fois qu'un concept mathématique difficile ou complexe est présenté, nous l'expliquons et le clarifions fidèlement afin que même les débutants puissent facilement comprendre la théorie.
En rendant les exemples concrets, nous nous sommes assurés que ceux qui étudient ce livre comprendront non seulement la théorie, mais la ressentiront également.
indice
CHAPITRE 1.
Explorez l'apprentissage par renforcement
1.1 Objectif de l'apprentissage par renforcement
1.2 Éléments de l'apprentissage par renforcement
1.3 Processus séquentiel d'apprentissage par renforcement
1.4 Différenciation des méthodes d'apprentissage par renforcement
CHAPITRE 2.
Modélisation de l'apprentissage par renforcement
2.1 Modélisation de l'environnement MDP
2.2 Modélisation de l'apprentissage par renforcement des MDP
2.3 Classification des problèmes d'apprentissage par renforcement
2.4 Résumé et synthèse
CHAPITRE 3.
Équation de Bellman
3.1 Équation d'espérance de Bellman
3.2 Équation d'optimalité de Bellman
3.3 Résumé et synthèse
CHAPITRE 4.
Apprentissage par renforcement lorsque l'environnement est connu : planification
4.1 Apprentissage par renforcement basé sur un modèle
4.2 Évaluation itérative des politiques
4.3 Itération de politique
4.4 Itération de valeur
4.5 Résumé et synthèse
CHAPITRE 5.
Apprentissage par renforcement I : Prédiction en environnements inconnus
5.1 Méthode de Monte Carlo (MC)
5.2 Apprentissage épisodique basé sur les MC
5.3 Prédiction sans modèle
5.4 Analyse des techniques de prédiction
5.5 Résumé et synthèse
CHAPITRE 6.
Apprentissage par renforcement II : Contrôle en environnement inconnu
6.1 Apprentissage à l'aide de la fonction valeur d'action
6.2 Contrôle
6.3 Algorithme de contrôle
6.4 Recherche de chemin pour les robots autonomes
6.5 Code Python : Gridworld
6.5 Résumé et synthèse
CHAPITRE 7.
approximation environnementale
7.1 La nécessité d'une approximation environnementale
7.2 Fonctions d'approximation environnementale
7.3 Réseau neuronal
CHAPITRE 8.
Apprentissage par renforcement basé sur les valeurs
8.1 Classification des agents
8.2 Apprendre le réseau de valeur
8.3 Réseau Q profond (DQN)
8.4 Code Python : Cartpole
8.5 Résumé et synthèse
CHAPITRE 9.
Apprentissage par renforcement basé sur des politiques
9.1 Politique déterministe et politique stochastique
9.2 Apprentissage par les réseaux de politiques publiques
9.3 Acteur-Critique
9.4 Implémentation du code Python : Cartpole
9.5 Résumé et synthèse
Explorez l'apprentissage par renforcement
1.1 Objectif de l'apprentissage par renforcement
1.2 Éléments de l'apprentissage par renforcement
1.3 Processus séquentiel d'apprentissage par renforcement
1.4 Différenciation des méthodes d'apprentissage par renforcement
CHAPITRE 2.
Modélisation de l'apprentissage par renforcement
2.1 Modélisation de l'environnement MDP
2.2 Modélisation de l'apprentissage par renforcement des MDP
2.3 Classification des problèmes d'apprentissage par renforcement
2.4 Résumé et synthèse
CHAPITRE 3.
Équation de Bellman
3.1 Équation d'espérance de Bellman
3.2 Équation d'optimalité de Bellman
3.3 Résumé et synthèse
CHAPITRE 4.
Apprentissage par renforcement lorsque l'environnement est connu : planification
4.1 Apprentissage par renforcement basé sur un modèle
4.2 Évaluation itérative des politiques
4.3 Itération de politique
4.4 Itération de valeur
4.5 Résumé et synthèse
CHAPITRE 5.
Apprentissage par renforcement I : Prédiction en environnements inconnus
5.1 Méthode de Monte Carlo (MC)
5.2 Apprentissage épisodique basé sur les MC
5.3 Prédiction sans modèle
5.4 Analyse des techniques de prédiction
5.5 Résumé et synthèse
CHAPITRE 6.
Apprentissage par renforcement II : Contrôle en environnement inconnu
6.1 Apprentissage à l'aide de la fonction valeur d'action
6.2 Contrôle
6.3 Algorithme de contrôle
6.4 Recherche de chemin pour les robots autonomes
6.5 Code Python : Gridworld
6.5 Résumé et synthèse
CHAPITRE 7.
approximation environnementale
7.1 La nécessité d'une approximation environnementale
7.2 Fonctions d'approximation environnementale
7.3 Réseau neuronal
CHAPITRE 8.
Apprentissage par renforcement basé sur les valeurs
8.1 Classification des agents
8.2 Apprendre le réseau de valeur
8.3 Réseau Q profond (DQN)
8.4 Code Python : Cartpole
8.5 Résumé et synthèse
CHAPITRE 9.
Apprentissage par renforcement basé sur des politiques
9.1 Politique déterministe et politique stochastique
9.2 Apprentissage par les réseaux de politiques publiques
9.3 Acteur-Critique
9.4 Implémentation du code Python : Cartpole
9.5 Résumé et synthèse
SPÉCIFICATIONS DES PRODUITS
- Date d'émission : 10 septembre 2025
- Nombre de pages, poids, dimensions : 238 pages | 175 × 235 × 20 mm
- ISBN13 : 9791194907039
- ISBN10 : 1194907032
Vous aimerez peut-être aussi
카테고리
Langue coréenne
Langue coréenne