本書對增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的理論、算法及應(yīng)用進(jìn)行了深入研究和論述。主要內(nèi)容包括:求解Markov鏈學(xué)習(xí)預(yù)測問題的時域差值學(xué)習(xí)算法和理論,求解連續(xù)空間Markov決策問題的梯度增強(qiáng)學(xué)習(xí)算法以及進(jìn)化一梯度混合增強(qiáng)學(xué)習(xí)算法,基于核的近似動態(tài)規(guī)劃算法,增強(qiáng)學(xué)習(xí)在移動機(jī)器人導(dǎo)航與控制中的應(yīng)用等。本書是作者在多個國家自然科學(xué)基金