Học Tăng Cường
Học cách xây dựng các tác tử thông minh có thể đưa ra quyết định tối ưu thông qua phương pháp thử và sai. Khám phá các khái niệm như Q-learning, policy gradients và các ứng dụng của chúng.
3 courses
Nắm vững các khái niệm nền tảng của học tăng cường và viết mã Python để huấn luyện các tác nhân thông minh có khả năng giải quyết các vấn đề ra quyết định phức tạp.
Nắm vững các nguyên tắc ra quyết định tự động bằng cách hiểu cách các tác nhân tương tác với môi trường để giải quyết các vấn đề phức tạp thông qua phản hồi và kinh nghiệm.
Nắm vững các khái niệm cốt lõi về ra quyết định tuần tự, từ lý thuyết tiện ích và bài toán nhiều tay quay (multi-armed bandits) đến các thuật toán học tăng cường hiện đại.