RL LÀ GÌ

Trong nghành nghề trí tuệ nhân tạo nói tầm thường với lĩnh vực học máy dành riêng thì Reinforcement learing (RL) là một trong những phương pháp tiếp cận tập trung vào câu hỏi học để kết thúc được kim chỉ nam bằng Việc tác động trực tiếp cùng với môi trường thiên nhiên.

Bạn đang xem: Rl là gì

Đang xem: Rl là gì


1. Reinforcement Learning (RL):

RL là học tập mẫu nhằm triển khai, Tức là từ những tình huống thực tế để đưa ra những action nhất quyết, miễn là maximize được reward. Machine ko được bảo về cái action nhằm triển khai mà lại cầm vào đó buộc phải tìm hiểu ra action rất có thể tạo nên được nhiều reward nhất. Trong nhân loại của RL thì họ có có mang hotline là agent, nó tất cả một chút gì đó hàm ý về một thực thể cơ mà bạn mong muốn train nó để hoàn toàn có thể làm cho được một task làm sao này mà chúng ta giao phó (dĩ nhiên là nó đang tiến hành Theo phong cách giành được reward những nhất).

Vì RL được ứng va tương đối nhiều vào robotic với game đề xuất tôi đã đem một ví dụ tự phía trên cho bạn tưởng tượng. Dưới đây là 1 tựa mini game nhưng mà tôi ước ao bạn xem qua. Cách chơi thì tôi suy nghĩ những các bạn sẽ tiện lợi để phát âm được. Tên của nó là CoastRunners

Nhiệm vụ của chúng ta là xong xuôi được chặng đua thuyền một biện pháp nhanh hao tốt nhất và trường hợp rất có thể thì cần ở top trên. Giả sử nlỗi bạn có nhu cầu training một agent để nó rất có thể xong khoảng đua nhanh tốt nhất thì về cơ bản các bạn yêu cầu xây cất được một reward function cùng trường đoản cú đó bạn sẽ train agent dựa vào reward function này. Bạn rất có thể coi nó là Loss function tuy vậy núm bởi đề xuất minimize hàm loss nlỗi trong những mạng Neural Network thông thương thơm thì ở đây bọn họ đang đề nghị maximize nó nlỗi tôi đã nhắc đến ở trên. Việc lựa chọn ra một reward function thoạt chú ý vào khá đơn giản và dễ dàng vì nó chỉ dựa trên những tiêu chí khôn cùng phân minh của một task cụ thể, chẳng hạn như sinh sống trò đùa ở bên trên thì ta tất cả dựa trên tiêu chuẩn là thời gian dứt chặng đua chẳng hạn. (Việc thiết kế cụ thể tôi xin phnghiền dời lại ở một bài viết khác về sau). Tuy nhiên, nếu khách hàng đưa ra các tiêu chuẩn không tốt thì đang agent mà chúng ta train rất có thể có các behavior tương đối kỳ cục y hệt như thử nghiệm sau đây nhưng mà team OpenAI đã trải qua Lúc reward mà họ lựa chọn lại dưa bên trên tiêu chí của score trong game cầm cố vì chưng là thời hạn xong khoảng đua. Và đây là tác dụng.

Agent không nhất thiết phải ngừng chặng đua tuy thế vẫn có thể đạt được score cao.

Vấn đề này thoạt nhìn qua loại vẻ tương đối “thụ vị” vào bối cảnh của đoạn Clip game nhưng lại trong nghành tự động hoá xuất xắc robotics ví dụ điển hình thì các loại behavior này hoàn toàn có thể gây nên phần đông hành động không muốn hoặc thậm chí là nguy hại. Rộng hơn, những agent này (được nhúng vào trong robot chẳng hạn) rất có thể bao hàm hành vi không ổn định hoặc không theo những nguyên lý cơ bạn dạng về phương diện nghệ thuật nói phổ biến mà có thể dãn đến cbất lương hoạ hết sức tiềm ẩn.

Xem thêm: Tải Faststone Capture Full Crack, Faststone Capture 9

*
*
*
*
*
*
*
*
*
*

*βetaβ là discount factor và βetaβ reward (tất cả tình mang lại discount factor nlỗi vẫn nói ngơi nghỉ trên) ngơi nghỉ mỗi state ví dụ tự cơ hội bước đầu đến khi xong xuôi (dẫu mang đến T →ightarrow→ ∞infty∞, vày bọn họ chưa chắc chắn lúc nào thì quy trình này dứt vì thế nó vẫn luôn là một chuỗi vô hạn), cùng đương nhiên là buộc phải dựa trên policy πpiπ vì agent của chúng ta base bên trên nó nhằm lựa chọn reward tốt nhất có thể cơ mà. Bản hóa học thì đây là một bài xích toán về tối ưu (optimazation problem).

Tại trên là 1 trong tiêu chí nhưng bạn có thể dùng làm optimize đến việc tìm ra nghịệm (optimal policy). Cụ thể bọn họ gọi tiêu chí này là infinite horizon sum reward criteria. Cũng bao gồm một vài reward criteria không giống cơ mà tôi trong thời điểm tạm thời ko gác lại trong khuôn khổ nội dung bài viết này.

Prúc trực thuộc vào các criteria khác biệt nhưng mà chúng ta sẽ có các algorithm khác biệt để đưa ra optimal policy. Với infinite horizon sum reward criteria thì chúng ta có thể sử dụng một thuật toán RL cũng khá kinh khủng đó là Q-Learning nhằm giải quyết và xử lý (tôi đã nói tới alogorithm này ở một nội dung bài viết khác).

Tôi xin trong thời điểm tạm thời gác lại phần lý thuyết sơ bộ ở đây. Hẹn gặp gỡ lại bạn ngơi nghỉ nội dung bài viết sau về Q-Learning và phương pháp để impement nó.