강화 학습과 PID 제어는 언제 사용해야합니까?


12

OpenAIGym 의 Lunar Lander와 같은 문제에 대한 솔루션을 설계 할 때 강화 학습은 상담원이 성공적으로 착륙 할 수 있도록 적절한 조치 제어를 제공하는 유혹적인 수단입니다.

그러나 PID 컨트롤러 와 같은 제어 시스템 알고리즘이 강화 학습만큼 좋지는 않지만 적절한 작업을 수행 하는 사례는 무엇 입니까?

같은 질문 이 하나 이 질문의 이론을 해결에서 좋은 일을하지만, 실제 구성 요소를 해결하기 위해 조금 않습니다.

인공 지능 엔지니어로서 문제 도메인의 어떤 요소가 PID 컨트롤러가 문제를 해결하기에 충분하지 않다고 제안해야하며 대신 강화 학습 알고리즘을 사용해야합니까 (또는 그 반대)?


PID에 대한 기본 아이디어는 디자인하기 쉽지 않다고 말합니다. 그것은 많은 적분과 차이점이 있습니다. 따라서 이것은 기본적으로 통계를 ML 접근 방식으로 대체 할 때와 동일합니다. 제어 시스템은 확실히 완벽하지만 너무 많은 작업입니다.
DuttaA

2
실제로 그것은 작업이 그리 많지 않습니다. 업계에서 꽤 표준입니다. MATLAB과 같은 현대적인 시스템 설계 도구를 사용하면 PID 또는 다른 컨트롤러를 필요에 맞게 비교적 쉽게 조정할 수 있습니다. 보강 학습은 풍부한 데이터가 필요하고 고전적 제어 이론과 같은 이론적 보증이 없기 때문에 실제로 적용되지 않습니다. 그건 그렇고, contoller 디자인은 적분 / 미분으로 직접 작업하는 것을 포함하지 않습니다. 선형 시스템의 모든 작업은 간단한 대수 조작을 포함하는 Laplace 도메인에서 이루어집니다
Brale_

@Brale_ 그러나 여전히 많은 이론적 지식이 필요합니다 .Laplace 도메인은 차이를 단순화 할뿐 시스템이 불안정하지 않도록 물건 (극점 및 영점)을 설계하는 방법을 알아야합니다. 이러한 것들이 실제로 어떻게 작동하는지 시각화하기는 매우 어렵습니다.
DuttaA

2
과거 프로젝트에서 도움이 된 좋은 경험으로, 몇 문장으로 최적의 정책 (PID, RL 등)을 설명 할 수 없다면 PID는 실제로 어려울 것입니다. Pacman에 대한 최적의 정책은 무엇입니까?
Jaden Travnik

답변:


5

의견은 기본적으로 올바른 방향에 있다고 생각합니다.

PID 컨트롤러는 연속 동적 시스템에서 최적의 정책을 찾는 데 유용하며, 이러한 도메인은 종종 쉽게 도출 된 최적의 정책이 있기 때문에 RL의 벤치 마크로 사용됩니다. 그러나 실제로는 도메인을 쉽게 설계 할 수있는 모든 도메인에 PID 컨트롤러를 선호 할 것입니다. 컨트롤러의 동작은 잘 이해하고 RL 솔루션은 종종 해석하기가 어렵습니다.

RL이 빛나는 곳은 좋은 행동이 어떤 모습인지 (즉, 보상 기능을 아는 것), 센서 입력이 어떤 모습인지 (즉, 주어진 상태를 수치 적으로 완전하고 정확하게 묘사 할 수 있음) 아는 작업이지만 또는 우리가 실제로 그 보상을 달성하기 위해 에이전트가 무엇을 원하는지 모릅니다.

다음은 좋은 예입니다.

  • 가장 적은 양의 연료를 사용하여 알려진 움직임 패턴을 가진 적의 비행기 앞에서 비행기조종 하기 위해 에이전트를 만들려면 PID 컨트롤러사용 하는 것이 좋습니다 .

  • 에이전트가 비행기조종하고 착륙수있는 충분한 연료로 적 비행기를 격추하고 싶었지만 적 비행기가 어떻게 공격 할 수 있는지에 대한 공식적인 설명없이 (아마도 인간 전문가가 우리 에이전트에 대한 시뮬레이션에서 조종 할 것입니다) 나는 많은 것 RL을 선호한다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.