유전자 알고리즘에 대한 매개 변수 선택


9

주어진 시스템을 모델링하기 위해 유전자 알고리즘에 대해 적절한 수의 매개 변수를 어떻게 선택할 수 있습니까?

예를 들어, 자동차 생산을 최적화하고 1,000 명의 직원마다 다양한 작업에서 시간당 효율성을 1,000 회 측정한다고 가정합니다. 따라서 1,000,000 개의 데이터 포인트가 있습니다. 이들 대부분은 공장의 전체 효율성과 약한 상관 관계가있을 수 있지만 통계적 신뢰도와 무관하다고 말할 수있을 정도로 약하지는 않습니다 . 1,000,000 이상의 자유도가 없어서 수렴이 매우 느리거나 수렴이 전혀 없도록 GA에 대한 입력 선택 방법은 무엇입니까?

특히, 기능을 사전 선택하거나 선택적으로 제거하기 위해 사용할 수있는 알고리즘은 무엇입니까?

나는이 시나리오에서 자신을 사용한 한 가지 방법은 내가 좋아하는 부모를 가질 수 있도록 파라미터 선택 자체를 진화하는 것입니다 {a,b,c}, {b,d,e,q,x,y,z}등을. 그런 다음 어린이를 변경하여 기능을 추가하거나 삭제합니다. 이것은 수십 가지 기능에 적합합니다. 그러나 문제는 자유도가 많은 경우 비효율적이라는 것입니다. 이 경우 10^n조합 (위의 예에서)을 살펴보면 10^1,000,000기능의 사전 필터링이 유용한 성능을 얻는 데 중요합니다.

답변:


11

우선-이 문제를 해결하기 위해 회귀 또는 고전적 ML 방법을 사용하기 때문에 예제가 적합하지 않은 것 같습니다. 둘째- 특징 선택 (Kira, Rendell, 1992) 또는 속성 선택 (Hall, Holmes, 2003) 또는 변수 선택 (Guyon, Elisseeff, 2003) 또는 변수 서브 세트 선택 (Stecking, Schebesch, 2005)의 일반적인 문제를 언급합니다. 또는 특징 추출 (Hillion, Masson, Roux, 1988) 또는 차원 축소 (Roweis, Saul, 200) 또는 상태 추상화 (Amarel, 1968). 이 문제는 유전자 알고리즘뿐만 아니라 고차원 데이터를 다룰 때 거의 모든 기계 학습 기술과 관련이 있습니다.

여기에서 세 가지 경우를 구별 할 수 있습니다. 상태 추상화 라고하는이 문제의 마지막 인스턴스 는 일반적으로 프로세스 모델링과 관련이 있습니다 (이는 GA 컨텍스트가 아니라 예에 적합 함). 처음 3 개 (즉, feature selection , attribute selection 또는 variable selection) 는 문자 그대로 질문을 할 때 가장 관련성이 높은 것 같습니다. 이러한 맥락에서 일반적인 해결책은 mRMR 접근법입니다 (Peng, Long, Ding, 2005) . 내 경험상 항상 연속 데이터와 잘 작동하지는 않지만 상호 정보는 상관 관계와 같은 다른 계수로 대체 될 수 있습니다. 또 다른 가능한 접근법은 교차 검증을 사용하는 것입니다 (Picard, Cook, 1984)이를 위해. 서로 다른 기능을 사용하는 모델을 여러 개 가질 수 있으며 교차 검증 기술을 사용하여 모델을 선택하여 가장 적합한 모델을 선택하면 주어진 작업에 가장 적합한 기능에 대한 정보를 제공합니다.

특징 추출차원 감소의 경우도 자신의 조합을뿐만 아니라 초기 기능을 선택할 수 있지만. 이 경우 잘 알려진 예시 솔루션은 PCA 알고리즘 (Pearson, 1901)으로 , 설명 된 분산과 관련하여 입력 피처의 선형 조합 인 피처 세트를 최적으로 생성합니다.

또한 기능 추출 작업을 자체적으로 처리하는 많은 모델이 있습니다. 신경 가스 네트워크의 성장 (Fritzke, 1995) , LASSO (Tibshirani, 2011) , RFE SVM (Zeng, Chen, Tao, 2009) , 의사 결정 트리 (Quinlan, 1986) 등이 그 예 입니다.

참고 문헌 :


3

나는 이것을 전에 한 번도 해본 적이 없으며 분명히 언급 된 데이터에 액세스 할 수는 없지만 클러스터링을 통해 잠재적으로 좋은 방법 입니다. 각 직원에 대해 각 차원이 다른 작업에 대응하는 n 차원 벡터가 있습니다. 그런 다음 클러스터링을 사용하여 "유사한"직원을 그룹화 할 수 있습니다. 그러나 이것은 전적으로 귀하의 데이터에만 의존 할 것입니다. 즉, 1000 명의 직원 만이 클러스터링이 실제로 관련되지 않은 직원 그룹을 산출 할 가능성이 매우 높습니다. 따라서 우리는 인구가 감소 할 수 있습니다. 정보가 손실 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.