많은 기능으로 로지스틱 회귀를 수행하는 방법은 무엇입니까?


10

로지스틱 회귀에 대한 이진 클래스 문제가있는 각 샘플에 대해 330 개의 샘플과 27 개의 기능이있는 데이터 세트가 있습니다.

"10이면 규칙"에 따르면 각 기능을 포함하려면 최소한 10 개의 이벤트가 필요합니다. 그럼에도 불구하고 나는 긍정적 인 클래스 20 %와 부정적인 클래스 80 %의 불균형 데이터 세트를 가지고 있습니다.

이로 인해 70 개의 이벤트 만 제공되므로 물류 모델에 약 7/8 개의 기능 만 포함 할 수 있습니다.

모든 기능을 예측 변수로 평가하고 싶습니다. 어떤 기능도 직접 선택하고 싶지 않습니다.

그래서 당신은 무엇을 제안 하시겠습니까? 가능한 모든 7 가지 기능 조합을 만들어야합니까? 연관 모델로 각 기능 만 평가 한 다음 최종 모델에 가장 적합한 기능 만 선택해야합니까?

또한 범주 형 및 연속 형 기능 처리에 대해 궁금합니다. 혼합 할 수 있습니까? 범주 형 [0-1] 및 연속 형 [0-100]이있는 경우 정규화해야합니까?

저는 현재 파이썬으로 일하고 있습니다.

도와 주셔서 정말로 고맙습니다!


"범주적이고 연속적인 기능의 처리에 대해 궁금합니다." 나는 별도의 질문을 할 것이라고 생각합니다. 사실, 그것은 이미 여기 에 요청 되었습니다 .
E_net4 근접 유권자

2
충분한 샘플이없는 것과 관련이없는 특징이있는 것에는 차이가 있습니다. 간단한 규칙 때문에 정확히 7 가지 기능을 선택하는 데 너무 집중하지 않겠습니다.
oW_

1
어쨌든 할 일 : 교차 검증을 사용하여 정규화를 최적화하십시오. 탄력있는 그물 (L1 + L2)을 제안합니다.
Emre

답변:


6

모형을 7 개의 변수로 줄이기 위해 취할 수있는 몇 가지 접근 방식이 있습니다.

  1. PCA (감독되지 않음) : 각 절차 구성 요소가 가능한 한 많은 데이터 차이를 설명하는 "새"선형 데이터 조합을 생성합니다. 따라서 처음 7 개의 구성 요소 (27 개 중)는 데이터 변동의 상당 부분을 설명 할 수 있어야합니다. 그런 다음이 7 가지 성분을 로지스틱 회귀 방정식에 꽂을 수 있습니다. 여기서 단점은 구성 요소가 원래 변수의 조합이기 때문에 회귀 모델과의 일부 해석이 불가능하다는 것입니다. 그러나 매우 좋은 정확도를 제공해야합니다. 이 같은 기술은 다음과 같은 다른 치수 축소 방법에 적용됩니다
  2. 회귀 분석의 또 다른 일반적인 방법은 단계별로 진행하는 방법으로, 한 변수로 시작하여 각 단계마다 다른 단계를 추가합니다.이 단계는 일부 기준 (일반적으로 BIC 또는 AIC 점수)에 따라 유지되거나 삭제됩니다. 뒤로 단계적 회귀는 동일하지만 모든 변수로 시작하여 일부 기준에 따라 매번 하나씩 제거합니다. 간단한 검색에 따르면 파이썬에는 단계적 회귀가 없지만이 데이터 과학 게시물에 설명 된 유사한 기능 제거 알고리즘을 수행합니다 .
  3. 올가미 회귀 1 피처 계수를 줄여서 일부 계수를 효과적으로 제거하는 벌칙 규범 1로지스틱 회귀 모델의 표준입니다. 보인다 sklearn의 로지스틱 회귀는 당신이 이것을 달성하기 위해 당신이 원하는 처벌을 할당 할 수 있습니다. 참고 : 올가미는 변수 계수를 명시 적으로 0으로 설정하지 않지만 축소하여 7 개의 가장 큰 계수를 선택할 수 있습니다.

@ E_net4가 언급했듯이 지속적인 질문은 다른 게시물에서 해결됩니다.


5

"Rule of 10"을 너무 진지하게 받아들이고 있습니다. 매우 거친 경험 법칙입니다. 사용하는 것처럼 사용하지 마십시오.

"70 개의 긍정적 인 사례 만 있으므로 규칙 10에 따라 7 가지 기능 만 사용할 수 있습니다. 사용할 7 가지 기능을 어떻게 선택합니까?"

그것은 10의 규칙이 의미하는 것이 아닙니다. 사용할 수있는 기능 수를 지정하는 규칙은 아닙니다. 규칙 10은 규범이 아닌 설명 적이며 대략적인 지침입니다. 인스턴스 수가 피처 수의 10 배보다 훨씬 적 으면 특히 과적 합의 위험이 높으며 결과가 좋지 않을 수 있습니다.

그래서 어떻게해야합니까? 어쨌든 할 일을해야합니다 : 정규화를 사용하고 교차 유효성 검사를 사용하여 정규화 하이퍼 매개 변수를 선택하십시오. 또한 과적 합 및 바이어스 된 정확도 추정을 피하기 위해 분류기에 관한 모든 것을 완료 할 때까지 만지지 않는 홀드 아웃 테스트 세트를 보유하는 것이 중요합니다.

더 많은 데이터를 얻을 수 있다면 정말 도움이 될 것입니다.

마지막으로, 불균형 한 클래스가 있으므로 클래스 불균형 및이를 처리하는 방법에 대해 읽으십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.