아마도 더 간단한 경우가 더 명확해질 것입니다. 100x100 대신 1x2 픽셀의 샘플을 선택한다고 가정 해 봅시다.
이미지의 샘플 픽셀
+----+----+
| x1 | x2 |
+----+----+
트레이닝 세트를 플로팅 할 때 선형 모델로 쉽게 분리 할 수 없다는 것을 알았으므로 데이터에 더 잘 맞도록 다항식 항을 추가하기로 결정했습니다.
우리는 모든 픽셀 강도와 그로부터 형성 될 수있는 가능한 모든 배수를 포함하여 다항식을 구성하기로 결정합니다.
행렬이 작으므로 열거 해 봅시다.
엑스1, x 2, x 21, x 22, x 1× x2, x 2× x1
위의 기능 시퀀스를 해석하면 패턴이 있음을 알 수 있습니다. 처음 두 용어 인 그룹 1은 픽셀 강도로만 구성된 기능입니다. 그 후의 두 그룹 인 그룹 2는 강도의 제곱으로 구성된 피처입니다. 마지막 두 항인 그룹 3은 모든 쌍별 (2) 픽셀 강도 조합의 곱입니다.
그룹 1 :엑스1, x 2
그룹 2 :엑스21, x 22
그룹 3 :엑스1× x2, x 2× x1
그러나 문제가 있습니다. 순서대로 그룹 3 항 ( 및 )을 보면 동일한 용어 임을 알 수 있습니다. 우리의 주거 사례를 기억하십시오. 같은 집에 x1 = square 푸티 지, x2 = square 푸티 지라는 두 가지 기능이 있다고 상상해보십시오. 자, 우리는 복제 기능을 제거해야합니다 . 임의로 이라고 말하십시오 . 이제 그룹 3 기능 목록을 다음과 같이 다시 작성할 수 있습니다.엑스1× x2엑스2× x1엑스2× x1
그룹 3 :엑스1× x2
세 그룹 모두의 기능을 세어 5를 얻습니다.
그러나 이것은 장난감의 예입니다. 피처 수를 계산하기위한 일반 공식을 도출 할 수 있습니다. 원래 기능 그룹을 출발점으로 사용합시다.
s의 I Z를전자 gR O U , P (1) + S I Z전자 gR O U P 2 + S I Z전자 gr o u p 3 = m × n + m × n + m × n = 3 × m × n
아! 그러나 그룹 3에서 중복 제품을 제거해야했습니다.
따라서 그룹 3의 기능을 올바르게 계산하려면 행렬에서 모든 고유 한 쌍별 제품을 계산할 수있는 방법이 필요합니다. 이항 계수로 수행 할 수 있습니다. 이항 계수는 동일하거나 큰 크기의 n 그룹에서 크기 k의 모든 고유 한 하위 그룹을 계산하는 방법입니다. 따라서 그룹 3의 기능을 올바르게 계산하려면 .씨( m × n , 2 )
따라서 일반적인 공식은 다음과 같습니다.
m × n + m × n + C( m × n , 2 ) = 2 m × n + C( m × n , 2 )
장난감 예제에서 피처 수를 계산하는 데 사용할 수 있습니다.
2 × 1 × 2 + C( 1 × 2 , 2 ) = 4 + 1 = 5
그게 다야!