그래프 에 존재하는 데이터가 있습니다 . 꼭짓점은 두 클래스 중 하나에 속하며 두 클래스 를 구별하기 위해 SVM을 훈련시키는 데 관심이 있습니다. 이것에 대한 하나의 적절한 커널은 인 확산 커널 , 는 IS 라플라시안 의 및 튜닝 파라미터이다.y i ∈ { − 1 , 1 }Lβ
SVM을 조정하려면 하이퍼 파라미터를 선택해야하므로 를 조정해야합니다일반적으로 우리는이 문제에 대해 교차 검증을 사용하지만 에서 정점 를 생략 하면 전체 그래프가 변경되어 연결된 구성 요소의 수가 증가하기 때문에 여기서는 적절하지 않은 것 같습니다 ! 연결된 구성 요소의 수가 변경되면 일부 정점에 다른 정점에 도달 할 수 없게되며 처음 시작한 데이터와는 매우 다른 데이터 집합에 직면하게됩니다. 즉, 우리는 제거 된 정점 누락했을 뿐만 아니라 그래프에서 해당 정점에 인접한 다른 모든 정점 에 대한 정보도 누락되었습니다 .나는 G 나는 j
교차 유효성 검사의 기본 개념은 새 데이터가 제공 될 때 모델의 성능을 대략적으로 계산하려는 것입니다. 표준 문제에서 테스트를 위해 일부 데이터를 생략해도 나머지 교육 데이터의 값은 변경되지 않습니다. 그러나 그래프 데이터의 경우 모델이 CV 설정에서 "새"데이터를 보는 것이 무엇을 의미하는지 명확하지 않습니다. 꼭짓점이나 모서리를 생략하면 데이터를 완전히 변경할 수 있습니다. 예를 들어, 하나의 꼭짓점이 가장자리에서 개의 꼭짓점을 갖고 다른 모든 꼭짓점에는 1 개의 가장자리 가있는 별 그래프 인 그래프 를 상상해보십시오 . 훈련 데이터를 구성하기 위해 중심 정점을 생략 함K K K S *그래프가 완전히 분리되고 커널 매트릭스는 대각선이됩니다! 물론 에서 제공되는이 교육 데이터에 대한 모델을 교육 할 수 있습니다 . 덜 명확한 것은 결과 모델의 샘플 외부 성능을 테스트한다는 의미입니다. 의 커널 행렬을 다시 계산하고 예측을 제공합니까? S
또는 의 커널 행렬을 전체적으로 계산하여 시작 하고 SVM을 추정하는 데 사용되는 커널 행렬을 생성하는 데 필요한 행과 열을 생략합니까? 중앙 노드를 포함 한다는 것은 모든 정점이 모든 다른 정점에서 도달 할 수 있고 커널 매트릭스가 조밀하다는 것을 의미하기 때문에 이것은 자체의 개념적 문제를 나타냅니다 . 이 포함은 접기에 걸쳐 정보가 유출되고 교차 검증 출력을 바이어스한다는 것을 의미합니까? 한편으로, 생략 된 중앙 노드가 그래프를 연결하므로 생략 된 중앙 노드에 대한 데이터가 여전히 존재한다. 반면에, 우리는에 대해 아무것도 모르는 라벨S y 이 방법으로 CV를 수행함으로써 합리적으로 편향되지 않은 표본 외 추정값을 얻는 것이 편할 수 있습니다.
이 유형의 문제에 대해 하이퍼 파라미터를 어떻게 선택합니까? CV는 불완전하지만 수용 가능합니까, 아니면 특별한 방법이 필요합니까? 내 상황에서 하이퍼 파라미터 튜닝이 가능합니까?