{protein} 서열을 특정 클래스 (Neuropeptide hormone 전구체)에 속하는지 분류하기 위해 기존의 감독 된 분류기를 개선하기 위해 노력하고 있습니다.
약 1,150 만 개의 단백질 서열의 배경 ( "알려지지 않은 / 나쁜 주석이 달린 배경")에 대해 약 1,150 개의 알려진 "양성"또는 다양한 속성으로 주석이 달린 약 10 만 개의 검토 된 관련 단백질이 있습니다 (그러나 명시 적으로 주석이 달린 것은 거의 없습니다) "부정적인"방법).
이전의 구현은 이것을 이진 분류 문제로 보았습니다. Positive set = Neuropeptides로 표시된 단백질. 음수 세트 : 대략 비슷한 길이 분포의 나머지 단백질 중에서 1,300 개 샘플 (총)의 무작위 샘플링.
그것은 효과가 있었지만 기계의 차별 능력을 크게 향상시키고 싶습니다 (현재는 무작위로 샘플링 된 여러 음성 세트에서 정확도, CV로 측정 한 AUC, F1 측면에서 약 83-86 %입니다).
내 생각은 : 1)이 멀티 클래스 문제로 만들고, 속성 / 기능적 클래스에 따라 아마도 무작위로 샘플링 된 다른 세트와 함께 2-3 개의 다른 클래스의 단백질을 선택합니다. (여기서 우선 순위는 특성을 정의하는 동안 특성 / 기능이 양의 세트와 유사한 네거티브 세트입니다). 2) 한 수업 학습-좋을 것입니다.하지만 이해합니다. 그것은 이상 탐지를위한 것이며 차별적 접근법보다 성능이 떨어집니다.
*) PU 학습에 대해 들어 보았지만 깔끔하게 들리지만 N00b 프로그래밍이고 기존 구현에 대해 잘 모릅니다. (Python / sci-kit에서 배우십시오).
그렇다면 이론적 POV에서 접근법 1이 의미가 있습니까? 여러 음수 세트를 만드는 가장 좋은 방법이 있습니까? (나는 또한 단순히 "음성"단백질의 거대한 [50K] 선택을 사용할 수 있지만, 서로 매우 매우 다르기 때문에 분류 기가 이들을 하나의 크고 균형이 맞지 않는 혼합으로 얼마나 잘 처리 할 수 있는지 모르겠습니다. ). 감사!