저는 현재 유전체학에 대한 로지스틱 회귀 모델을 연구하고 있습니다. 공변량으로 포함하려는 입력 필드 중 하나는 genes
입니다. 약 24,000 개의 알려진 유전자가 있습니다. 전산 생물학에서이 수준의 가변성을 갖는 많은 특징이 있으며 수십만 개의 샘플이 필요합니다.
- 내가
LabelEncoder()
그 24K 유전자 라면 - 그리고
OneHotEncoder()
그들 ...
2.2GHz 쿼드 코어 i7 CPU에서 24,000 개의 컬럼으로 케 라스 교육 시간이 합리적이지 않습니까?
그렇다면 인코딩에 대한 다른 접근 방식이 있습니까?
어떻게 든이 기능에 내 모델 레이어를 전용으로 사용해야합니까?
이것은 24K 입력 노드가 필요하다는 것을 의미합니까?