Facebook 응용 프로그램의 데이터베이스가 있으며 머신 러닝을 사용하여 Facebook 사이트의 선호도에 따라 사용자의 나이를 추정하려고합니다.
내 데이터베이스에는 세 가지 중요한 특성이 있습니다.
내 훈련 세트의 연령 분포 (총 사용자 수 12k)는 더 젊은 사용자 (예 : 27 세의 1157 명의 사용자와 65 세의 23 명의 사용자)로 비뚤어져 있습니다.
많은 사이트는 5 개 이하의 좋아요를 가지고 있습니다 (FB 사이트를 5 개 이하로 필터링했습니다).
샘플보다 더 많은 기능이 있습니다.
내 질문은 다음과 같습니다. 추가 분석을 위해 데이터를 준비하기 위해 어떤 전략을 제안 하시겠습니까? 일종의 차원 축소를 수행해야합니까? 이 경우 어떤 ML 방법이 가장 적합합니까?
나는 주로 Python을 사용하므로 Python 관련 힌트를 높이 평가할 것입니다.