여러 대상이 착용 한 여러 센서로 수집 한 대용량 가속도계 데이터를 사용하고 있습니다. 불행히도, 여기에 아무도이 장치의 기술 사양을 알고있는 것 같지 않으며, 다시 교정 된 적이 없다고 생각합니다. 장치에 대한 많은 정보가 없습니다. 나는 석사 논문을 연구하고 있는데, 가속도계는 다른 대학에서 빌려 왔으며 상황은 다소 불투명했다. 장치에서 선처리를 하는가? 실마리 없음.
내가 아는 것은 20Hz 샘플링 속도의 3 축 가속도계라는 것입니다. 디지털 및 아마도 MEMS. 나는 비언어적 행동과 몸짓에 관심이 있는데, 나의 출처에 따르면 대부분 0.3-3.5Hz 범위에서 활동을해야합니다.
데이터를 정규화 하는 것이 매우 필요한 것처럼 보이지만 사용할 것이 확실하지 않습니다. 데이터의 매우 큰 부분은 나머지 값 (중력에서 ~ 1000의 원시 값)에 가깝지만 일부 로그의 경우 최대 8000 또는 다른 값의 경우 29000과 같은 극단이 있습니다. 아래 이미지를 참조하십시오 . 나는 이것이 정규화하기 위해 max 또는 stdev로 나누는 것이 나쁜 생각이라고 생각합니다.
이런 경우 일반적인 접근 방식은 무엇입니까? 중앙값으로 나눕니 까? 백분위 수 값? 다른 것?
부수적 인 문제로 극단적 인 값을 클리핑 해야하는지 확실하지 않습니다.
조언을 주셔서 감사합니다!
편집 : 여기에 데이터가 일반적으로 어떻게 분포되어 있는지에 대한 아이디어를 제공하기 위해 약 16 분 동안의 데이터 (20000 샘플)의 도표가 있습니다.