통계를 수행하기 전에 많은 정리가 필요한 지저분한 설문 조사 데이터를 다루는 경우가 많습니다. Excel에서이 작업을 "수동으로"수행하고, 때로는 Excel 수식을 사용하고, 항목을 하나씩 확인하는 경우가있었습니다. 나는 R에서 스크립트를 작성함으로써 훨씬 더 많은 작업을 시작했다. R에서 스크립트를 작성함으로써 매우 유익했다. 업데이트).
그러나 여전히 효율적으로 처리하는 데 문제가있는 몇 가지 유형의 데이터가 있습니다. 예를 들면 다음과 같습니다.
> d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11),
+ hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week"))
> d
subject hours.per.day
1 1 1
2 2 2 hours
3 3 2 hr
4 4 2hr
5 5 3 hrs
6 6 1-2
7 7 15 min
8 8 30 mins
9 9 a few hours
10 10 1 hr 30 min
11 11 1 hr/week
hours.per.day
특정 활동에 소요되는 하루 평균 시간을 의미하지만 우리가 가진 것은 주제가 쓴 것과 정확히 일치합니다. 모호한 응답으로 수행 할 작업을 결정 hours.per.day2
하고 다음과 같이 정리 된 변수 를 원한다고 가정합니다 .
subject hours.per.day hours.per.day2
1 1 1 1.0000000
2 2 2 hours 2.0000000
3 3 2 hr 2.0000000
4 4 2hr 2.0000000
5 5 3 hrs 3.0000000
6 6 1-2 1.5000000
7 7 15 min 0.2500000
8 8 30 mins 0.5000000
9 9 a few hours 3.0000000
10 10 1 hr 30 min 1.5000000
11 11 1 hr/week 0.1428571
사례의 수가 상당히 많고 (예 : 1000), 피험자가 자신이 좋아하는 것을 자유롭게 쓸 수 있다는 것을 알고 있다고 가정하면, 이것에 접근하는 가장 좋은 방법은 무엇입니까?
new_var[by.hand] <- c(2, 1, ...)
와by.hand
있는TRUE
손에 의해 수행되는 경우에는?