아래에 언급 된 데이터 프레임이 있습니다.
structure(
list(ID = c("P-1", " P-1", "P-1", "P-2", "P-3", "P-4", "P-5", "P-6", "P-7",
"P-8"),
Date = c("2020-03-16 12:11:33", "2020-03-16 13:16:04",
"2020-03-16 06:13:55", "2020-03-16 10:03:43",
"2020-03-16 12:37:09", "2020-03-16 06:40:24",
"2020-03-16 09:46:45", "2020-03-16 12:07:44",
"2020-03-16 14:09:51", "2020-03-16 09:19:23"),
Status = c("SA", "SA", "SA", "RE", "RE", "RE", "RE", "XA", "XA", "XA"),
Flag = c("L", "L", "L", NA, "K", "J", NA, NA, "H", "G"),
Value = c(5929.81, 5929.81, 5929.81, NA, 6969.33, 740.08, NA, NA, 1524.8,
NA),
Flag2 = c("CL", "CL", "CL", NA, "RY", "", NA, NA, "", NA),
Flag3 = c(NA, NA, NA, NA, "RI", "PO", NA, "SS", "DDP", NA)),
.Names=c("ID", "Date", "Status", "Flag", "Value", "Flag2", "Flag3"),
row.names=c(NA, 10L), class="data.frame")
아래 언급 된 코드를 사용하고 있습니다.
df %>% mutate(L = ifelse(Flag == "L",1,0),
K = ifelse(Flag == "K",1,0),
# etc for Flag) %>%
mutate(sub_status = NA) %>%
mutate(sub_status = ifelse(!is.na(Flag2) & Flag3 == 0, "a", sub_status),
sub_status = ifelse(is.na(Flag2) & Flag3 != 0, "b", sub_status),
# etc for sub-status) %>%
mutate(value_class = ifelse(0 <= Value & Value <= 15000, "0-15000",
"15000-50000")) %>%
group_by(Date, status, sub_status, value_class) %>%
summarise(L = sum(L),
K = sum(K),
# etc
count = n())
다음과 같은 출력을 제공합니다.
Date Status sub_status value_class G H I J K L NA Count
2020-03-20 SA a 0-15000 0 0 0 0 1 1 0 2
2020-03-20 SA b 0-15000 0 0 0 0 1 0 0 1
................
................
열을 사용하여 다음과 같은 출력을 얻고 싶습니다 DF
. 여기서 Status
열에는 고유 한 3 개의 값 Flag2
이 있고 값 또는 [null] 또는 NA가 있으며 마지막으로 Flag3
열에는 [null] 또는 NA의 7 개의 고유 값이 있습니다. 하나의 구별 ID
을 위해 우리는 여러 개의 항목을 가지고 있습니다 Flag3
.
Value
0-15000, 15000-50000과 같은 3 그룹을 생성하여 다음 데이터 프레임을 만들어야합니다 .
- 고유 ID의
Flag2
경우 0 또는 [null] / NA 이외의Flag3
값이 있지만 값이 0 또는 [null] / NA이면 값은입니다a
. - 고유 ID의
Flag3
경우 0 또는 [null] / NA 이외의Flag2
값이 있지만 값이 0 또는 [null] / NA 인 경우b
- 고유 한 ID 모두
Flag2
&에Flag3
0 또는 [Null] / NA 이외의 값이 있으면c
- 고유 한 ID에 대해
Flag2
&Flag3
값이 0 또는 [Null] / NA 인 경우d
위에서 언급 한 datafrmae를 다음 구조의 with percent
및 Total
column 에 정렬하고 싶습니다 .
나는 2/5
상태가 총계 sub_status
로 나뉘어져있는 반면 에 각자의 상태로 나뉘어 질 것임을 보여주는 비율을 언급 했다 Status
.
16/03/2020 0 - 15000 15000 - 50000
Status count percent L K J H G [Null] count percent L K J H G [Null] Total
SA 1 1/8 (12.50%) 1 0 0 0 0 0 0 - 0 0 0 0 0 0 1
a 1 1/1(100.00%) 1 0 0 0 0 0 0 - 0 0 0 0 0 0 1
b 0 - 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0
c 0 - 1 0 0 0 0 0 0 - 0 0 0 0 0 0 0
d 0 - 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0
RE 4 50.00% 0 1 1 0 0 2 0 - 0 0 0 0 0 0 4
a 0 - 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0
b 1 25.00% 0 0 1 0 0 1 0 - 0 0 0 0 0 0 1
c 1 25.00% 0 1 0 0 0 1 0 - 0 0 0 0 0 0 1
d 2 50.00% 0 0 0 0 0 2 0 - 0 0 0 0 0 0 2
XA 3 37.50% 0 0 0 1 1 1 0 - 0 0 0 0 0 0 3
a 0 - 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0
b 2 66.67% 0 0 0 1 0 1 0 - 0 0 0 0 0 0 2
c 0 - 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0
d 1 33.33% 0 0 0 0 1 0 0 - 0 0 0 0 0 0 1
Total 8 100.00% 1 1 0 0 1 3 0 - 0 0 0 0 0 0 8
데이터 프레임에 최신 날짜가 없으면 startdate
출력 데이터 프레임의 모든 값을 0으로 유지 하는 경우 16/03/2020 인 최신 날짜를 기준으로 필요한 출력을 언급했습니다 . 백분율 열은 참조 용이며 계산 된 백분율 값이 있습니다.
또한 구조를 정적으로 유지하고 싶습니다. 예를 들어, 하루 동안 매개 변수가없는 경우 출력 구조는 0 값과 동일합니다.
예를 들어, 날짜 17/03/2020
에 status SA
또는 sub_status 가있는 행 c
에 값이로 출력되는 자리 표시자가 있다고 가정하십시오 0
.
dput
원하는 데이터 세트로 시작할 수 있습니까? 세 번째 코드 블록입니다. 출력 내용이 만족 스럽기 때문에 이전 코드는 관련이 없습니다.
2/5
표현 목적으로 만 유지 한 백분율 열 . 백분율 부호가있는 소수점 2 개만있는 백분율 값이 있습니다.