모자에 내 [r] 답변을 던지고 속도에 최적화되어 있으며 길이 20의 하드 코딩 된 asker와 달리 x의 모든 길이에서 작동합니다.
### data
set.seed(100)
x <- round(rnorm(20, sd = 0.02), 3)
### solution
summation <- c(x[1])
enn <- 1
n_of_seq <- c(enn)
for(i in 2:length(x)){
first <- x[i]
second <- summation[i - 1]
if(sign(first) == sign(second)){
summation <- c(summation, first + second)
enn <- enn + 1
}else{
summation <- c(summation, first)
enn <- 1
}
n_of_seq <- c(n_of_seq, enn)
}
그리고 현재 (매우 느린) 작업 컴퓨터의 런타임을 비교하기 위해이 스레드의 모든 R 솔루션을 사용하는 마이크로 벤치 마크의 출력이 있습니다. 놀랍게도, 가장 많은 사본과 변환을 수행하는 솔루션은 느리게 진행되었습니다.
Unit: microseconds
expr min lq mean median uq max neval
my_way() 13.301 19.200 23.38352 21.4010 23.401 20604.0 1e+05
author_way() 19.702 31.701 40.12371 36.0015 40.502 24393.9 1e+05
ronak() 856.401 1113.601 1305.36419 1236.8010 1377.501 453191.4 1e+05
ameer() 388.501 452.002 553.08263 491.3000 548.701 456156.6 1e+05
andrew() 2007.801 2336.801 2748.57713 2518.1510 2760.302 463175.8 1e+05
gonzo() 21.901 35.502 48.84946 43.9010 51.001 29519.5 1e+05
-------------- EDIT -------------- 내 솔루션이 더 긴 길이의 x에 대해 가장 빠르지 않다는 것을 @nicola가 지적했습니다. x <-c (x, y)와 같은 호출을 사용하여 벡터 사본을 지속적으로 만들고 있기 때문에 상당히 분명해야합니다. 길이 = 20에 가장 빠른 솔루션 만 만들었으며 가능한 한 작은 벤치 마크를 받았습니다.
더 공정하게 비교하기 위해 모든 버전을 편집하여 가장 빠를 것이라고 생각되는 방식으로 원본 코드를 생성했지만 이에 대한 피드백을 환영합니다. 다음은 전체 벤치마킹 코드와 매우 느린 시스템에 대한 결과입니다. 의견을 환영합니다.
# originally benchmarked a few different lengths
for(pie in c(100000)){
my_way<- function(){
set.seed(100)
x <- round(rnorm(pie, sd = 0.02), 3)
summation <- c(x[1])
enn <- 1
n_of_seq <- c(enn)
for(i in 2:length(x)){
first <- x[i]
second <- summation[i - 1]
if(sign(first) == sign(second)){
summation <- c(summation, first + second)
enn <- enn + 1
}else{
summation <- c(summation, first)
enn <- 1
}
n_of_seq <- c(n_of_seq, enn)
}
# print(summation)
}
author_way <- function(){
set.seed(100)
x <- round(rnorm(pie, sd = 0.02), 3)
sign_indicator <- ifelse(x > 0, 1,-1)
sky <- length(x)
number_of_sequence <- rep(NA, sky)
n <- 1
for (i in 2:sky) {
if (sign_indicator[i] == sign_indicator[i - 1]) {
n <- n + 1
} else{
n <- 1
}
number_of_sequence[i] <- n
}
number_of_sequence[1] <- 1
#############################
summation <- rep(NA, sky)
for (i in 1:sky) {
summation[i] <- sum(x[i:(i + 1 - number_of_sequence[i])])
}
}
# other ppls solutions:
ronak <- function(){
df <- data.table('x' = round(rnorm(pie, sd = 0.02), 3))
df[, c("n_of_sequence", "sum") := list(seq_len(.N), cumsum(x)),rleid(sign(x))]
}
ameer <- function(){
set.seed(100)
x <- round(rnorm(pie, sd = 0.02), 3)
run_lengths <- rle(sign(x))$lengths
n_of_sequence <- run_lengths %>% map(seq) %>% unlist
start <- cumsum(c(1,run_lengths))
start <- start[-length(start)] # start points of each series
map2(start,run_lengths,~cumsum(x[.x:(.x+.y-1)])) %>% unlist()
}
count_and_sum <- function(x){
set.seed(100)
x <- round(rnorm(pie, sd = 0.02), 3)
runs <- rle((x > 0) * 1)$lengths
groups <- split(x, rep(1:length(runs), runs))
output <- function(group) data.frame(x = group, n = seq_along(group), sum = cumsum(group))
result <- as.data.frame(do.call(rbind, lapply(groups, output)))
`rownames<-`(result, 1:nrow(result))
}
andrew <- function(){
set.seed(100)
df <- tibble(x = round(rnorm(pie, sd = 0.02), 3)) %>%
mutate(seqno = cumsum(c(1, diff(sign(x)) != 0))) %>% #identify sequence ids
group_by(seqno) %>% #group by sequences
mutate(n_of_sequence = row_number(), #count row numbers for each group
sum = cumsum(x)) %>% #cumulative sum for each group
ungroup() %>%
select(-seqno)
}
gonzo <- function(){
set.seed(100)
x <- round(rnorm(pie, sd = 0.02), 3)
n_of_sequence <- runner::streak_run(x > 0)
sum <- runner::sum_run(x, k = n_of_sequence)
}
mi1 <- microbenchmark(my_way(), author_way(), ronak(), ameer(), andrew(), gonzo(), times = 10)
print(mi1)
}
이 결과에서 알 수 있듯이, 내가 최적화 한 것 이외의 다른 길이의 경우 내 버전이 느립니다. x가 길수록 1000보다 큰 모든 것에서 엄청나게 느려집니다. 내가 가장 좋아하는 버전은 내 시스템에서 두 번째로 빠른 Ronak입니다. GoGonzo는 이보다 긴 길이로 내 컴퓨터에서 가장 빠릅니다.
Unit: milliseconds
expr min lq mean median uq max neval
my_way() 21276.9027 21428.2694 21604.30191 21581.97970 21806.9543 21896.7105 10
author_way() 82.2465 83.0873 89.42343 84.78315 85.3638 115.4550 10
ronak() 68.3922 69.3067 70.41924 69.84625 71.3509 74.7070 10
ameer() 481.4566 509.7552 521.19034 514.77000 530.1121 579.4707 10
andrew() 200.9654 202.1898 210.84914 206.20465 211.2006 233.7618 10
gonzo() 27.3317 28.2550 28.66679 28.50535 28.9104 29.9549 10
n_of_sequence
원하는 것과 동일하지 않습니다