read.table / read.csv의 colClasses 인수에 대한 사용자 정의 날짜 형식 지정


101

질문:

read.table / read.csv에서 colClasses 인수를 사용할 때 날짜 형식을 지정하는 방법이 있습니까?

(가져 오기 후에 변환 할 수 있다는 것을 알고 있지만 이와 같은 날짜 열이 많으면 가져 오기 단계에서 수행하는 것이 더 쉬울 것입니다.)


예:

.csv 형식의 날짜 열이 %d/%m/%Y있습니다.

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))

이것은 잘못된 변환을 가져옵니다. 예를 들어, 15/07/2008이된다 0015-07-20.


재현 가능한 코드 :

data <- 
structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L, 
3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007", 
"3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L, 
3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02", 
"PM03"), class = "factor"), actual_finish = structure(c(4L, 6L, 
1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008", 
"14/08/2008", "15/07/2008", "17/03/2008", "19/01/2009", "22/09/2008", 
"6/09/2007"), class = "factor")), .Names = c("func_loc", "order_type", 
"actual_finish"), row.names = c(NA, 10L), class = "data.frame")


write.csv(data,"data.csv", row.names = F)                                                        

dataImport <- read.csv("data.csv")
str(dataImport)
dataImport

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
dataImport

출력은 다음과 같습니다.

코드 출력


이를 수행하는 hackish 방법은 자신의 버전을 만들고 에 전달 read.table되는 format인수를 추가하는 것입니다 as.Date. 그래도 생각하지 않는 더 나은 방법이 있다면 놀라지 않을 것입니다.
joran

답변:


158

문자열을 받아들이고 원하는 형식을 사용하여 날짜로 변환하는 고유 한 함수를 작성한 다음를 사용하여 setAs이를 as메서드 로 설정할 수 있습니다. 그런 다음 함수를 colClass의 일부로 사용할 수 있습니다.

시험:

setAs("character","myDate", function(from) as.Date(from, format="%d/%m/%Y") )

tmp <- c("1, 15/08/2008", "2, 23/05/2010")
con <- textConnection(tmp)

tmp2 <- read.csv(con, colClasses=c('numeric','myDate'), header=FALSE)
str(tmp2)

그런 다음 데이터 작업에 필요한 경우 수정하십시오.

편집하다 ---

setClass('myDate')경고를 피하기 위해 먼저 실행하고 싶을 수 있습니다 (경고를 무시할 수 있지만이 작업을 많이 수행하면 성 가실 수 있으며 제거하는 간단한 호출입니다).


2
와우-setAs는 생명의 은인입니다! 이전에이 기능을 어떻게 본 적이 없습니까?
user295691 dec

4
이 질문에 자세히 설명 된대로 '클래스 "myDate"에 대한 정의 없음'경고가 표시 될 수 있습니다.
Danny D' Amours

1
무엇 setMethod('myDate')을해야합니까? 실행하면 오류가 발생합니다 ...
Josh O'Brien

1
@ JoshO'Brien, 죄송합니다 setClass(지금 수정되었습니다). 그것이하는 일은 setAs클래스로 존재하지 않는 'myDate'에 대한 경고를 발행하는 것을 방지 하는 것입니다. 경고는 무해하고 모든 것이 여전히 작동하지만 클래스를 설정하면 경고도 표시되지 않습니다.
Greg Snow

1
@MySchizoBuddy, 날짜 열이 하나만 있고 한 번만 수행하는 경우 어떤 방식으로 수행하든 상관 없습니다. 그러나 데이터 세트에 날짜 인 열이 여러 개있는 경우이 방법은 읽은 후 각 열을 변경하는 것보다 더 간단 할 것입니다.
Greg Snow

25

변경하려는 날짜 형식이 하나만있는 경우 Defaults패키지를 사용하여 기본 형식을 변경할 수 있습니다.as.Date.character

library(Defaults)
setDefaults('as.Date.character', format = '%d/%M/%Y')
dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
## 'data.frame':    10 obs. of  3 variables:
##  $ func_loc     : Factor w/ 5 levels "3076WAG0003",..: 1 2 3 3 3 3 3 4 4 5
##  $ order_type   : Factor w/ 3 levels "PM01","PM02",..: 3 3 1 1 1 1 2 2 3 1
##  $ actual_finish: Date, format: "2008-10-15" "2009-10-19" NA "2008-10-11" ...

자주 사용되는 기능의 기본 동작을 변경하지 않기 때문에 @Greg Snow의 대답이 훨씬 낫다고 생각합니다.


7

시간이 필요한 경우 :

setClass('yyyymmdd-hhmmss')
setAs("character","yyyymmdd-hhmmss", function(from) as.POSIXct(from, format="%Y%m%d-%H%M%S"))
d <- read.table(colClasses="yyyymmdd-hhmmss", text="20150711-130153")
str(d)
## 'data.frame':    1 obs. of  1 variable:
## $ V1: POSIXct, format: "2015-07-11 13:01:53"

2

오래 전, 그 동안 Hadley Wickham이 문제를 해결했습니다. 따라서 오늘날 솔루션은 하나의 라이너로 축소됩니다.

library(readr)
data <- read_csv("data.csv", 
                  col_types = cols(actual_finish = col_datetime(format = "%d/%m/%Y")))

불필요한 것들을 제거하고 싶을 수도 있습니다.

data <- as.data.frame(data)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.