데이터 프레임에서 특정 열 추출


365

6 개의 열이있는 R 데이터 프레임이 있고 세 개의 열만있는 새 데이터 프레임을 만들고 싶습니다.

내 데이터 프레임을 가정이다 df, 나는 추출 컬럼에 원하는 A, B그리고 E, 이것은 단지 내가 알아낼 수있는 명령입니다 :

 data.frame(df$A,df$B,df$E)

더 간단한 방법이 있습니까?

답변:


156

data.frame 이 호출되는 경우 dplyr 패키지 사용 df1:

library(dplyr)

df1 %>%
  select(A, B, E)

%>%파이프 없이 다음 과 같이 쓸 수도 있습니다 .

select(df1, A, B, E)

2
내 질문을 게시 한 후 Tidyverse의 상당한 진화를 감안할 때 나는 당신에게 대답을 바꿨습니다.
Aren Cambre

4
tidyverse의 격렬한 변화율을 감안할 때, 나는이 패턴을 사용하지 않도록주의 할 것입니다. 이것은 함수, 패키지 또는 응용 프로그램의 코드를 작성할 때 열 이름을 객체 이름처럼 취급하는 것에 대한 저의 선호도입니다.
Joshua Ulrich

1
이 답변이 제출 된 지 4 년이 지났으며 패턴이 변경되지 않았습니다. 파이프 표현은 매우 직관적 일 수 있으므로 매력적입니다.
Aren Cambre

이 하위 집합에 대한 추가 명령을 어떻게 실행합니까? 예를 들어 rowMean을 계산하고 싶습니다. "df1 %> % rowMeans (select (A, B, E))"가 작동하지 않습니다.

다음과 같은 파이프 라인을 연결합니다 df1 %>% select(A, B, E) %>% rowMeans(.). 다음 %>%을 입력 하여 파이프 관련 설명서를 참조하십시오?magrittr::`%>%`
Sam Firke

448

열 이름으로 구성된 벡터를 사용하여 부분 집합을 지정할 수 있습니다. subset()특히 함수, 패키지 또는 응용 프로그램에서 프로그래밍 할 때 열 이름을 객체 이름처럼 처리하는 방법보다이 방법을 선호 합니다.

# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[,c("A","B","E")]

4
오류가 발생 object of type 'closure' is not subsettable합니다.
Aren Cambre

24
@ArenCambre : 그러면 data.frame의 이름이 실제로 지정되지 않습니다 df. dfstats 패키지의 함수이기도합니다.
Joshua Ulrich


2
@Cina : -"A"구문 오류 이기 때문 입니다. 그리고 ?Extract"라고 i, j, ...또한 선택의 생략 할 요소 / 슬라이스를 나타내는 음의 정수가 될 수 있습니다."
Joshua Ulrich

7
이 구문에는 문제가 있습니다. 하나의 열 R 만 추출하면 데이터 프레임 대신 벡터를 반환하므로 원치 않을 수 있습니다 > df[,c("A")] [1] 1. 사용 subset에는이 단점이 없습니다.
David Dorchies

100

이것이 subset()기능 의 역할입니다 .

> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> subset(dat, select=c("A", "B"))
  A B
1 1 3
2 2 4

내 데이터로 시도하면 "x [j]의 오류 : 잘못된 첨자 유형 'list'"이지만 c ( "A", "B")가 목록이 아닌 경우 오류가 발생합니다. ?
Rafael_Espericueta

@Rafael_Espericueta 코드를 보지 않고 추측하기는 어렵지만 c("A", "B")목록은 아닙니다.
Stéphane Laurent

데이터 프레임을 목록으로 변환합니다.
Suat Atan PhD 2016

78

두 가지 명백한 선택이 있습니다 : Joshua Ulrich 's df[,c("A","B","E")]또는

df[,c(1,2,5)]

에서와 같이

> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> df
  A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
  A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
  A B E
1 1 3 8
2 2 4 8

16

어떤 이유로 만

df[, (names(df) %in% c("A","B","E"))]

나를 위해 일했다. 위의 모든 구문에서 "정의되지 않은 열이 선택되었습니다".


15

여기서 df1은 원래 데이터 프레임입니다.

df2 <- subset(df1, select = c(1, 2, 5))

7
을 사용하지 않습니다 dplyr. 을 사용 하고 열 이름 대신 열 번호를 사용한다는 점을 제외하고 Stephane Laurent의 답변base::subset 과 동일 합니다.
Gregor Thomas

14

sqldfR 데이터 프레임에서 선택을 수행 하는 패키지를 다음과 같이 사용할 수도 있습니다 .

df1 <- sqldf("select A, B, E from df")

이것은 출력으로 데이터 df1열을 제공합니다 : A, B, E.



1
df<- dplyr::select ( df,A,B,C)

또한 새로 만든 데이터에 다른 이름을 지정할 수 있습니다

data<- dplyr::select ( df,A,B,C)

0

[ 하위 집합은 대체 할 수 없습니다.

[ 하나의 열만 선택하면 벡터를 반환합니다.

df = data.frame(a="a",b="b")    

identical(
  df[,c("a")], 
  subset(df,select="a")
) 

identical(
  df[,c("a","b")],  
  subset(df,select=c("a","b"))
)

4
당신은 설정되어 있지 않은 경우 drop=FALSE. 예 :df[,c("a"),drop=F]
까지
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.