data.frame을 필터링해야 할 때, 즉 특정 조건을 만족하는 행을 추출하려면 subset
함수 를 사용하는 것이 좋습니다 .
subset(airquality, Month == 8 & Temp > 90)
[
기능이 아닌 :
airquality[airquality$Month == 8 & airquality$Temp > 90, ]
내가 선호하는 두 가지 주요 이유가 있습니다.
왼쪽에서 오른쪽으로 코드가 더 잘 읽 힙니다. R에 대해 전혀 모르는 사람들조차도
subset
위 의 진술이 무엇을하고 있는지 말할 수 있습니다.select
표현식 에서 열을 변수 라고 할 수 있으므로 몇 가지 키 입력을 저장할 수 있습니다. 위의 예에서는로airquality
한 번만 입력 하고subset
로 세 번 입력해야했습니다[
.
그래서 나는 subset
짧고 잘 읽히기 때문에 어디에서나 행복하게 살고 있었고, 동료 R 코더에게 아름다움을 옹호하기까지했습니다. 그러나 어제 세상은 무너졌습니다. subset
설명서를 읽는 동안 이 섹션을 확인했습니다.
경고
대화식으로 사용하기위한 편리한 기능입니다. 프로그래밍의 경우에는 [와 같은 표준 하위 설정 기능을 사용하는 것이 좋으며, 특히 인수 하위 집합의 비표준 평가는 예상치 못한 결과를 초래할 수 있습니다.
저자가 무엇을 의미하는지 명확히하는 데 도움이 될 수 있습니까?
먼저, " 대화식으로 사용 "이란 무엇을 의미 합니까? BATCH 모드에서 실행되는 스크립트와 달리 대화 형 세션이 무엇인지 알고 있지만 어떤 차이가 있는지는 알 수 없습니다.
그런 다음 " 비표준 부분 집합의 비표준 평가 "를 설명 하고 왜 위험한지 설명해 주시겠습니까?
dplyr::filter
같은 문제가 있습니다. 즉, 환경에 해당 이름의 변수가 있으면 데이터 프레임의 변수 대신 변수를 사용합니다. 혼란스러운 디버깅을 만듭니다!
with(airquality, airquality[Month == 8 & Temp > 90, ])