SAS PROC FREQ와 동등한 R이 있습니까?


18

누구든지 SAS와 동등한 R을 알고 PROC FREQ있습니까?

여러 변수에 대한 요약 설명 통계를 한 번에 생성하려고합니다.


2
이 질문이 왜 닫혔습니까? 데이터 시각화와 관련이 있으며 몇 가지 가치있는 응답을 생성했습니다.
z0lo

답변:


12

내가 사용 table하고 prop.table있지만, CrossTablegmodels패키지 당신이 더 가까이 SAS에 대한 결과를 줄 수 있습니다. 이 링크를 참조하십시오 .

또한 "한 번에 여러 변수에 대한 설명 통계"를 생성하려면 summary함수를 사용합니다 . 예를 들어, summary(mydata).


또한 vcd 패키지를 적극 권장 하지만 R과 vcd 및 vcdExtra 패키지를 사용하여 범주 데이터 작업을 참조하십시오 .
chl

9

기본 R의 데이터를 요약하는 것은 두통입니다. 이것은 SAS가 잘 작동하는 영역 중 하나입니다. R의 경우 plyr패키지를 권장합니다 .

SAS에서 :

/* tabulate by a and b, with summary stats for x and y in each cell */
proc summary data=dat nway;
  class a b;
  var x y;
  output out=smry mean(x)=xmean mean(y)=ymean var(y)=yvar;
run;

plyr:

smry <- ddply(dat, .(a, b), summarise, xmean=mean(x), ymean=mean(y), yvar=var(y))

8

SAS를 사용하지 않습니다. 따라서 다음 replicate인지 여부에 대해서는 언급 할 수 SAS PROC FREQ없지만 다음은 자주 사용하는 data.frame의 변수를 설명하는 두 가지 빠른 전략입니다.

  • describe에서 Hmisc숫자 및 숫자가 아닌 데이터를 포함한 유용한 변수 요약을 제공합니다.
  • describe에서 psych숫자 데이터 에 대한 설명 통계를 제공합니다.

R 예

> library(MASS) # provides dataset called "survey"
> library(Hmisc) # Hmisc describe
> library(psych) # psych describe

다음은 출력입니다 Hmisc describe.

> Hmisc::describe(survey)
survey 

 12  Variables      237  Observations
----------------------------------------------------------------------------------------------------------------------
Sex 
      n missing  unique 
    236       1       2 

Female (118, 50%), Male (118, 50%) 
----------------------------------------------------------------------------------------------------------------------
Wr.Hnd 
      n missing  unique    Mean     .05     .10     .25     .50     .75     .90     .95 
    236       1      60   18.67   16.00   16.50   17.50   18.50   19.80   21.15   22.05 

lowest : 13.0 14.0 15.0 15.4 15.5, highest: 22.5 22.8 23.0 23.1 23.2 
----------------------------------------------------------------------------------------------------------------------
NW.Hnd 
      n missing  unique    Mean     .05     .10     .25     .50     .75     .90     .95 
    236       1      68   18.58   15.50   16.30   17.50   18.50   19.72   21.00   22.22 

lowest : 12.5 13.0 13.3 13.5 15.0, highest: 22.7 23.0 23.2 23.3 23.5 
----------------------------------------------------------------------------------------------------------------------
[ABBREVIATED OUTPUT]

다음 psych describe은 숫자 변수 에 대한 출력입니다 .

> psych::describe(survey[,sapply(survey, class) %in% c("numeric", "integer") ])
       var   n   mean    sd median trimmed   mad    min   max range  skew kurtosis   se
Wr.Hnd   1 236  18.67  1.88  18.50   18.61  1.48  13.00  23.2 10.20  0.18     0.36 0.12
NW.Hnd   2 236  18.58  1.97  18.50   18.55  1.63  12.50  23.5 11.00  0.02     0.51 0.13
Pulse    3 192  74.15 11.69  72.50   74.02 11.12  35.00 104.0 69.00 -0.02     0.41 0.84
Height   4 209 172.38  9.85 171.00  172.19 10.08 150.00 200.0 50.00  0.22    -0.39 0.68
Age      5 237  20.37  6.47  18.58   18.99  1.61  16.75  73.0 56.25  5.16    34.53 0.42

3

숫자 변수에 대한 요약 통계와 레벨 레이블 및 요인 코드가있는 빈도 표를 제공하는 {EPICALC}코드북 함수를 사용합니다 . http://cran.r-project.org/doc/contrib/Epicalc_Book.pdf (p.50 참조) 또한 이는 정량 변수에 sd를 제공하기 때문에 매우 유용합니다.

즐겨 !

샘플 출력


1
+1 (이전부터). 나는 그 길 codebook()을 정말로 좋아합니다 . 1 문제는 nas가 삭제되어 출력에 포함시킬 수 있다는 것입니다. 이것을 다루는 한 가지 방법 (적어도 w / 인수)은 ? recode.is.na를 1 번째 로 사용하는 것입니다 (예 : "missing") 숫자 변수의 경우,에 기반한 논리 값을 사용하여 열의 왼쪽에 새 변수를 즉시 작성한 is.na()다음을 실행할 수 codebook()있습니다. 그래도 약간의 kluge입니다.
gung-복원 Monica Monica

3

markdown 및 html 형식화 옵션과 함께 코드북과 같은 기능을 포함하는 summarytools 패키지 ( CRAN 링크 )를 확인할 수 있습니다 .

install.packages("summarytools")
library(summarytools)
dfSummary(CO2, style = "grid", plain.ascii = TRUE)

데이터 프레임 요약

이산화탄소

+------------+---------------+-------------------------------------+--------------------+-----------+
| Variable   | Properties    | Stats / Values                      | Freqs, % Valid     | N Valid   |
+============+===============+=====================================+====================+===========+
| Plant      | type:integer  | 1. Qn1                              | 1: 7 (8.3%)        | 84/84     |
|            | class:ordered | 2. Qn2                              | 2: 7 (8.3%)        | (100.0%)  |
|            | + factor      | 3. Qn3                              | 3: 7 (8.3%)        |           |
|            |               | 4. Qc1                              | 4: 7 (8.3%)        |           |
|            |               | 5. Qc3                              | 5: 7 (8.3%)        |           |
|            |               | 6. Qc2                              | 6: 7 (8.3%)        |           |
|            |               | 7. Mn3                              | 7: 7 (8.3%)        |           |
|            |               | 8. Mn2                              | 8: 7 (8.3%)        |           |
|            |               | 9. Mn1                              | 9: 7 (8.3%)        |           |
|            |               | 10. Mc2                             | 10: 7 (8.3%)       |           |
|            |               | ... 2 other levels                  | others: 14 (16.7%) |           |
+------------+---------------+-------------------------------------+--------------------+-----------+
| Type       | type:integer  | 1. Quebec                           | 1: 42 (50%)        | 84/84     |
|            | class:factor  | 2. Mississippi                      | 2: 42 (50%)        | (100.0%)  |
+------------+---------------+-------------------------------------+--------------------+-----------+
| Treatment  | type:integer  | 1. nonchilled                       | 1: 42 (50%)        | 84/84     |
|            | class:factor  | 2. chilled                          | 2: 42 (50%)        | (100.0%)  |
+------------+---------------+-------------------------------------+--------------------+-----------+
| conc       | type:double   | mean (sd) = 435 (295.92)            | 95: 12 (14.3%)     | 84/84     |
|            | class:numeric | min < med < max = 95 < 350 < 1000   | 175: 12 (14.3%)    | (100.0%)  |
|            |               | IQR (CV) = 500 (0.68)               | 250: 12 (14.3%)    |           |
|            |               |                                     | 350: 12 (14.3%)    |           |
|            |               |                                     | 500: 12 (14.3%)    |           |
|            |               |                                     | 675: 12 (14.3%)    |           |
|            |               |                                     | 1000: 12 (14.3%)   |           |
+------------+---------------+-------------------------------------+--------------------+-----------+
| uptake     | type:double   | mean (sd) = 27.21 (10.81)           | 76 distinct values | 84/84     |
|            | class:numeric | min < med < max = 7.7 < 28.3 < 45.5 |                    | (100.0%)  |
|            |               | IQR (CV) = 19.23 (0.4)              |                    |           |
+------------+---------------+-------------------------------------+--------------------+-----------+

편집하다

최신 버전의 summarytools 에서 freq()함수 (원래 질문과 관련하여 더 간단한 빈도 테이블을 생성 하는 함수)는 단일 변수뿐만 아니라 데이터 프레임을 허용합니다. 크로스 탭 ( 프로 프 주파수 도 마찬가지)에 대해서는 ctable()기능을 참조하십시오 .

freq(CO2)

주파수

CO2 $ 식물

유형 : 주문 요인

          Freq   % Valid    % Valid Cum   % Total    % Total Cum
    Qn1      7      8.33           8.33      8.33           8.33
    Qn2      7      8.33          16.67      8.33          16.67
    Qn3      7      8.33          25.00      8.33          25.00
    Qc1      7      8.33          33.33      8.33          33.33
    Qc3      7      8.33          41.67      8.33          41.67
    Qc2      7      8.33          50.00      8.33          50.00
    Mn3      7      8.33          58.33      8.33          58.33
    Mn2      7      8.33          66.67      8.33          66.67
    Mn1      7      8.33          75.00      8.33          75.00
    Mc2      7      8.33          83.33      8.33          83.33
    Mc3      7      8.33          91.67      8.33          91.67
    Mc1      7      8.33         100.00      8.33         100.00
   <NA>      0                               0.00         100.00
  Total     84    100.00         100.00    100.00         100.00
CO2 $ 유형

유형 : 요인

                Freq   % Valid    % Valid Cum   % Total    % Total Cum
       Quebec     42     50.00          50.00     50.00          50.00
  Mississippi     42     50.00         100.00     50.00         100.00
         <NA>      0                               0.00         100.00
        Total     84    100.00         100.00    100.00         100.00
이산화탄소 치료

유형 : 요인

               Freq   % Valid    % Valid Cum   % Total    % Total Cum
  nonchilled     42     50.00          50.00     50.00          50.00
     chilled     42     50.00         100.00     50.00         100.00
        <NA>      0                               0.00         100.00
       Total     84    100.00         100.00    100.00         100.00

2

모든 제안에 감사드립니다. 테이블 또는 Rcmdr의 numSummary 함수를 사용하고 적용했습니다.

apply(dataframe[,c('need_rbcs','need_platelets','need_ffp')],2,table) 

이것은 꽤 잘 작동하며 너무 불편하지 않습니다. 그러나 나는이 다른 솔루션 중 일부를 시도해 볼 것입니다!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.