비율 분석


13

최대 1을 더하는 여러 비율을 포함하는 데이터 집합이 있습니다. 그래디언트를 따라 이러한 비율을 변경하는 데 관심이 있습니다 (데이터 예는 아래 참조).

gradient <- 1:99
A1 <- gradient * 0.005
A2 <- gradient * 0.004
A3 <- 1 - (A1 + A2)

df <- data.frame(gradient = gradient,
                 A1 = A1,
                 A2 = A2,
                 A3 = A3)

require(ggplot2)
require(reshape2)
dfm <- melt(df, id = "gradient")
ggplot(dfm, aes(x = gradient, y = value, fill = variable)) +
  geom_area()

여기에 이미지 설명을 입력하십시오

추가 정보 : 반드시 선형 일 필요는 없으며 예제의 편의를 위해이 작업을 수행했습니다. 이러한 비율이 계산되는 원래 개수도 사용할 수 있습니다. 실제 데이터 셋에는 1을 더하는 변수가 더 많습니다 (예 : B1, B2 & B3, C1에서 C4 등). 통계 측면.

질문 : 그런 종류의 데이터를 어떻게 분석 할 수 있습니까? 나는 조금 주위를 읽었고 아마도 다항식 모델이나 glm이 적합합니까? -3 개 (또는 2 개)의 glm을 실행하는 경우 예측 된 값의 합이 1로 제한되는 제약 조건을 어떻게 통합 할 수 있습니까? 나는 그런 종류의 데이터를 플롯하고 싶지 않으며 분석과 같은 더 깊은 회귀를 원합니다. R을 사용하고 싶습니다. R에서 어떻게 할 수 있습니까?


proprcsplineStata 의 명령 은 당신이 찾고있는 것일 수 있습니다 (사용하고 싶다는 것을 알고 R있지만 아마도 시작점이 될 수 있습니다) : proprcspline은 xvar이 주어진 yvar의 각 범주에서 관측 비율의 부드러운 입방 스플라인을 계산합니다. 누적 영역 플롯으로 그래프를 표시합니다. 선택적으로 이러한 평활화 된 비율은 일련의 제어 변수 (cvar)에 맞게 조정할 수 있습니다.
boscovich

"관심있는"의 의미에 대해 자세히 설명해 주시겠습니까? 그래디언트에 대한 비율을 플롯하고 싶습니까? 아니면 더 깊은 분석을 염두에두고 있습니까? 그렇다면 그 특성은 무엇입니까?이 데이터에서 정확히 무엇을 배우기를 원하십니까? 또한 사용 가능한 원래 수 (비교적)가 있거나 비율 있습니까? 이러한 데이터의 구성 및 수집 방법에 대해 조금 더 말씀해 주시겠습니까?
whuber

1
@ whuber :이 데이터로 더 깊이 분석하고 싶습니다. 내 가설은 비율이 기울기에 따라 변한다는 것입니다. 카운트도 가능합니다.
EDi

1
구성 데이터가있는 것 같습니다. 나는 그것에 대해 많이 알지 못하지만 Aitchison의 작품이 시작될 곳입니다. CRAN에는 패키지, 컴포지션이 있습니다.
Aaron은 Stack Overflow를

답변:


13

한 차원에서, 이것은 베타 회귀에 대한 작업처럼 들립니다 (가변 분산의 유무에 관계없이). 이것은 베타-분포 종속 변수, 자연적으로 0-1 제한을 갖는 회귀 모델입니다. R 패키지는 베타 레그 이며 그 사용법을 설명하는 논문이 여기 있습니다 .
두 배 이상의 비율에서 베타 배포의 일반적인 확장은 Dirichlet 회귀로 이어집니다. 여기에 설명 된 R 패키지 DirichletReg 를 사용할 수 있습니다 .

실제 컴포지션 데이터에 로짓 링크와 다항 로지스틱 회귀를 사용하지 않는 데는 몇 가지 이유가 있습니다. 주로 분산에 대해 암시하는 강력한 가정과 관련이 있습니다. 그러나 데이터가 모두 실제로 정규화 된 수 (풍부한가?) 인 경우 이러한 가정이 정확할 수 있으며 Peter의 제안이 갈 수 있습니다.


링크 주셔서 감사합니다, 나는 그들을 볼 수 있습니다. DirichletReg는 유망 해 보입니다! 예를 들어, 링크 3의 슬라이드 : "특정 범주에서 응답의 '확률'이 선택에 분산되어 있으면 Dirichlet 접근 방식이보다 유익합니다." . mlogit 으로이 작업을 수행하는 방법을 몰랐기 때문에 선택 사항이 고유 할 필요가 없기 때문입니다. 또한 그래픽 표현의 좋은 방법-그것에 대해 생각하지 못했습니다 ...
EDi

그래픽의 경우 R 함수 splineplotcdplot이 도움 이 될 수 있습니다. 당신은 단지 장착 라인을 원하고 그럴 수 아마도 동축 회귀 기계가 많이 필요하지 않았다 사실 경우 cdplot 당신에게 관련 곡선 (그것은 단지의 제공에 밀도 아래)
conjugateprior

죄송합니다 . 분명히 spineplot 을 입력 해야했습니다 .
공역 사전

DirichletReg 패키지는 이제 CRAN 에서 사용 가능 하며 비 네트 가 공개되었습니다.
jbaums

4

정확히 무엇을 찾으려고하는지 확실하지 않지만 독립 변수로 기울기를 사용하는 다항 로지스틱 회귀 분석은 어떻습니까?

R에서이를 수행하는 한 가지 방법은 mlogit 라이브러리의 mlogit 함수입니다. 이 비네팅 참조

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.