«data-transformation» 태그된 질문

종종 비선형 인 데이터 값의 수학적 재 표현. 데이터는 종종 통계 모델의 가정을 충족 시키거나 분석 결과를보다 해석하기 쉽도록 변환합니다.

4
범주 형 데이터를 요약하는 방법?
나는 다음과 같은 문제로 어려움을 겪고 있기 때문에 통계 학자에게는 쉬운 일입니다 (통계에 약간 노출 된 프로그래머입니다). 설문에 대한 답변을 (관리를 위해) 요약해야합니다. 설문 조사에는 100 개 이상의 질문이 있으며, 여러 영역으로 그룹화되어 있습니다 (영역 당 약 5-10 개의 질문). 모든 답변은 범주 형입니다 (서수 척도에서는 "아무도", "드물게"... "매일 또는 …

3
Box-Cox 변환 데이터에서 원래 단위로 답변을 표현
일부 측정의 경우 분석 결과가 변환 된 스케일로 적절하게 표시됩니다. 그러나 대부분의 경우 원래 측정 규모로 결과를 제시하는 것이 바람직합니다 (그렇지 않으면 귀하의 작업은 다소 가치가 없습니다). 예를 들어, 로그 변환 된 데이터의 경우, 로그 된 값의 평균이 평균의 로그가 아니기 때문에 원래 스케일에 대한 해석에 문제가 발생합니다. 로그 척도의 …

5
다른 길이의 시계열에 대한 SVD 차원 축소
특이 값 감소 기술로 특이 값 분해를 사용하고 있습니다. N차원이 주어진 벡터는 D상관 관계가없는 차원으로 변환 된 공간의 특징을 나타내며,이 공간의 고유 벡터에있는 데이터 정보의 대부분을 중요도가 감소하는 순서로 요약합니다. 이제이 절차를 시계열 데이터에 적용하려고합니다. 문제는 모든 시퀀스의 길이가 같지 않기 때문에 실제로 num-by-dim행렬을 만들고 SVD를 적용 할 수 없다는 …

4
반응 변수가 연간 이벤트 (일반적으로)가 발생하는 연도의 회귀 모델
이 특별한 경우에 나는 호수가 얼어 붙은 날을 언급하고 있습니다. 이 "아이스 온"날짜는 1 년에 한 번만 발생하지만 때로는 겨울이 따뜻한 경우 전혀 발생하지 않습니다. 따라서 1 년에 호수는 20 일 (1 월 20 일)에 얼어 붙을 수 있고, 다른 해에는 전혀 얼지 않을 수 있습니다. 목표는 시작 날짜의 동인을 …

2
시각화가 데이터 변환을위한 충분한 근거가됩니까?
문제 예를 들어 각 매개 변수마다 다른 막대가있는 막대 그림과 y 축의 분산과 같이 30 개 매개 변수 각각에 의해 설명 된 분산을 플로팅하고 싶습니다. 그러나 분산은 아래 히스토그램에서 볼 수 있듯이 0을 포함하여 작은 값으로 치우칩니다. 변환 하면 작은 값 (아래 막대 그래프 및 막대 그래프)의 차이점을 쉽게 볼 …

1
인가
동료가 반응 변수를 1 의 거듭 제곱으로 높여서 변수를 변환 한 후 일부 데이터를 분석하려고합니다. (즉,y0.125).1818\frac18와이0.125y0.125y^{0.125} 나는 이것에 불편하지만, 이유를 분명히하기 위해 고군분투하고있다. 나는이 변화에 대한 어떤 기계적인 근거도 생각할 수 없다. 전에도 본 적이 없으며, 제 1 종 오류율이나 그 이상이 부풀려 질까 걱정됩니다. 그러나 이러한 우려를지지 할만한 것은 …

1
비율이 독립 변수 인 경우 비율을 변환하는 가장 적절한 방법은 무엇입니까?
나는이 문제를 이해했다고 생각했지만 확실하지 않으며 진행하기 전에 다른 사람들과 확인하고 싶습니다. 나는 두 개의 변수를 가지고 X와 Y. Y는 비율이며 0과 1로 제한되지 않으며 일반적으로 정규 분포입니다. X비율이며 0과 1로 제한됩니다 (0.0에서 0.6까지 실행). 나는의 선형 회귀를 실행하면 Y ~ X나는 것을 발견 X하고 Y크게 선형 적으로 관련이 있습니다. …

4
문제가 선형 회귀에 적합하다는 결론
Montgomery, Peck 및 Vining의 선형 회귀 분석 소개를 사용하여 선형 회귀를 배우고 있습니다. 데이터 분석 프로젝트를 선택하고 싶습니다. 설명 회귀 변수와 반응 변수 사이에 선형 기능 관계가 있다고 의심되는 경우에만 선형 회귀가 적합하다는 순진한 생각을했습니다. 그러나 많은 실제 응용 프로그램이이 기준을 충족시키는 것 같지는 않습니다. 그러나 선형 회귀는 매우 널리 …

2
정규 분포 X와 Y는 정규 분포 잔차를 더 많이 발생합니까?
여기서 선형 회귀 분석에서 정규성의 가정에 대한 잘못된 해석이 논의되고 ( '정규'는 잔차가 아닌 X 및 / 또는 Y를 나타냄) 포스터는 정규 분포가 아닌 X와 Y를 가질 수 있는지 묻습니다. 여전히 정규 분포 잔차가 있습니다. 내 질문은 : 정규 분포 X와 Y 가 정규 분포 잔차를 초래할 가능성 이 더 …

3
Leptokurtic 분포를 정규로 변환하는 방법은 무엇입니까?
정규성으로 변환하고 싶은 leptokurtic 변수가 있다고 가정합니다. 이 작업을 수행 할 수있는 변형은 무엇입니까? 데이터 변환이 항상 바람직하지는 않지만 학업을 추구함에 따라 데이터를 정상으로 "해머링"한다고 가정합니다. 또한 그림에서 알 수 있듯이 모든 값은 엄격하게 양수입니다. 나는 포함하여 내가 전에 사용 보았다 변환의 다양한 (거의 아무것도 시도 등)이지만 특히 잘 작동하지는 …

1
히든 마르코프 모델에서 "최상의"모델을 선택하기위한 기준
데이터의 잠재 상태 수를 추정하기 위해 HMM (Hidden Markov Model)에 맞추려고하는 시계열 데이터 세트가 있습니다. 이 작업을 수행하는 의사 코드는 다음과 같습니다. for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 이제 일반적인 회귀 모델에서 BIC는 가장 …


1
기록 된 변수를 사용하는 이유는 무엇입니까?
아마도 이것은 매우 기본적인 질문이지만 확실한 대답을 찾지 못하는 것 같습니다. 나는 여기서 할 수 있기를 바랍니다. 나는 현재 자신의 석사 논문 준비를 위해 논문을 읽고 있습니다. 현재 트윗과 주식 시장 기능의 관계를 조사하는 논문을 읽고 있습니다. 그들의 가설 중 하나에서, 그들은 증가 된 트위터 양이 거래량 증가와 관련이 있다고 …

2
어떤 시점에서 응답이 심하게 왜곡되고 일부는 반복 측정 연구에 있지 않은 경우 어떻게해야합니까?
일반적으로 종단 설계에서 연속적이지만 치우친 결과 측정치가 발생하는 경우 (예 : 개체 간 효과가 하나 인 경우) 일반적인 접근 방식은 결과를 정규성으로 변환하는 것입니다. 절단 된 관측과 같이 상황이 극단적 인 경우에는 환상적이게되고 Tobit 성장 곡선 모델 또는 일부를 사용할 수 있습니다. 그러나 특정 시점에 일반적으로 분배 된 결과가 다른 …

2
로그 차이 시계열 모델이 성장률보다 우수합니까?
저자들이 종종 "로그 차이"모델을 추정하는 것을 본다. 로그( y티) − 로그( yt - 1) = 로그( y티/ yt - 1) = α + β엑스티로그⁡(와이티)−로그⁡(와이티−1)=로그⁡(와이티/와이티−1)=α+β엑스티\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t 가 동안 를 의 백분율 변화 와 관련시키는 것이 적절하다는 데 동의합니다 .엑스티엑스티x_t와이티와이티y_t로그( y티)로그⁡(와이티)\log (y_t)나는( 1 )나는(1)I(1) 그러나 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.