«data-transformation» 태그된 질문

종종 비선형 인 데이터 값의 수학적 재 표현. 데이터는 종종 통계 모델의 가정을 충족 시키거나 분석 결과를보다 해석하기 쉽도록 변환합니다.

5
R에서 와이드 형식과 긴 형식간에 데이터를 변경하는 방법은 무엇입니까? [닫은]
넓은 형식 또는 긴 형식의 데이터를 가질 수 있습니다. 형식에 따라 사용 가능한 방법이 다르기 때문에 이것은 매우 중요한 것입니다. 나는 당신이 일을 알고 melt()및 cast()모양 변경 패키지,하지만 난하지 않는 것이 몇 가지가 보인다. 누군가 당신이 어떻게 이것을 간단한 개요를 줄 수 있습니까?


2
음 이항 회귀의 가정은 무엇입니까?
나는 큰 데이터 세트 (기밀, 너무 많이 공유 할 수 없음)로 작업하고 있으며 부정적인 이항 회귀가 필요하다는 결론에 도달했습니다. 나는 전에 glm 회귀를 한 적이 없으며 가정이 무엇인지에 대한 명확한 정보를 찾을 수 없습니다. MLR과 동일합니까? 변수를 같은 방식으로 변환 할 수 있습니까 (이미 종속 변수를 변환하는 것이 자연수 여야하기 …

3
미백은 항상 좋은가요?
머신 러닝 알고리즘의 일반적인 전처리 단계는 데이터 미백입니다. 데이터의 상관 관계를 해제하여 모델링하기가 더 간단하기 때문에 항상 미백을 수행하는 것이 좋습니다. 미백은 언제 권장되지 않습니까? 참고 : 데이터의 상관 관계를 언급하고 있습니다.

2
R에서 다중 회귀 변수 변환
에서 다중 회귀를 수행하려고합니다 R. 그러나 내 종속 변수에는 다음 플롯이 있습니다. 다음은 모든 변수가있는 산점도 행렬입니다 ( WAR종속 변수입니다). 이 변수 (및 독립 변수)에 대한 변환을 수행해야하지만 정확한 변환이 확실하지 않습니다. 누군가 올바른 방향으로 나를 가리킬 수 있습니까? 독립 변수와 종속 변수 간의 관계에 대한 추가 정보를 제공하게되어 기쁩니다. …

4
ARIMA 모델을 피팅하기 전에 시계열을 로그 변환하는시기
이전에 예측 프로 를 사용 하여 일 변량 시계열을 예측했지만 워크 플로를 R로 전환하고 있습니다. R에 대한 예측 패키지에는 유용한 기능이 많이 포함되어 있지만 자동으로 실행하기 전에 데이터 변환이 필요하지 않습니다. .arima (). 경우에 따라 예측 전문가는 예측을 수행하기 전에 변환 데이터를 로그하기로 결정하지만 아직 이유를 찾지 못했습니다. 그래서 내 …

3
이 홀수 모양 분포를 모델링하는 방법 (거의 J)
아래에 표시된 내 종속 변수는 내가 알고있는 재고 분포와 맞지 않습니다. 선형 회귀는 이상한 Y로 예측 된 Y와 관련하여 다소 비정규의 오른쪽으로 치우친 잔차를 생성합니다 (2 차 플롯). 가장 유효한 결과와 최상의 예측 정확도를 얻을 수있는 변형이나 다른 방법에 대한 제안이 있습니까? 가능한 경우 5 가지 값 (예 : 0, …

7
예를 들어 성별이 일반적으로 1/2이 아닌 0/1로 코딩되는 이유는 무엇입니까?
데이터 분석을위한 코딩 논리를 이해합니다. 아래의 내 질문은 특정 코드 사용에 관한 것입니다. 성별이 여성의 경우 0, 남성의 경우 1로 코딩되는 이유가 있습니까? 이 코딩이 왜 '표준'으로 간주됩니까? 이것을 Female = 1 및 Male = 2와 비교하십시오.이 코딩에 문제가 있습니까?

3
R에서 열 단위 행렬 정규화 [닫기]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 육년 전 . R에서 행렬의 열 단위 정규화를 수행하고 싶습니다. 행렬이 주어지면 m각 요소를 열의 합으로 나누어 각 열을 정규화하고 싶습니다. 이 작업을 수행하는 한 가지 방법은 …

3
머신 러닝에서 전력 또는 로그 변환이 많이 배우지 않는 이유는 무엇입니까?
기계 학습 (ML)은 선형 및 로지스틱 회귀 기술을 많이 사용합니다. 또한 기능 공학 기술 (에 의존 feature transform, kernel등). 이유는 없다 아무것도 에 대한 variable transformation(예 power transformation) ML에서 언급은? (예를 들어, 루트 또는 로그를 피처로 가져 오는 것에 대해 들어 본 적이 없으며 일반적으로 다항식 또는 RBF 만 사용합니다.) …

6
고급 회귀 모델링 예제
GLM 또는 OLS를 사용하여 복잡한 다중 비선형 관계를 모델링하는 데 필요한 단계를 보여주는 고급 선형 회귀 사례 연구를 찾고 있습니다. 기본 학교의 예를 넘어서는 자료를 찾는 것은 놀랍게도 어려운 일입니다. 제가 읽은 대부분의 책은 하나의 예측 변수의 BoxCox 또는 최상의 경우 자연스러운 스플라인과 결합 된 응답의 로그 변환 이상으로 진행되지 …

4
정상 rv의 첨도 및 왜도를 증가시키는 변형
나는 관측 값 가 정규 분포 되어 있다는 사실에 의존하는 알고리즘을 연구하고 있으며 경험적 으로이 가정에 대한 알고리즘의 견고성을 테스트하고 싶습니다.와이YY 이를 위해 의 정규성을 점진적으로 중단시키는 일련의 변환 을 . 예를 들어, 가 정상 왜도 이고 첨도 이므로 점진적으로 증가하는 변형 순서를 찾는 것이 좋습니다.Y Y = 0 = …

3
반응이 네 번째 근본으로 변환 될 때 회귀 계수를 해석하는 방법은 무엇입니까?
1/4이 분산의 결과로 응답 변수에 네 번째 근 ( ) 전력 변환을 사용하고 있습니다. 그러나 이제 회귀 계수를 해석하는 방법을 모르겠습니다. 역변환 할 때 계수를 네 번째 거듭 제곱으로 가져와야한다고 가정합니다 (회귀 출력 참조). 모든 변수는 수백만 달러로 표시되지만 수십억 달러의 변화를 알고 싶습니다. 다른 독립 변수를 일정하게 유지하면서 평균 …

6
변수의 스케일을 0-100으로 변경
PCA 기술을 사용하여 소셜 자본 지수를 구성했습니다. 이 지수는 양수와 음수 값으로 구성됩니다. 해석하기 쉽도록이 인덱스를 0-100 스케일로 변환 / 변환하고 싶습니다. 가장 쉬운 방법을 제안하십시오.

2
계절 분해 방법 선택
계절 조정 은 추가 연구를 위해 데이터를 전처리하는 중요한 단계입니다. 그러나 연구원은 추세주기 계절 분해를위한 여러 가지 옵션을 가지고 있습니다. 라이벌 계절 분해법 (경험적 문헌에서 인용 숫자로 판정) 가장 일반적인 X-11 (12) -ARIMA, Tramo / 좌석 (모두 구현된다 DEMETRA + ) 및 의 STL . 위에서 언급 한 분해 기술 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.