통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
오른쪽으로 치우친 분포에 로그 변환이 사용되는 이유는 무엇입니까?
나는 한 번 들었다 로그 변환은 선형 회귀 또는 분위수 회귀 분석에서 오른쪽으로 치우친 분포에 가장 많이 사용됩니다. 이 진술의 근거가되는 이유가 무엇인지 알고 싶습니다. 로그 변환이 오른쪽으로 치우친 분포에 적합한 이유는 무엇입니까? 왼쪽으로 치우친 분포는 어떻습니까?

3
기차와 테스트로 나누기 전이나 후에 전가?
N ~ 5000의 데이터 세트가 있고 적어도 하나의 중요한 변수에서 약 1/2이 누락되었습니다. 주요 분석 방법은 Cox 비례 위험입니다. 다중 대치를 사용할 계획입니다. 또한 기차와 테스트 세트로 나눌 것입니다. 데이터를 분할 한 다음 별도로 대치해야합니까? 중요하다면 PROC MI에서 사용할 것 입니다 SAS.

1
원시, 이중 및 커널 릿지 회귀의 차이점
Primal , Dual 및 Kernel Ridge Regression 의 차이점은 무엇입니까 ? 사람들은 세 가지를 모두 사용하고 있으며 다른 출처에서 사용하는 다른 표기법으로 인해 따르기가 어렵습니다. 누군가이 단어의 차이점을 간단한 단어로 말해 줄 수 있습니까? 또한 각각의 장단점은 무엇이며 복잡성은 무엇입니까?

4
세 그룹에 걸쳐 많은 비율의 차이를 가장 잘 시각화하는 방법은 무엇입니까?
나는 세 개의 다른 뉴스 간행물이 어떻게 다른 주제를 다루는지를 시각적으로 비교하려고합니다 (LDA 주제 모델을 통해 결정). 나는 그렇게하는 두 가지 관련 방법을 가지고 있지만 이것이 매우 직관적이지 않다는 동료로부터 많은 피드백을 받았습니다. 나는 누군가를 시각화하기위한 더 좋은 아이디어가 있기를 바랍니다. 첫 번째 그래프에서는 다음과 같이 각 발행물의 각 주제 …


1
제한된 매개 변수 공간의 MCMC?
MCMC를 문제에 적용하려고하는데 내 사전 (내 경우에는 )이 영역으로 제한됩니까? 일반 MCMC를 사용하고 제한된 영역을 벗어나는 샘플을 무시할 수 있습니까 (제 경우에는 [0,1] ^ 2 임), 즉 새 전환이 제한된 (제한된) 영역에서 벗어날 때 전환 기능을 재사용 할 수 있습니까?α∈[0,1],β∈[0,1]α∈[0,1],β∈[0,1]\alpha\in[0,1],\beta\in[0,1]

3
"정규화"란 무엇이며 표본 또는 분포가 정규화되었는지 확인하는 방법은 무엇입니까?
균일 분포 ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) )가 정규화 되는지 여부를 묻는 질문 이 있습니다. 우선, 분포가 정규화되었다는 것은 무엇을 의미합니까? 둘째, 분포가 정규화되는지 여부를 확인하는 방법은 무엇입니까? 나는 X 를 계산함으로써 이해한다 - 평균X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} 정규화 된데이터를 얻지만 여기서는분포가 정규화되었는지 여부를 묻습니다.

2
PCA biplot의 네 축은 무엇입니까?
PCA 분석을 위해 바이 플롯을 구성 할 때 x 축의 주성분 PC1 점수와 y 축의 PC2 점수가 있습니다. 그러나 화면의 오른쪽과 위쪽에 다른 두 축은 무엇입니까?
18 r  pca  biplot 

2
더미 기능 (및 기타 이산 / 범주 기능)을 통한 이상 탐지
tl; dr discrete이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ? categorical이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ? 이 답변 은 개별 데이터를 사용하여 결과를 필터링하는 것이 좋습니다. 아마도 범주 값을 perctage 관찰 가능성으로 대체 하시겠습니까? 소개 이것은 처음으로 여기에 게시되므로 형식이나 …

2
svyglm vs glm에서 가중치 사용
가중치의 치료 사이에 차이가 어떻게 알고 싶습니다 svyglm및glm 나는 twangR 에서 패키지를 사용하여 다음과 같이 성향 점수를 만든 다음 가중치로 사용합니다 (이 코드는 twang설명서 에서 제공됨). library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75, data …
18 r  survey 

1
이산 시간 생존 분석에 대한 기본 질문
로지스틱 회귀 모델을 사용하여 불연속 시간 생존 분석을 수행하려고하는데 프로세스를 완전히 이해하지 못했습니다. 몇 가지 기본적인 질문에 도움을 주셔서 감사합니다. 설정은 다음과 같습니다. 5 년 내에 그룹 멤버십을보고 있습니다. 각 회원은 해당 회원이 그룹에 속한 각 달의 월별 회원 기록을 보유합니다. 5 년 동안 멤버십을 시작한 모든 멤버를 고려하고 있습니다 …



3
멀티 클래스 분류기를 여러 이진 분류기보다 낫습니까?
URL을 카테고리로 분류해야합니다. 모든 URL을 0으로 분류하려는 15 개의 카테고리가 있다고 가정 해 보겠습니다. 15-way 분류 기가 더 낫습니까? 여기서 15 개의 레이블이 있고 각 데이터 포인트에 대한 기능을 생성합니다. 또는 15 개의 이진 분류기를 작성하십시오 (예 : 영화 또는 영화가 아닌 경우).

1
선형 회귀 분석에서 범주 형 변수의 통계적 유의성을 검정하는 방법은 무엇입니까?
선형 회귀 분석에 범주 형 변수가있는 경우 범주 형 변수의 통계적 유의성을 어떻게 알 수 있습니까? 요인 에 10 수준이 있다고 가정 해 봅시다. 한 요인 변수 X 1 의 우산 아래에 10 개의 다른 결과 t- 값이있을 것입니다 ...X1X1X_1X1X1X_1 통계적 유의성이 요인 변수의 각 수준에 대해 테스트 된 것 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.