통계 및 빅 데이터

3

변수는 종종 모델을 만들기 전에 조정 (예 : 표준화)됩니다. 언제 이것이 좋은 생각이고 언제 나쁜 것입니까?

어떤 상황에서 모형 적합 전에 변수를 스케일하거나 표준화하지 않겠습니까? 그리고 변수 스케일링의 장단점은 무엇입니까?

56 modeling predictive-models feature-selection theory standardization

6

수신 한 데이터에서 계절성을 감지하고 싶습니다. 계절 하위 계열 그림 및 자기 상관 그림과 같이 내가 찾은 몇 가지 방법이 있지만 그래프를 읽는 방법을 이해하지 못하는 사람이 있습니까? 다른 하나는 그래프의 최종 결과 유무에 관계없이 계절성을 감지하는 다른 방법이 있습니까?

56 time-series seasonality

12

그래프에서 데이터를 긁어내는 데 필요한 소프트웨어

누구나 직교 좌표 (표준, 일상 플롯)에 플롯 된 데이터 이미지를 가져 와서 그래프에 플롯 된 포인트의 좌표를 추출하는 소프트웨어 (바람직하게는 무료, 바람직하게는 오픈 소스)에 대한 경험이 있습니까? 본질적으로 이것은 데이터 마이닝 문제와 역 데이터 시각화 문제입니다.

56 data-visualization data-mining software

13

지난 15 년간 통계에서 획기적인 것은 무엇입니까?

Friedman-Hastie-Tibshirani의 Boosting에 대한 Annals of Statistics 논문과 Freund와 Schapire를 포함한 다른 저자의 동일한 문제에 대한 의견을 여전히 기억합니다. 그 당시 분명히 Boosting은 여러 측면에서 획기적인 것으로 여겨졌습니다. 전산 적으로 실현 가능하고 앙상블 방식으로 훌륭하지만 신비한 성능을 제공합니다. 같은시기에 SVM은 오래된 이론에 기반을 둔 프레임 워크 와 다양한 변형 및 응용 …

56 mathematical-statistics history

8

가설 검정을 계속 가르치고 사용하는 이유는 무엇입니까 (신뢰 구간을 사용할 수있는 경우)?

구간 추정기 (자신감, 부트 스트랩, 신뢰성 또는 기타)가있는 문제에 대해 가설 검정 (어려운 개념과 가장 통계적인 죄 중 하나)을 계속 가르치고 사용하는 이유는 무엇입니까? 학생들에게 가장 좋은 설명은 무엇입니까? 전통 만? 전망은 매우 환영받을 것입니다.

56 hypothesis-testing confidence-interval teaching

2

부분적 우도, 프로파일 우도 및 한계 우도의 차이점은 무엇입니까?

나는이 용어들이 사용되는 것을 보았고 그것들을 계속 섞고 있습니다. 차이점에 대한 간단한 설명이 있습니까?

56 estimation maximum-likelihood

4

랜덤 변수 집합의 최소값은 어떻게 분산됩니까?

X1,...,XnX1,...,XnX_1, ..., X_nmin(X1,...,Xn)min(X1,...,Xn)\min(X_1, ..., X_n)

56 distributions random-variable minimum

6

R에서 t- 검정 (페어링 및 비 페어링) 대신 사용할 순열 테스트 구현은 무엇입니까?

t- 검정을 사용하여 분석 한 실험 데이터가 있습니다. 종속 변수의 간격은 조정되며 데이터는 짝을 이루지 못했거나 (2 개의 그룹) 짝을 이루어 (즉, 개체 내)에 있습니다. 예 : (주체 내) : x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, …

56 r t-test nonparametric permutation-test

5

계량 경제학의“무작위 효과 모델”은 계량 경제학 이외의 혼합 모형과 정확히 어떤 관련이 있습니까?

계량 경제학의 "무작위 효과 모델"이 계량 경제학 외부의 "임의 차단과 혼합 된 모델"에 해당한다고 생각했지만 지금은 확실하지 않습니다. 그렇습니까? 계량 경제학은 "고정 효과"및 "무작위 효과"와 같은 용어를 혼합 모형에 대한 문헌과 약간 다르게 사용하며 이는 악명 높은 혼란을 야기합니다. 가 선형 적으로 의존 하지만 다른 측정 그룹에서 다른 절편을 갖는 …

56 mixed-model econometrics panel-data lme4-nlme plm

8

특정 평균 및 표준 편차와 같은 특정 제약 조건을 충족하는 데이터를 시뮬레이션하는 방법은 무엇입니까?

이 질문은 메타 분석에 대한 나의 질문에 의해 동기가 부여됩니다 . 그러나 기존 게시 된 데이터 집합을 정확하게 미러링하는 데이터 집합을 만들려는 컨텍스트를 가르치는데도 유용하다고 생각합니다. 주어진 분포에서 무작위 데이터를 생성하는 방법을 알고 있습니다. 예를 들어 다음과 같은 연구 결과에 대해 읽은 경우 : 평균 102, 표준 편차 5.2 72의 …

56 r dataset simulation random-generation

2

수축이 작동하는 이유는 무엇입니까?

모형 선택의 문제를 해결하기 위해 많은 방법 (LASSO, 능선 회귀 등)이 예측 변수의 계수를 0으로 줄입니다. 왜 이것이 예측 능력을 향상시키는 지에 대한 직관적 인 설명을 찾고 있습니다. 변수의 실제 효과가 실제로 매우 큰 경우, 왜 매개 변수를 축소해도 예측이 더 나 빠지지 않습니까?

55 lasso regularization ridge-regression intuition shrinkage

10

통계에서 시대적 관행의 예는 무엇입니까?

나는 그들이 대처하기 위해 고안된 문제들 (보통 계산적)이 대부분 해결되었지만, 여전히 그 존재를 유지하는 관행을 언급하고있다. 예를 들어, Yates의 연속성 보정은 테스트를 사용하여 Fisher의 정확한 테스트를 근사하기 위해 고안 되었지만 더 이상 실용적이지 않습니다. 소프트웨어는 이제 큰 샘플로도 Fisher의 테스트를 처리 할 수 있기 때문입니다. Agresti의 Categorical Data Analysis 와 …

55 references philosophical

2

변수 선택에 대한보다 명확한 토론

배경 저는 의학에서 임상 연구를하고 있으며 몇 가지 통계 과정을 수강했습니다. 선형 / 로지스틱 회귀를 사용하여 논문을 출판 한 적이 없으며 변수 선택을 올바르게하고 싶습니다. 해석 성이 중요하므로 멋진 기계 학습 기술이 없습니다. 나는 변수 선택에 대한 나의 이해를 요약했다. 누군가가 어떤 오해에 대해서도 밝힐 까? 내가 발견 이 (1) …

55 regression feature-selection model-selection

1

로지스틱 회귀 분석에 대한 Wald 테스트

내가 로지스틱 회귀와 관련하여 Wald 검정을 이해하는 한 특정 예측 변수 가 유의 한지 여부를 결정하는 데 사용됩니다 . 해당 계수의 귀무 가설이 0임을 거부합니다.엑스XX 테스트는 계수 값을 표준 오차 로 나누는 것으로 구성됩니다 .σσ\sigma 내가 혼란스러워하는 것은 가 Z 점수로도 알려져 있으며 주어진 관측치가 정규 분포 (평균 0)에서 발생할 …

55 logistic z-statistic

4

로그 변환 된 응답 변수에 대해 LM과 GLM 중에서 선택

GLM (Generalized Linear Model)과 LM (Linear Model)을 사용하는 철학을 이해하려고합니다. 아래에 예제 데이터 세트를 만들었습니다. log(y)=x+εlog⁡(y)=x+ε\log(y) = x + \varepsilon 이 예제에는 크기의 함수로 오류가 없으므로 로그 변환 된 y의 선형 모델이 가장 좋다고 가정합니다. 아래 예제에서는 로그 변환 된 데이터에 대한 LM의 AIC가 가장 낮기 때문에 실제로 그런 경우입니다. …

55 r generalized-linear-model linear-model gamma-distribution link-function