통계 및 빅 데이터

5

관계

하자 내가 두 개의 1 차원 배열이 있다고 1 과 2 . 각 데이터 포인트는 100 개입니다. 1 실제 데이터이며 2 모델 예측이다. 이 경우 R 2 값은 다음과 같습니다. R 2 = 1 − S S r e s에이1a1a_1에이2a2a_2에이1a1a_1에이2a2a_2아르 자형2R2R^2아르 자형2= 1 - S에스r e s에스에스t O t ( …

39 correlation r-squared

5

변수 선택을 위해 R의 lars (또는 glmnet) 패키지에서 LASSO 사용

이 질문에 약간의 기초가 있다면 미안합니다. R의 다중 선형 회귀 모델에 LASSO 변수 선택을 사용하려고합니다. 15 개의 예측 변수가 있는데 그중 하나는 범주 형입니다 (문제를 일으킬 수 있습니까?). 내 와 설정 한 후 다음 명령을 사용합니다.y엑스xx와이yy model = lars(x, y) coef(model) 내 문제는 내가 사용할 때 coef(model)입니다. 이렇게하면 매 15 …

39 feature-selection lasso glmnet lars

3

Apple 주가의 경우 많은 수의 법률이 적용되지 않는 이유는 무엇입니까?

다음은 NY 시대의 "Apple은 많은 수의 법에 맞서고 있습니다" 라는 기사입니다 . 그것은 많은 수의 법을 사용하여 Apple 주가 상승을 설명하려고 시도합니다. 이 기사는 어떤 통계적 (또는 수학적) 오류를 발생 시키는가?

39 probability central-limit-theorem law-of-large-numbers statistics-in-media

2

로지스틱 회귀 전력 분석 시뮬레이션-설계 실험

이 질문은에 관해서 @Greg 눈에 의해 주어진 답변에 대한 응답이다 질문 내가 로지스틱 회귀 및 SAS와 전력 분석에 관한 질문 Proc GLMPOWER. 실험을 설계 중이고 요인 로지스틱 회귀 분석으로 결과를 분석 할 경우 시뮬레이션 (및 여기 )을 사용하여 검정력 분석을 수행하려면 어떻게해야합니까? 다음은 두 개의 변수가있는 간단한 예입니다. 첫 번째는 …

39 r logistic generalized-linear-model simulation power-analysis

1

통계적으로 유의미하고 유의하지 않은 분석에서 에타 제곱 / 부분 에타 제곱을 해석하고보고하는 방법은 무엇입니까?

그룹 평균 차이에 대한 효과 크기의 척도로 계산 된 에타 제곱 값과 부분 에타 제곱 값이있는 데이터가 있습니다. 에타 제곱과 부분 에타 제곱의 차이점은 무엇입니까? 둘 다 동일한 Cohen의 지침을 사용하여 해석 할 수 있습니까 (1988 : 0.01 = 작음, 0.06 = 중간, 0.13 = 큰 것으로 생각합니다)? 또한 비교 …

39 anova statistical-significance effect-size

4

R에서 "."(도트)의 의미는 무엇입니까?

난 그냥 "R in Nutshell"책을 읽고 있습니다. 그리고 "."부분을 건너 뛴 것처럼 보입니다. "sample.formula"에서와 같이 설명했다. > sample.formula <- as.formula(y~x1+x2) 다른 언어와 같이 필드 수식이있는 객체입니까? 그렇다면 어떻게이 객체가 가지고있는 다른 필드 / 기능을 어떻게 알 수 있습니까? (타입 선언) 편집 : 방금 "."의 또 다른 혼란스러운 사용을 발견했습니다. > …

39 r

2

로지스틱 회귀 모델이 수렴되지 않습니다

항공사 항공편에 대한 데이터가 있는데 (데이터 프레임 flights) 비행 시간이 도착이 상당히 지연 될 확률 (10 분 이상)에 영향을 미치는지 확인하고 싶습니다. 나는 비행 시간을 예측 자로 사용하고 각 비행이 응답으로 상당히 지연되었는지 (베르누이 무리) 여부와 함께 로지스틱 회귀 분석을 사용할 것이라고 생각했습니다. 다음 코드를 사용했습니다 ... flights$BigDelay <- flights$ArrDelay …

39 r logistic separation

6

최하위 회귀 분석 vs. 올가미

최소 각도 회귀와 올가미는 매우 유사한 정규화 경로를 생성하는 경향이 있습니다 (계수가 0을 초과하는 경우를 제외하고 동일합니다). 둘 다 사실상 동일한 알고리즘으로 효율적으로 맞출 수 있습니다. 한 가지 방법을 다른 방법보다 선호하는 실질적인 이유가 있습니까?

39 regression lasso

3

R 객체의 모드, 클래스 및 유형

Mode, Class 및 Type of R 객체의 차이점이 무엇인지 궁금합니다. R 객체의 유형은 typeof () 함수, mode by mode () 및 class by class ()로 얻을 수 있습니다. 또한 내가 놓친 다른 유사한 기능과 개념은 무엇입니까? 감사합니다.

39 r

8

그룹 차이가 없다는 가설을 테스트하는 방법은 무엇입니까?

숫자 종속 변수 (예 : 지능 테스트 점수)를보고있는 두 그룹 (예 : 남성 및 여성)으로 연구를하고 그룹 차이가 없다는 가설이 있다고 가정합니다. 질문: 그룹 차이가 없는지 테스트하는 좋은 방법은 무엇입니까? 그룹 차이가 없는지 적절히 테스트하는 데 필요한 표본 크기를 어떻게 결정 하시겠습니까? 초기 생각 : 귀무 가설을 기각하지 못한다고해서 관심있는 …

39 hypothesis-testing t-test equivalence tost

3

Clojure vs R : 데이터 분석의 장단점

나는 가까운 장래에 R을 배우는 계획을 가지고있었습니다. 독서 또 다른 질문 내가 Clojure에 대해 알게합니다. 이제 어떻게해야할지 모르겠습니다. 저는 R 의 큰 장점은 관리자 중 한 명을 포함하여 일부 경제학 직원이 R 을 사용하지 않는다는 것입니다. Clojure의 장점 중 하나 는 Lisp 기반이며, Emacs를 배우기 시작했고 내 자신의 사용자 정의를 …

39 r

8

R의 그래픽 데이터 개요 (요약) 기능

나는 전에 R 패키지에서 이와 같은 기능을 보았을 것이라고 확신하지만 광범위한 인터넷 검색 후에는 어디서나 찾을 수없는 것 같습니다. 내가 생각하고있는 함수는 주어진 변수에 대한 그래픽 요약을 생성하여 일부 그래프 (히스토그램 및 상자 및 수염 그림)와 출력, 평균, SD 등과 같은 세부 정보를 제공하는 텍스트를 생성했습니다. 이 함수가 기본 R에 …

39 r data-visualization descriptive-statistics eda

1

t-SNE 목적 함수에서 교차 엔트로피가 아닌 Kullback-Leibler 발산을 사용하는 이유는 무엇입니까?

제 생각에는 샘플 분포에서 실제 분포로의 KL 발산은 단순히 크로스 엔트로피와 엔트로피의 차이입니다. 많은 기계 학습 모델에서 교차 엔트로피를 사용하여 비용 함수로 사용하지만 t-sne에서 Kullback-Leibler 분기를 사용하는 이유는 무엇입니까? 학습 속도에 차이가 있습니까?

39 kullback-leibler tsne cross-entropy

5

LDA vs 워드 2 벡

단어 유사성을 계산하기 위해 Latent Dirichlet Allocation 과 word2vec의 유사점이 무엇인지 이해하려고합니다 . 내가 이해하는 바와 같이, LDA는 단어를 잠재 주제 의 확률 벡터로 매핑하는 반면, word2vec는 실제 숫자 벡터로 매핑합니다 (점별 상호 정보의 특이 값 분해와 관련이 있습니다 . O. Levy, Y. Goldberg, "Neural Word Embedding" "암시 적 행렬 …

39 machine-learning self-study natural-language latent-variable word2vec

3

로지스틱 회귀를 맞추기 전에 표준화가 필요합니까?

제 질문은 로지스틱 회귀를 맞추기 전에 모든 변수가 [0,1] 사이에서 동일한 척도를 갖도록 데이터 세트를 표준화해야한다는 것입니다. 공식은 다음과 같습니다. xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} 내 데이터 세트에는 2 개의 변수가 있으며 두 채널에 대해 동일한 것을 설명하지만 볼륨이 다릅니다. 두 상점의 고객 방문 횟수라고 가정하면 여기에서 고객의 구매 여부가 결정됩니다. 고객은 구매하기 전에 …

39 regression logistic standardization