통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


2
R의 우도 비 검정
다음과 같이 여러 독립 변수에 대해 일 변량 로지스틱 회귀 분석을 수행한다고 가정합니다. mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) 이 명령으로 모델이 null 모델보다 나은지 확인하기 위해 모델 비교 (우도 비율 테스트)를 수행했습니다. 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) 그런 다음 모든 변수가 포함 된 다른 …
25 r  logistic  diagnostic 

8
얼마나 많은 사람들이 행사에 참석했는지 추정하는 방법 (예 : 정치 집회)?
한 학생이 오늘 나에게 물었다. "워싱턴 DC의 스튜어트 / 콜버트 '정신 회복을위한 집회'와 같은 대규모 그룹 행사에 얼마나 많은 사람들이 참석했는지 어떻게 알 수 있습니까?" 뉴스 매체는 수만 건의 추정치를보고하지만 이러한 추정치를 얻는 데 어떤 방법이 사용되며 얼마나 신뢰할 수 있습니까? 한 기사는 주차 허가에 대한 추정치에 근거한 것이지만 다른 …

2
소 표본 연구에서 탐색 적 데이터 분석 및 데이터 준설에 대처하는 방법은 무엇입니까?
탐색 적 데이터 분석 (EDA)은 종종 초기 가설 세트에 속하지 않는 다른 "트랙"을 탐색하게한다. 나는 제한된 표본 크기와 다른 설문지 (사회 인구 통계학 데이터, 신경 심리학 또는 의료 규모-정신 또는 신체 기능, 우울증 / 불안 수준, 증상 검사 목록)를 통해 수집 된 많은 데이터를 가진 연구의 경우 그러한 상황에 직면합니다. …

2
서수 또는 구간 데이터에 대한 평가자 간 신뢰도
서수 또는 구간 데이터에 가장 적합한 평가자 간 신뢰도 방법은 무엇입니까? "공동 계약 가능성"또는 "카파"는 명목 데이터 용으로 설계되었다고 생각합니다. "Pearson"및 "Spearman"을 사용할 수 있지만 주로 두 개의 평가자에 사용됩니다 (두 개 이상의 평가자에 사용할 수 있음). 서수 또는 구간 데이터 (예 : 세 개 이상의 평가자)에 적합한 다른 측정 …

7
확률과 비율의 차이는 무엇입니까?
몇 년 동안 화요일마다 햄버거를 먹었다 고 가정 해 봅시다. 당신은 내가 시간의 14 %를 햄버거를 먹거나 주어진 주에 햄버거를 먹을 확률이 14 %라고 말할 수 있습니다. 확률과 비율의 주요 차이점은 무엇입니까? 확률이 예상 비율입니까? 확률이 불확실하고 비율이 보장됩니까?

4
아메바 인터뷰 질문
나는 독점 거래 회사와의 거래 위치에 대한 인터뷰에서이 질문을 받았습니다. 이 질문에 대한 답과 그 직관을 알고 싶습니다. 아메바 질문 : 아메바 집단은 1로 시작합니다. 1 기간 후, 아메바는 동일한 확률로 1, 2, 3 또는 0으로 나눌 수 있습니다 (죽을 수 있음). 전체 인구가 결국 사망 할 확률은 얼마입니까?

3
시계열 기반 이상 탐지 알고리즘에 웨이블릿 적용
앤드류 무어 ( Andrew Moore)의 통계 데이터 마이닝 튜토리얼을 통해 작업을 시작했습니다 . 무어가 질병 발생을 탐지하는 알고리즘을 만드는 데 사용 된 많은 기술을 통해 추적하는 "시간 시리즈 기반 이상 탐지 알고리즘에 대한 입문 개요"라는 제목 의이 매우 흥미로운 PDF 를 읽었습니다 . 슬라이드의 중간 쯤에, 27 페이지에는 바이러스 확산을 …

3
리 커트 품목 응답 데이터 시각화
리 커트 응답 세트를 시각화하는 좋은 방법은 무엇입니까? 예를 들어, A, B, C, D, E, F & G에 대한 의사 결정에서 X의 중요성에 대해 문의하는 항목 집합? 누적 막 대형 차트보다 좋은 것이 있습니까? N / A의 응답으로 무엇을해야합니까? 그것들은 어떻게 표현 될 수 있습니까? 막 대형 차트에 백분율 또는 …

2
복수 질문 시험에서 부정 행위의 패턴 감지
의문: 시험 문제에 대한 이진 데이터가 있습니다 (정확한 / 잘못된). 일부 개인은 사전에 일부 질문과 정답에 액세스했을 수 있습니다. 나는 누가, 얼마나, 또는 어느 것을 모른다. 어떤 부정이 없다면, I는 항목에 대한 정답 확률을 모델링하는 것이 생각 대로 L O g I t는 ( ( p는 난 = 1 | …

3
힌지 손실의 그라디언트
기본 그라디언트 하강을 구현하려고하는데 힌지 손실 기능으로 테스트하고 있습니다. . 그러나 힌지 손실의 그라디언트에 대해 혼란 스럽습니다. 나는 그것이lhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlhinge={−y x0if y x⋅w&lt;1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w&lt;10if y x⋅w≥1 \frac{\partial }{\partial w}l_{\text{hinge}} = \begin{cases} -y\ \boldsymbol{x} &\text{if } y\ \boldsymbol{x}\cdot\boldsymbol{w} < 1 \\ 0&\text{if …

5
특정 유형의 ARIMA 설명 찾기
이 찾기 어려운 수 있지만, 내가 읽고 싶은 ARIMA 예를 잘 설명 하는 것이 최소한의 수학을 사용 특정 사례를 예측하기 위해 해당 모델을 사용하여 모델을 구축하는 것 이상의 토론 그래픽과 수치 결과를 사용하여 예측 값과 실제 값 사이의 적합도를 특성화합니다.

3
Kolmogorov-Smirnov 테스트가 작동하는 이유는 무엇입니까?
2- 표본 KS 테스트에 대해 읽을 때 정확히 무엇을하는지 이해 하지만 왜 작동하는지 이해하지 못합니다 . 즉, 경험적 분포 함수를 계산하고, D- 통계량을 찾고, 임계 값을 계산하고, D- 통계량을 p- 값으로 변환하는 등 둘 사이의 최대 차이를 찾기 위해 모든 단계를 수행 할 수 있습니다. 그러나 왜 이것이 두 배포판에 …

3
상호 작용 항이있는 LASSO-주요 효과가 0으로 줄어든다면 괜찮습니까?
LASSO 회귀는 계수를 0으로 축소하여 효과적으로 모델 선택을 제공합니다. 내 데이터에는 공칭 및 연속 공변량 사이에 의미있는 상호 작용이 있다고 생각합니다. 그러나 반드시 진정한 모델의 '주요 효과'가 의미가있는 것은 아닙니다 (0이 아님). 물론 나는 진정한 모델을 알 수 없기 때문에 이것을 모른다. 저의 목표는 실제 모델을 찾고 가능한 한 밀접하게 …

10
왜 신경망과 딥 러닝을 버리지 않습니까? [닫은]
폐쇄되었습니다 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 일반적으로 딥 러닝 및 신경망의 근본적인 문제. 교육 데이터에 적합한 솔루션은 무한합니다. 우리는 단 하나만 만족하는 정확한 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.