통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
확률 및 통계 치트 시트 개선을위한 제안
문맥: 내가 확률 이론과 정적에서 찾은 중심 부분을 구성하기 위해 수학 필수 사항에 중점을 둔 참조 문서를 만들었습니다 ( 여기에서 사용 가능 ). 이 문서를 공유함으로써 통계 학생들에게 이러한 주제에 대한 대학원 과정에서 가르치는 핵심 자료에 대한 포괄적 인 요약을 제공하고자합니다. 사람들은 주로 교육 자료로 의도되었지만, 배포 관계 나 일반적인 …
22 teaching 


2
이전 상태에 따라서 만 마르코프 프로세스
누군가가 내 이해를 확인하거나 뭔가 빠졌는지 확인하고 싶습니다. 마르코프 프로세스의 정의에 따르면 다음 단계는 현재 상태에만 의존하며 과거 상태에는 의존하지 않습니다. 우리가 a, b, c, d의 상태 공간을 가지고 있고 a-> b-> c-> d로 간다고 가정 해 봅시다. 즉, d 로의 전환은 우리가 c에 있다는 사실에만 의존 할 수 있음을 …

1
Benjamini-Hochberg, p- 값 또는 q- 값을 사용한 다중 가설 검정 수정?
독립적 인 테스트에서 생성 된 p- 값 목록이 오름차순으로 정렬되어 있으면 여러 테스트 수정에 Benjamini-Hochberg 절차 를 사용할 수 있습니다 . 각 p- 값에 대해 Benjamini-Hochberg 절차를 사용하면 각 p- 값에 대한 FDR (False Discovery Rate)을 계산할 수 있습니다. 즉, 정렬 된 p- 값 목록의 각 "위치"에서 귀무 가설을 잘못 …

3
다중 검열 데이터에 대한 공분산 행렬의 편견 추정
환경 시료의 화학 분석은 종종보고 한계 또는 다양한 검출 / 양자 한계에서 검열됩니다. 후자는 일반적으로 다른 변수의 값에 비례하여 달라질 수 있습니다. 예를 들어, 하나의 화합물이 고농도 인 시료는 분석을 위해 희석해야하므로 해당 시료에서 동시에 분석 된 다른 모든 화합물의 검열 한계가 비례 적으로 팽창합니다. 다른 예로서, 때때로 화합물의 존재는 …

6
5 점 리 커트 항목의 그룹 차이
이 질문 에서 다음과 같이 : 5 점 리 커트 항목 (예 : 삶의 만족도 : 불만족 함)에서 두 그룹 (예 : 남성과 여성)의 중심 경향의 차이를 테스트하려고한다고 상상해보십시오. 나는 t- 검정이 대부분의 목적에 대해 충분히 정확할 것이라고 생각하지만, 그룹 평균 간의 차이에 대한 부트 스트랩 테스트는 종종 더 정확한 …

9
Ping 응답 시간에 대해이 데이터를 나타내는 분포 유형을 어떻게 알 수 있습니까?
네트워크 핑 시간과 같은 실제 프로세스를 샘플링했습니다. "왕복 시간"은 밀리 초 단위로 측정됩니다. 결과는 히스토그램으로 표시됩니다. 핑 시간은 최소값이지만 긴 꼬리는 길다. 통계 분포가 무엇인지, 매개 변수를 추정하는 방법을 알고 싶습니다. 분포가 정규 분포가 아니지만 달성하려는 것을 여전히 보여줄 수 있습니다. 정규 분포는 다음 기능을 사용합니다. 두 매개 변수로 μ …

1
선형 모형으로 일반적인 통계 검정
(업데이트 : 나는 이것에 대해 더 깊이 빠져들고 결과를 여기에 게시했습니다 ) 명명 된 통계 테스트 목록은 엄청납니다. 많은 일반적인 테스트는 간단한 선형 모델의 추론에 의존합니다. 예를 들어 1- 표본 t- 테스트는 y = β + ε입니다. 이는 null 모델 y = μ + ε 에 대해 테스트됩니다. 즉, β …

3
회귀 오차 항이 설명 변수와 어떻게 연관 될 수 있습니까?
이 중 첫 번째 문장 위키 "설명 변수가 에러 항과 상관 될 때 경제학에서, 내 생성의 문제가 발생한다. 것이 페이지 청구항 1 " 내 질문은 어떻게 이런 일이 일어날 수 있습니까? 오류 항이 설계 행렬의 열 공간과 직교하도록 회귀 베타를 선택하지 않았습니까?
22 regression 


9
신경망 예측의 신뢰도를 결정하는 방법은 무엇입니까?
내 질문을 설명하기 위해 입력에 잡음이 있지만 출력이없는 훈련 세트가 있다고 가정하십시오. # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] 여기서 출력은 노이즈가없는 경우 (실제 그래디언트가 아닌) 입력 어레이의 그래디언트입니다. 네트워크를 …

3
불균형이 높은 데이터에 대한 분류 / 평가 지표
사기 감지 (신용 채점) 문제를 처리합니다. 따라서 사기와 비 사기 관찰 사이에는 불균형 관계가 있습니다. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html 은 다양한 분류 지표에 대한 훌륭한 개요를 제공합니다. Precision and Recall또는 kappa둘 다 좋은 선택 인 것 같습니다. 이러한 분류기의 결과를 정당화하는 한 가지 방법은 결과를 기준 분류기의 결과와 비교하고 결과가 무작위 확률 예측보다 …


2
모든 머신 러닝 알고리즘이 데이터를 선형 적으로 분리합니까?
저는 프로그래밍과 머신 러닝을 좋아합니다. 몇 달 전만해도 기계 학습 프로그래밍에 대해 배우기 시작했습니다. 정량적 인 과학 배경이없는 많은 사람들과 마찬가지로 저도 널리 사용되는 ML 패키지 (캐럿 R)의 알고리즘과 데이터 세트를 다루면서 ML에 대해 배우기 시작했습니다. 얼마 전 저는 ML에서 선형 회귀 사용에 대해 이야기하는 블로그를 읽었습니다. 내가 올바로 기억하고 …

6
가능성-왜 곱해야합니까?
최대 우도 추정에 대해 연구하고 있으며 우도 함수는 각 변수의 확률의 곱이라는 것을 읽었습니다. 왜 제품입니까? 왜 합계가 아닌가? Google에서 검색하려고했지만 의미있는 답변을 찾을 수 없습니다. https://ko.wikipedia.org/wiki/Maximum_likelihood

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.