통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
유형 I, 유형 II 및 유형 III ANOVA 및 MANOVA를 해석하는 방법은 무엇입니까?
나의 주요 질문은 유형 I (순차) 분산 분석을 수행 할 때 출력 (계수, F, P)을 해석하는 방법입니다. 내 특정 연구 문제는 조금 더 복잡하므로 예제를 여러 부분으로 나눌 것입니다. 첫째, 식물 성장 (Y1)에 대한 거미 밀도 (X1)의 효과에 관심이 있고 인클로저에 묘목을 심고 거미 밀도를 조작하면 간단한 분산 분석 또는 …

6
분포 사이의 Kolmogorov 거리에 대한 동기
두 확률 분포가 얼마나 유사한 지 측정하는 방법에는 여러 가지가 있습니다. (다른 서클에서) 널리 사용되는 방법은 다음과 같습니다. Kolmogorov 거리 : 분포 함수들 간의 sup-distance; Kantorovich-Rubinstein 거리 : Lipschitz 상수 갖는 두 함수 분포에 대한 기대치 간의 최대 차이 는 분포 함수 사이의 L 1 거리 111이기도 합니다.L1L1L^1 한정된 립 …

8
모든 모델이 쓸모 없습니까? 정확한 모델이 가능합니까?
이 질문은 한 달 이상 내 마음 속에 퍼져 왔습니다. Amstat News 2015 년 2 월호 에는 버클리 교수 Mark van der Laan 의 기사 가 실려 있으며 부정확 한 모델을 사용하는 사람들을 꾸짖습니다. 그는 모형을 사용함으로써 통계는 과학 이라기보다는 예술이라고 말합니다. 그에 따르면, 항상 "정확한 모델"을 사용할 수 있으며, …

10
빅 데이터 란 정확히 무엇입니까?
나는 여러 차례 질문을 받았다. 빅 데이터 란? 학생들과 친척 모두 통계와 ML에 대한 화제가되고 있습니다. 이 CV-post를 찾았 습니다 . 그리고 나는 거기에 유일한 대답에 동의한다고 생각합니다. 위키 백과 페이지는 또한 몇 가지 의견이 있지만 난 정말이 모든에 동의하면 나는 확실하지 않다. 편집 : (나는 Wikipedia 페이지가 이것을 다루는 …
44 large-data 


1
확률 적 구배 하강의 Adam 방법은 어떻게 작동합니까?
신경망 훈련을위한 기본 그래디언트 디센트 알고리즘에 익숙합니다. 나는 Adam : ADAM : 확률 적 최적화를위한 방법을 제안하는 논문을 읽었다 . 나는 적어도 약간의 통찰력을 얻었지만 , 논문은 전체적으로 나에게 너무 높은 수준으로 보입니다. 예를 들어, 비용 함수 는 종종 많은 다른 함수들의 합이므로 그 값을 최적화하기 위해 방대한 양의 계산이 …

4
커널은 기능 맵에 어떻게 적용되어 다른 기능 맵을 생성합니까?
컨볼 루션 신경망의 컨볼 루션 부분을 이해하려고합니다. 다음 그림을 보면 : 4 개의 다른 커널 (크기 ) 이있는 첫 번째 회선 레이어를 이해하는 데 아무런 문제가 없습니다. 크기 는 입력 이미지와 함께 4 개의 기능 맵을 얻습니다.k × kk×kk \times k 내가 이해하지 못하는 것은 4 개의 기능 맵에서 6 …

4
통계 학자들은 왜 귀무 가설을 받아들이는 것과 달리 의미없는 결과가 귀무를 거부 할 수 없다는 것을 의미한다고 말합니까?
두 개의 표본 t- 검정과 같은 전통적인 통계 검정은 두 개의 독립적 인 표본의 함수간에 차이가 없다는 가설을 제거하려고 노력합니다. 그런 다음 신뢰 수준을 선택하고 평균의 차이가 95 % 수준을 초과하면 귀무 가설을 기각 할 수 있다고 말합니다. 그렇지 않다면, "널 귀무 가설을 기각 할 수 없습니다". 이것은 우리도 그것을 …

6
가장 좋아하는 통계 그래프는 무엇입니까?
이것은 내 마음에 드는 것입니다 이 예는 유머러스 한 정맥에 있습니다 (신용 교수는 Steven Gortmaker 전직 교수에게갑니다). 나는 또한 당신이 통계에 대한 통찰력이나 방법을 아름답게 포착하고 전달하는 것과 같은 것에 대한 아이디어와 그래프에 관심이 있습니다. 답변 당 하나의 항목. 물론,이 질문 은 당신이 가장 좋아하는 "데이터 분석"만화는 무엇입니까? 귀하가 제공 …

5
학술 논문에 발표 된 통계
나는 때때로 진화론 / 생태학 논문을 많이 읽었으며, 때로는 교과서 외부에서 통계가 실제 세계에서 어떻게 사용되는지를보고자하는 목표를 가지고있었습니다. 나는 보통 논문의 통계를 복음으로 삼고이 논문을 사용하여 통계 학습에 도움을줍니다. 결국, 논문을 작성하는 데 몇 년이 걸리고 엄격한 동료 검토를 거친다면 통계는 확실히 견고 할 것입니까? 그러나 지난 며칠 동안 나는 …


3
p- 값을 결합 할 때 왜 평균을 구하지 않습니까?
최근에 p- 값을 결합하는 Fisher의 방법에 대해 배웠습니다. 이는 null 아래 p- 값이 균일 분포를 따르고 저는 천재라고 생각합니다. 그러나 내 질문은 왜 이렇게 복잡한 길을 가고 있습니까? 왜 p- 값의 평균을 사용하고 중심 한계 정리를 사용하지 않는가? 또는 중앙값? 나는이 거대한 계획 뒤에 RA 피셔의 천재를 이해하려고 노력하고 있습니다.− …

1
코헨의 카파 분산 (및 표준 오차) 계산
카파 ( κκ\kappa ) 통계는 Cohen [1]에 의해 1960 년에 도입되어 두 평가자 간의 합의를 측정합니다. 그러나 그 차이는 꽤 오랫동안 모순의 원천이었습니다. 내 질문은 큰 샘플과 함께 사용할 최상의 분산 계산에 대한 것입니다. 나는 Fleiss [2]에 의해 테스트되고 검증 된 것이 올바른 선택이 될 것이라고 생각하는 경향이 있지만, 이것이 …

7
왜 누군가가 전통적인 접근법 대신 '정보가없는'부적절한 방식으로 베이지안 접근법을 사용합니까?
관심이 단순히 모델의 매개 변수 (포인트 및 / 또는 간격 추정)를 추정하고 사전 정보가 신뢰할 수없고 약하지 않은 경우 (이는 약간 모호하지만 알고있는 시나리오를 설정하려고합니다. 이전이 어렵다) ... 왜 누군가가 전통적인 접근 방식 대신 '비 정보 적'부적절한 선행과 함께 베이지안 접근 방식을 사용하려고합니까?

5
랜덤 포레스트 알고리즘의 최적화 된 구현
ALGLIB, Waffles 및와 같은 R 패키지와 같은 임의의 포리스트가 구현되어 있음을 알았습니다 randomForest. 이 라이브러리가 고도로 최적화되어 있는지 아는 사람이 있습니까? 통계 학습의 요소에 자세히 설명 된대로 기본적으로 임의의 포리스트와 동등 합니까? 아니면 많은 추가 트릭이 추가 되었습니까? 이 질문이 충분히 구체적이기를 바랍니다. 내가 찾고있는 답변 유형의 삽화로 누군가 선형 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.