통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

30
일반적인 통계적 죄는 무엇입니까?
저는 심리학을 전공하는 대학원생이며 통계에 대한 점점 더 독립적 인 연구를 수행함에 따라 공식 교육이 부족하다는 사실에 점점 더 놀랐습니다. 개인 및 중고 경험 모두 학부 및 대학원 교육의 통계적 엄격함이 심리학 내에서 어느 곳에 나 존재 함을 시사합니다. 따라서 저는 저와 같은 독립적 인 학습자가 "통계 학적 죄"목록을 작성하는 …
227 fallacy 

11
AIC 또는 BIC를 다른 것보다 선호하는 이유가 있습니까?
AIC와 BIC는 추정 된 매개 변수의 수에 대해 벌점을 적용한 모형 적합을 평가하는 방법입니다. 내가 알기로, BIC는 AIC보다 무료 매개 변수에 대해 모델에 더 많은 불이익을가합니다. 기준의 엄격 성을 기반으로 한 선호를 넘어서, BIC보다 AIC를 선호하거나 그 반대의 다른 이유가 있습니까?

5
신경망 훈련을위한 트레이드 오프 배치 크기와 반복 횟수
신경망을 훈련시킬 때, 어떤 차이점이 있습니까? 배치 크기를 , 반복 횟수를b에이aa비bb 배치 크기를 , 반복 횟수를d씨cc디dd 여기서 ?a b = c dab=cd ab = cd 달리 말하면, 동일한 양의 훈련 예제를 사용하여 신경망을 훈련한다고 가정하면 최적의 배치 크기와 반복 횟수를 설정하는 방법은 무엇입니까? (배치 크기 * 반복 횟수 = 신경망에 …


12
데이터 마이닝, 통계, 기계 학습 및 AI의 차이점은 무엇입니까?
데이터 마이닝, 통계, 기계 학습 및 AI의 차이점은 무엇입니까? 그것들이 매우 비슷한 문제를 해결하려고 시도하지만 다른 접근법을 가진 4 개의 분야라고 말하는 것이 정확합니까? 그들은 정확히 무엇을 공통점이 있으며 어디에서 다른가? 그들 사이에 어떤 종류의 계층이 있다면, 그것은 무엇입니까? 이전에 비슷한 질문이 있었지만 여전히 얻지 못했습니다. 데이터 마이닝 및 통계 …

3
머신 러닝 문제가 희망이 없다는 것을 아는 방법?
표준 기계 학습 시나리오를 상상해보십시오. 큰 다변량 데이터 세트에 직면하고 있으며 데이터에 대해 상당히 모호합니다. 당신이해야 할 일은 가지고있는 것을 기반으로 일부 변수에 대한 예측을하는 것입니다. 평소와 같이 데이터를 정리하고 기술 통계를보고 일부 모델을 실행하고 교차 검증하는 등 여러 번 시도한 후에 여러 모델을 시도하고 시도해도 아무런 효과가 없으며 결과가 …

10
평균 만 이해하는 사람에게 공분산을 어떻게 설명 하시겠습니까?
... 나는 직관적 인 방식으로 ( "직관적으로"를 이해 하는) 직관적 인 방식으로 분산에 대한 지식을 보강 할 수 있다고 가정합니다 . '평균'에서 데이터 값의 평균 거리입니다. 단위를 동일하게 유지하기 위해 제곱근을 취합니다.이를 표준 편차라고합니다. 이것이 '수신자'에 의해 분명히 표현되고 (희망적으로) 이해된다고 가정 해 봅시다. 이제 공분산이란 무엇이며 수학 용어 / …

5
어떤 "평균"을 언제 사용해야합니까?
따라서 산술 평균 (AM), 기하 평균 (GM) 및 고조파 평균 (HM)이 있습니다. 그들의 수학적 공식은 관련 고정 관념과 함께 잘 알려져 있습니다 (예 : 조화 평균 및 '속도'관련 문제에 적용). 그러나 항상 저를 흥미롭게 한 질문은 "어떻게 어떤 맥락이 주어진 맥락에서 사용하기에 가장 적합한지를 결정합니까?"입니다. 적용 가능성을 이해하는 데 도움 …
197 mean 

8
자동 모델 선택을위한 알고리즘
자동 모델 선택을위한 알고리즘을 구현하고 싶습니다. 나는 단계적 회귀를 할 생각이지만 아무것도 할 것입니다 (선형 회귀를 기반으로해야합니다). 내 문제는 방법론이나 오픈 소스 구현을 찾을 수 없다는 것입니다 (Java에서 깨우고 있습니다). 내가 생각하는 방법은 다음과 같습니다. 모든 요인의 상관 행렬을 계산 서로 관련성이 낮은 요소를 선택하십시오 t-stat가 낮은 요인 제거 다른 …


12
0을 포함하여 음이 아닌 데이터를 어떻게 변환해야합니까?
긍정적 인 데이터가 치우친 경우 종종 로그를 가져옵니다. 그러나 0을 포함하는 비대칭 비대칭 데이터로 무엇을해야합니까? 나는 두 가지 변형이 사용되는 것을 보았다. log(x+1)log⁡(x+1)\log(x+1)0은 0에 매핑되는 깔끔한 기능을 가진 입니다. log(x+c)log⁡(x+c)\log(x+c) 여기서 c는 추정되거나 매우 작은 양의 값으로 설정됩니다. 다른 접근법이 있습니까? 하나의 접근법을 다른 접근법보다 선호해야 할 이유가 있습니까?

4
신경망에서 숨겨진 계층은 무엇을 계산합니까?
많은 사람들이 'Google에 알려주세요'라는 링크로 응답 할 것이라고 확신합니다.이 사실을 이해하려고 노력했기 때문에 이해가 부족하다는 점을 용서해주십시오. 신경망의 실제 구현은 실제로 작동합니다. 입력 계층과 데이터를 정규화하는 방법을 이해하고 바이어스 단위도 이해하지만 숨겨진 계층에 대해서는 실제 계산이 해당 계층에 있으며 출력에 매핑되는 방식이 약간 안개 낀 것입니다. 숨겨진 레이어에 물음표가있는 다이어그램, …


15
데이터 과학자 란 무엇입니까?
최근 박사 학위 프로그램 통계를 졸업 한 후 지난 몇 달 동안 통계 분야에서 일자리를 찾기 시작했습니다. 내가 생각한 거의 모든 회사에는 " Data Scientist " 라는 직책을 가진 구인 광고가있었습니다 . 사실 통계학 자나 통계학 자의 직책을 보던 시절은 오래 전에 지나간 것 같았습니다 . 데이터 과학자가 통계학자인 것을 …

4
신경망에서 배치 크기는 무엇입니까?
Python Keras package신경망에 사용 하고 있습니다. 이것은 링크 입니다. IS는 batch_size테스트 샘플의 수와 같다? Wikipedia에서 우리는 다음 정보를 가지고 있습니다 : 그러나, 다른 경우에, 합-그라디언트를 평가하기 위해서는 모든 서 맨드 함수로부터의 구배에 대한 고가의 평가가 필요할 수있다. 트레이닝 세트가 거대하고 간단한 공식이 존재하지 않으면, 그라디언트를 평가하는 것은 모든 summand 함수의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.