통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
R의 밀도 함수에서 확률 밀도 함수를 찾고 추정하는 방법
X알 수없는 분포와 같은 변수가 있다고 가정하십시오 . Mathematica에서는 SmoothKernelDensity함수 를 사용하여 추정 밀도 함수를 가질 수 있습니다.이 추정 밀도 함수는 함수와 함께 "밀도"가 결과라고 가정하는 형태 PDF와 같은 값의 확률 밀도 함수를 계산 하는 데 사용할 수 있습니다 . R에 이러한 기능이 있으면 좋을 것입니다 .Mathematica에서 작동하는 방식입니다.XPDF[density,X]SmoothKernelDensity http://reference.wolfram.com/mathematica/ref/SmoothKernelDistribution.html …
17 r  pdf  cdf 

2
출력이 여러 개인 랜덤 포레스트가 가능 / 실용적입니까?
랜덤 포레스트 (RF)는 경쟁적인 데이터 모델링 / 마이닝 방법입니다. RF 모델에는 출력 / 예측 변수라는 하나의 출력이 있습니다. RF를 사용하여 여러 출력을 모델링하는 순진한 접근 방식은 각 출력 변수에 대해 RF를 구성하는 것입니다. 따라서 우리는 N 개의 독립적 인 모델을 가지고 있으며, 출력 변수 사이에 상관 관계가있는 경우 중복 / …

2
R에서 "계수 : 14로 정의되지 않음"과 같은 오류를 처리하는 방법은 무엇입니까?
GLM을 수행 할 때 anova 출력에서 ​​"단수로 인해 정의되지 않음"오류가 발생하면이 오류가 발생하는 것을 어떻게 방지합니까? 일부는 공변량 간의 공선 성 때문이거나 수준 중 하나가 데이터 세트에 존재하지 않는다고 제안했습니다 ( lm의 "단수 때문에 정의되지 않음"해석 참조 ) 내가하는 "특정 치료"모델을 운전보고 싶어 내가 치료의 4 단계가있는 경우 : Treat …

2
비선형 회귀에 대한 문헌 검토
비선형 회귀에 대한 통계 문헌에 대한 좋은 검토 기사를 아는 사람이 있습니까? 나는 주로 일관성 결과와 무증상에 관심이 있습니다. 특히 흥미로운 것은 모델입니다 yit=m(xit,θ)+ϵit,yit=m(xit,θ)+ϵit,y_{it} = m(x_{it},\theta) + \epsilon_{it}, 패널 데이터 용. 비모수 적 방법은 관심이 적습니다. 저널에 대한 제안도 환영합니다. 현재 저는 Handbook of Econometrics 에서 Amemiya (1983)를 읽고 있지만 …


3
불균형 데이터 셋의 ROC vs 정밀 리콜 곡선
방금 이 토론을 읽었습니다 . 그들은 PR AUC가 불균형 데이터 세트에서 ROC AUC보다 낫다고 주장합니다. 예를 들어 테스트 데이터 세트에 10 개의 샘플이 있습니다. 9 개의 샘플은 양수이고 1은 음수입니다. 모든 것을 긍정적으로 예측하는 끔찍한 모델이 있습니다. 따라서 TP = 9, FP = 1, TN = 0, FN = 0이라는 …

2
합계 대신 배치에 대한 평균 손실을 최소화하는 것이 일반적입니까?
Tensorflow에는 CIFAR-10 분류에 대한 예제 자습서가 있습니다. 자습서에서 배치 전체의 평균 교차 엔트로피 손실이 최소화됩니다. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of shape [batch_size] Returns: Loss …

4
음의 코사인 유사성 해석
내 질문은 어리석은 질문 일 수 있습니다. 그래서 미리 사과하겠습니다. Stanford NLP 그룹에 의해 사전 훈련 된 GLOVE 모델을 사용하려고했습니다 ( link ). 그러나 유사성 결과에 약간의 음수가 있음을 알았습니다. 즉각 단어 벡터 데이터 파일을 보라는 메시지가 나타납니다. 분명히, 단어 벡터의 값은 음수가 될 수있었습니다. 그것이 왜 코사인의 음의 유사성을 …

4
가변 크기의 이미지를 컨볼 루션 신경망에 대한 입력으로 제공 할 수 있습니까?
물체 감지를 위해 컨볼 루션 신경망에 입력으로 가변 크기의 이미지를 제공 할 수 있습니까? 가능하다면 어떻게 할 수 있습니까? 그러나 이미지를 자르려고하면 이미지의 일부를 잃어 버리고 크기를 조정하려고하면 이미지의 선명도가 사라집니다. 이미지 선명도가 주요 고려 사항 인 경우 고유 네트워크 속성을 사용하는 것이 가장 좋다는 것을 의미합니까?


4
독립성이 왜 제로 상관을 의미합니까?
우선, 나는 이것을 묻지 않습니다. 제로 상관 관계가 독립성을 의미하지 않는 이유는 무엇입니까? 이것은 /math/444408/why-does-zero-correlation-not-imply-independence 에서 (아주 멋지게) 해결 되었습니다. 내가 묻는 것은 반대입니다 ... 두 변수는 서로 독립적입니다. 우연히 작은 상관 관계를 가질 수 없었습니까? ... 독립성이 매우 작은 상관 관계를 암시해서는 안됩니까?

4
조지 박스에서 Galit Shmueli와 과학적인 방법은?
(이 질문은 Philosophy SE에 더 적합한 것처럼 보일 수 있습니다. 통계학자가 Box 및 Shmueli의 진술에 대한 나의 오해를 분명히 할 수 있기를 바랍니다. ARIMA 명성의 George Box는 다음과 같이 말했습니다. "모든 모델이 잘못되었지만 일부는 유용합니다." Galit Shmueli는 유명한 논문 인 "설명하거나 예측하기 위해"에서 다음 과 같이 주장한다. 설명과 예측은 동일하지 …



3
둘 이상의“중앙”공식이 있습니까?
필자의 작업에서 개인이 데이터 세트의 "평균"값을 참조 할 때 일반적으로 산술 평균 (예 : "평균"또는 "예상 값")을 나타냅니다. 기하 평균을 제공하면 사람들은 "평균"의 정의가 미리 알려져 있기 때문에 내가 저리거나 도움이되지 않는다고 생각할 것입니다. 데이터 세트의 "중앙"에 대한 여러 정의가 있는지 확인하려고합니다. 예를 들어, 짝수 개의 요소가있는 데이터 세트의 중앙값을 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.