Convolutional Neural Networks for Visual Recognition 에 대한 Stanford 과정 노트를 참조하면 다음 과 같은 단락이 있습니다. "안타깝게도 ReLU 장치는 훈련 중에 깨지기 쉬우 며"사라질 수 있습니다 ". 예를 들어, ReLU 뉴런을 통해 흐르는 큰 기울기는 뉴런이 데이터 포인트에서 다시 활성화되지 않는 방식으로 가중치가 업데이트되도록 할 수 있습니다. 예를 들어, …
에서 ML 초보자를위한 MNIST 그들은 같은 교차 엔트로피를 정의 Hy′(y):=−∑iy′ilog(yi)Hy′(y):=−∑iyi′log(yi)H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i) i y ′ iyiyiy_i 는 클래스 대한 예측 확률 값 이고 는 해당 클래스에 대한 실제 확률입니다.iiiy′iyi′y_i' 질문 1 ( )가 0이 될 수 있는 문제가 ? 이것은 물론 우리가 정말 나쁜 분류기를 …
저는 현재 SGD역 전파를 사용하는 신경망에 대해 확률 적 그라디언트 디센트 (Stochastic Gradient Descent)를 구현 하고 있으며 그 목적을 이해하는 동안 학습률에 대한 값을 선택하는 방법에 대한 몇 가지 질문이 있습니다. 학습률은 하강 률을 지시하므로 오차 기울기의 모양과 관련이 있습니까? 그렇다면이 정보를 어떻게 사용하여 가치에 대한 결정을 내립니까? 어떤 종류의 …
방금 기계 학습을 시작했으며 지금까지 하나의 변수에 대한 선형 회귀를 다루었습니다. 나는 가설이 있다는 것을 배웠다. hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x 매개 변수 및 θ 1에 대한 올바른 값을 찾기 위해 계산 된 결과와 테스트 데이터의 실제 결과 간의 차이를 최소화하려고합니다. 그래서 우리는 빼기θ0θ0\theta_0θ1θ1\theta_1 hθ(x(i))−y(i)hθ(x(i))−y(i)h_\theta(x^{(i)})-y^{(i)} 1 에서 m 까지의 모든 대해 . 따라서이 차이에 …
"데이터 과학자"와 "머신 러닝 엔지니어"의 차이점은 무엇입니까? 지난 1 년 동안 "머신 러닝 엔지니어"는 구인 광고에 많은 것을 보여주었습니다. 이것은 샌프란시스코에서 특히 눈에 띄는 데, 이는 "데이터 과학자"라는 용어가 유래 된 곳일 것입니다. 어느 시점에서 "데이터 과학자"는 "통계 학자"를 능가했으며, 이제 같은 데이터가 "데이터 과학자"에게 천천히 일어나기 시작하는지 궁금합니다. 이 …
곡선 아래 면적 (AUC)을 조사하기 시작했으며 그 유용성에 대해 약간 혼란스러워했습니다. 처음 나에게 설명했을 때 AUC는 성능의 척도 인 것처럼 보였지만 내 연구에서 높은 표준 정확도 측정과 낮은 AUC로 '운이 좋은'모델을 잡는 데 가장 유리하다는 점에서 장점이 거의 없다고 주장했습니다. . 모델 검증에 AUC에 의존하지 않아야합니까 아니면 조합이 가장 좋을까요? …
의사 결정 트리 / 임의의 응용 프로그램에서 일부 문제가 있습니다. 숫자와 문자열 (예 : 국가 이름)을 기능으로 갖는 문제를 해결하려고합니다. 이제 라이브러리 scikit-learn 은 숫자를 매개 변수로 사용하지만 문자열을 주입하고 많은 지식을 가지고 싶습니다. 그러한 시나리오를 어떻게 처리합니까? 파이썬의 해싱과 같은 메커니즘으로 문자열을 숫자로 변환 할 수 있습니다. 그러나 의사 …
문제 배경 : IT 모니터링 공간에서 찾은 것과 비슷한 로그 파일이 포함 된 프로젝트를 진행하고 있습니다 (IT 공간을 가장 잘 이해하고 있음). 이 로그 파일은 시계열 데이터이며 다양한 매개 변수의 수백 / 수천 행으로 구성됩니다. 각 매개 변수는 숫자 (float)이며 각 시점에 대해 사소한 / 오류가없는 값이 있습니다. 내 임무는 …
Sklearn을 사용하여 데이터 행렬과 해당 레이블 벡터를 어떻게 X_train, X_test, X_val, y_train, y_test, y_val로 무작위로 나눌 수 있습니까? 내가 아는 한, sklearn.cross_validation.train_test_split세 개가 아닌 두 개로 만 나눌 수 있습니다 ...
저는 RNN (Recurrent Neural Networks)과 그 품종 및 CNN (Convolutional Neural Networks)과 품종에 대해 생각하고 있습니다. 이 두 가지 요점이 공정한 것입니까? CNN을 사용하여 구성 요소 (예 : 이미지)를 하위 구성 요소 (예 : 이미지의 오브젝트 개요와 같은 이미지의 오브젝트)로 분리하십시오. RNN을 사용하여 하위 구성 요소 (이미지 캡션, 텍스트 생성, …