«neural-networks» 태그된 질문

인공 신경망 (ANN)은 생물학적 신경망에 기반을 둔 광범위한 계산 모델입니다. 피드 포워드 NN ( "깊은"NN 포함), 컨볼 루션 NN, 반복 NN 등을 포함합니다.

2
합계 대신 배치에 대한 평균 손실을 최소화하는 것이 일반적입니까?
Tensorflow에는 CIFAR-10 분류에 대한 예제 자습서가 있습니다. 자습서에서 배치 전체의 평균 교차 엔트로피 손실이 최소화됩니다. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of shape [batch_size] Returns: Loss …

1
신경 네트워크 문헌의 텐서 : 가장 간단한 정의는 무엇입니까?
신경 네트워크 문헌에서 종종 "tensor"라는 단어가 있습니다. 벡터와 다른가요? 그리고 매트릭스에서? 정의를 명확히하는 구체적인 예가 있습니까? 나는 그 정의에 대해 약간 혼란 스럽다. Wikipedia는 도움이되지 않으며 때로는 정의가 사용 된 특정 기계 학습 환경 (TensorFlow, Caffee, Theano)에 달려 있다는 인상을 받았습니다.

2
'69 년의 데이터를 통한 일반적인 학습의 최첨단
1969 년부터 유명한 Minsky and Papert 저서 "Perceptrons"의 맥락을 이해하려고 노력하고 있는데, 이는 신경망에 매우 중요합니다. 내가 아는 한, 퍼셉트론을 제외한 다른 일반적인 감독 학습 알고리즘은 없었습니다. 의사 결정 트리는 실제로 70 년대 후반에만 실제로 유용 해지기 시작했으며, 임의의 포리스트와 SVM은 90 년대입니다. jackknife 방법은 이미 알려져 있지만 k-cross validation …

3
신경망에서의 탠 대 시그 모이 드
나는 여전히 이것에 속도를 내고 있다는 사실에 대해 사과드립니다. 내 신경 활성화 기능에 tanh (map -1 to 1) 대 sigmoid (map 0-1)를 사용하는 장단점을 이해하려고합니다. 내 독서에서 그것은 약간의 차이가있는 사소한 것 같았습니다. 실제로 내 문제에 대해 나는 시그 모이 드가 훈련하기 쉽고 이상하다는 것을 알았습니다. 시그 모이 드는 일반적인 …

1
컨볼 루션 뉴럴 네트워크의 기능 맵 수
컨볼 루션 신경망을 배울 때 다음 그림에 관한 질문이 있습니다. 1) 레이어 1의 C1에는 6 개의 기능 맵이 있습니다. 6 개의 컨볼 루션 커널이 있습니까? 각 컨볼 루션 커널은 입력을 기반으로 기능 맵을 생성하는 데 사용됩니다. 2) 레이어 2의 S1에는 6 개의 기능 맵이 있고 C2에는 16 개의 기능 맵이 …

3
Convolutional Neural Network에서 컨볼 루션 단계는 무엇을합니까?
컴퓨터 비전에서의 응용으로 인해 CNN (Convolutional Neural Network)을 연구하고 있습니다. 저는 표준 피드 포워드 신경망에 이미 익숙하므로 일부 사람들이 CNN을 이해하는 데 도움이 될 수 있기를 바랍니다. CNN에 대한 생각은 다음과 같습니다. 기존 피드 포워드 NN에는 각 요소가 "입력 레이어"에서 NN에 입력 한 기능 벡터로 구성된 학습 데이터가 있으므로 이미지 …


2
신경망의 복잡성을 측정하기위한 VC 차원의 대안은 무엇입니까?
신경망의 복잡성을 측정하는 몇 가지 기본 방법을 살펴 보았습니다. 순진하고 비공식적 : 뉴런, 숨겨진 뉴런, 레이어 또는 숨겨진 레이어의 수를 계산합니다. VC 차원 (Eduardo D. Sontag [1998] "신경망의 VC 차원"[ pdf ].) T C 0 d 와 등가에 의한TC0dTCd0TC^0_d 코스 그레인 및 점근 적 계산 복잡도 측정 . 다른 대안이 …

3
다층 퍼셉트론 vs 심층 신경망
이것은 용어의 문제입니다. 때때로 사람들은 심층 신경망을 "다 계층 퍼셉트론"이라고하는데 왜 이럴까요? 내가 배운 퍼셉트론은 가중치를 역 훈련하는 특정 방법을 사용하는 이진 임계 값 출력을 가진 단일 계층 분류기 (또는 회귀)입니다. 퍼셉트론의 출력이 목표 출력과 일치하지 않으면 입력 벡터를 가중치에 더하거나 뺍니다 (퍼셉트론이 위양성 또는 위양성을 제공했는지에 따라 다름). 매우 …

5
Yolo Loss 기능 설명
Yolo v2 손실 기능을 이해하려고합니다. λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align} 사람이 기능을 자세히 설명 할 수 있다면.

2
Adam Optimizer를 사용한 훈련 손실 및 반복에서의 스파이크 설명
i) SGD 및 ii) Adam Optimizer를 사용하여 신경망을 훈련하고 있습니다. 정상적인 SGD를 사용할 때 아래 (빨간색)와 같이 부드러운 훈련 손실 대 반복 곡선이 나타납니다. 그러나 Adam Optimizer를 사용할 때 훈련 손실 곡선에 약간의 급상승이 있습니다. 이 스파이크에 대한 설명은 무엇입니까? 모형 세부 사항 : 14 개의 입력 노드-> 2 개의 …

3
작은 유효성 검사 세트를 사용할 수 있습니까?
데이터를 테스트 세트와 검증 세트로 나누는 이유를 이해합니다. 또한 분할 규모는 상황에 따라 다르지만 일반적으로 50/50에서 90/10까지 다양합니다. 철자를 수정하고 ~ 5m 문장의 데이터 세트로 시작하기 위해 RNN을 만들었습니다. 나는 500k 문장을 깎고 나머지 ~ 4.5m 문장으로 훈련합니다. 훈련이 끝나면 검증 세트를 가져와 정확도를 계산합니다. 흥미로운 점은 유효성 검사 세트의 …

2
높은 손실 값에도 불구하고 우수한 정확도
간단한 신경망 이진 분류기를 훈련하는 동안 교차 엔트로피를 사용하여 높은 손실 값을 얻습니다. 그럼에도 불구하고 검증 세트에 대한 정확성의 가치는 상당히 우수합니다. 의미가 있습니까? 손실과 정확도 사이에 엄격한 상관 관계가 없습니까? 나는 0.4011-acc : 0.8224-val_loss : 0.4577-val_acc : 0.7826 값을 훈련하고 검증 했습니다 . 이것은 NN을 구현하려는 첫 번째 시도이며 …

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
RNN이 모델링 할 수있는 가능한 시퀀스 길이는 얼마입니까?
시계열 데이터 모델링을 위해 LSTM ( long short-term memory ) 버전의 RNN (Recurrent Neural Network) 을 사용하려고 합니다. 데이터의 시퀀스 길이가 길수록 네트워크의 복잡성이 증가합니다. 따라서 어느 정도의 시퀀스가 ​​좋은 정확도로 모델링 할 수 있을지 궁금합니다. 최신 방식을 구현하기가 어려운 비교적 간단한 LSTM 버전을 사용하고 싶습니다. 내 시계열의 각 관측치에는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.