데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

2
Support Vector Machine은 여전히 ​​틈새 시장에서 "최신 기술"로 간주됩니까?
이 질문은 다른 질문에 대한 의견에 대한 답변입니다. 이 의견은 Coursera의 머신 러닝 과정 강의 계획서에 관한 것이며 "현재 SVM은 그렇게 많이 사용되지 않습니다"라는 문구를 따라 진행되었습니다. 방금 관련 강의를 마쳤으며 SVM에 대한 이해는 강력하고 효율적인 분류 알고리즘이며, 커널을 사용할 때 10 ~ 1000 개 정도의 기능을 다루는 "틈새"가 있으며 …


5
모델 언더 핏은 언제입니까?
논리는 종종 모델에 적합하지 않음으로써 일반화 할 수있는 능력이 증가한다고 말합니다. 즉, 어느 시점에서 모델에 적합하지 않으면 데이터의 복잡성에 관계없이 모델이 더 나 빠지게됩니다. 모델이 올바른 균형을 강타했고 모델링하려는 데이터에 적합하지 않은 시점을 어떻게 알 수 있습니까? 참고 : 이것은 " 왜 과적 합이 나쁜가? " 라는 질문에 대한 후속 …

4
1x1 컨볼 루션은 완전히 연결된 레이어와 어떻게 동일합니까?
최근 에 1x1 회선에 대한 Yan LeCuns 의견을 읽었습니다 . Convolutional Nets에는 "완전히 연결된 레이어"와 같은 것은 없습니다. 1x1 컨볼 루션 커널과 전체 연결 테이블이있는 컨볼 루션 레이어 만 있습니다. ConvNet에 고정 된 크기의 입력이 필요하지 않다는 사실은 매우 드물게 이해됩니다. 공간 출력 범위없이 단일 출력 벡터를 생성하는 입력에 대해 …

3
높은 수준의 RNN vs CNN
저는 RNN (Recurrent Neural Networks)과 그 품종 및 CNN (Convolutional Neural Networks)과 품종에 대해 생각하고 있습니다. 이 두 가지 요점이 공정한 것입니까? CNN을 사용하여 구성 요소 (예 : 이미지)를 하위 구성 요소 (예 : 이미지의 오브젝트 개요와 같은 이미지의 오브젝트)로 분리하십시오. RNN을 사용하여 하위 구성 요소 (이미지 캡션, 텍스트 생성, …

8
인터넷 회사는 왜 데이터 과학자 직업에 Java / Python을 선호합니까?
데이터 과학자가 Python / Java 경험을 요구하고 R을 무시하는 작업 설명에서 여러 번 보았습니다. 아래는 링크 인을 통해 신청 한 회사의 수석 데이터 과학자로부터받은 개인 이메일입니다. X, 연결하고 관심을 가져 주셔서 감사합니다. 당신은 좋은 분석 기술이 있습니다. 그러나 인터넷 / 모바일 조직이므로 모든 데이터 과학자는 Java / Python에서 우수한 프로그래밍 …

2
균일 한 초기화를 통해 (He 또는 Glorot) 일반 초기화를 언제 사용해야합니까? 그리고 배치 정규화의 효과는 무엇입니까?
레지던트 네트워크 (ResNet)가 일반 초기화를 대중화하게한다는 것을 알고있었습니다. ResNet에서는 He 일반 초기화가 사용되는 반면 첫 번째 레이어는 He 균일 초기화가 사용됩니다. 나는 ResNet 용지와 "정류기에 깊이 넣기"용지 (초기화 용지)를 살펴 보았지만 일반 초기화 대 균일 초기화에 대해서는 언급하지 않았습니다. 또한: 배치 정규화를 사용하면 훨씬 높은 학습 속도를 사용하고 초기화에 대해 …

8
클러스터링 지리적 위치 좌표 (lat, long pairs)
지리적 위치 클러스터링에 대한 올바른 접근 방법 및 클러스터링 알고리즘은 무엇입니까? 다음 코드를 사용하여 지리적 위치 좌표를 클러스터링합니다. import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], …

9
Python을 사용하여 재현 가능한 데이터 과학을위한 도구 및 프로토콜
Python을 사용하여 데이터 과학 프로젝트를 진행하고 있습니다. 이 프로젝트에는 여러 단계가 있습니다. 각 단계는 Python 스크립트, 보조 데이터, 구성 및 매개 변수를 사용하고 다른 데이터 세트를 작성하는 데이터 세트로 구성됩니다. 코드를 git에 저장하므로 해당 부분을 다룹니다. 다음에 대해 듣고 싶습니다 : 데이터 버전 관리 도구. 무대와 실험을 재현 할 수있는 …

3
깊은 신경망에서 언더 피팅과 싸우는 방법
인공 신경망 (NN)으로 시작했을 때 나는 주요 문제로 과적 합과 싸워야한다고 생각했다. 그러나 실제로는 NN이 20 %의 오류율 장벽을 넘어 설 수조차 없습니다. 나는 임의의 숲에서 내 점수를 이길 수 없습니다! 나는 NN이 데이터의 트렌드를 포착하기 위해해야 ​​할 일에 대해 매우 일반적인 조언을 찾고 있습니다. NN을 구현하기 위해 Theano Stacked …

4
Latent Dirichlet Allocation vs Hierarchical Dirichlet Process
Latent Dirichlet Allocation (LDA) 및 Hierarchical Dirichlet Process (HDP) 는 모두 주제 모델링 프로세스입니다. 가장 큰 차이점은 LDA는 주제 수를 지정해야하며 HDP는 그렇지 않다는 것입니다. 왜 이렇게이다? 그리고 두 주제 모델링 방법의 차이점, 장단점은 무엇입니까?
49 nlp  topic-model  lda 

8
기계 학습에서 과적 합이 나쁜 이유는 무엇입니까?
논리는 종종 모델을 과적 합함으로써 일반화 할 수있는 능력이 제한적이라고 말하지만, 이는 과적 합이 특정 복잡성 이후에 모델이 개선되는 것을 막을 수 있음을 의미 할 수도 있습니다. 과적 합은 데이터의 복잡성에 관계없이 모델을 악화시키는 원인이됩니까? 그렇다면 왜 그런가? 관련 : 위의 질문에 대한 후속 조치 , " 모델은 언제 적합하지 …

9
R 언어가 빅 데이터에 적합합니까?
R에는 데이터 분석 (예 : JAGS, BUGS, ARULES 등)을 목표로하는 많은 라이브러리가 있으며 J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "R을 이용한 기계 학습". 데이터 세트가 빅 데이터로 간주되는 5TB의 지침을 보았습니다. 내 질문은 : R은 일반적으로 빅 데이터 문제에서 볼 수있는 데이터의 양에 적합합니까? 이 크기의 데이터 집합에 R을 사용할 …
48 bigdata  r 

4
신경망 : 어느 비용 함수를 사용해야합니까?
주로 신경망을 이용한 실험에 TensorFlow 를 사용하고 있습니다. 지금은 꽤 많은 실험 (XOR-Problem, MNIST, 일부 회귀 분석 등)을 수행했지만 전체적으로 초보자로 간주 될 수 있기 때문에 특정 문제에 대해 "정확한"비용 함수를 선택하는 데 어려움을 겪고 있습니다. TensorFlow에 오기 전에 파이썬 과 NumPy를 사용 하여 완전히 연결된 MLP와 일부 반복 네트워크를 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.