데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

5
'균형'데이터 세트 또는 '대표'데이터 세트를 사용해야합니까?
나의 '머신 러닝'과제는 양성 인터넷 트래픽과 악성 트래픽을 분리하는 것입니다. 실제 시나리오에서 인터넷 트래픽의 대부분 (예 : 90 % 이상)은 양성입니다. 따라서 모델 훈련을 위해 유사한 데이터 설정을 선택해야한다고 생각했습니다. 그러나 나는 모델을 훈련시키기 위해 "클래스 밸런싱"데이터 접근 방식을 사용하여 양성 및 악성 트래픽의 동일한 수의 인스턴스를 암시하는 연구 논문을 …

9
대량의 (이진) 데이터의 버전 제어를 처리하는 방법
저는 지구 물리학 박사 학위를 받았으며 많은 양의 이미지 데이터 (수백 GB, 수만 개의 파일)를 다루고 있습니다. 나도 svn과 git상당히 잘 함께 쉽게 작업 할 수있는 기능과 함께 프로젝트 역사를 소중히 디스크 손상에 대한 보호를 갖게. 내가 찾아 git도 일관된 백업을 가진 매우 유용하지만 난 그 자식 효율적 이진 많은 …

9
R 프로그래밍을위한 IDE 대안 (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
R 프로그래밍에 RStudio를 사용합니다. Visual Studio 또는 Eclipse와 같은 다른 기술 스택의 견고한 IDE에 대해 기억합니다. 두 가지 질문이 있습니다. RStudio 이외의 다른 IDE가 사용되는 것 (간단한 설명을 고려하십시오). RStudio보다 눈에 띄는 장점이 있습니까? 필자는 코딩 자체 외에도 디버그 / 빌드 / 배포 기능을 주로 의미합니다 (따라서 텍스트 편집기는 해결책이 …
45 r  tools  rstudio  programming 


9
데이터 과학자의 직업은 얼마나 많은 데이터를 정리 하는가?
저는 현재 소매 회사에서 데이터 과학자로 일하고 있습니다 (DS의 첫 번째 직업이므로이 질문은 경험이 부족한 결과 일 수 있습니다). 그들은 구현 될 경우 큰 긍정적 인 영향을 미칠 수있는 정말로 중요한 데이터 과학 프로젝트에 대한 엄청난 백 로그를 가지고 있습니다. 그러나. 데이터 파이프 라인은 회사 내에 존재하지 않습니다. 표준 절차는 …

3
LSTM 모델의 매개 변수 수
단일 스택 LSTM에는 몇 개의 매개 변수가 있습니까? 파라미터 수는 필요한 훈련 예의 수에 하한을 부과 하고 훈련 시간에도 영향을 미칩니다. 따라서 매개 변수의 수를 아는 것은 LSTM을 사용한 모델 훈련에 유용합니다.

6
기밀 데이터 세트의 이름을 익명으로 변환하지만 이름의 일부 특성을 유지하려면 어떻게해야합니까?
동기 개인 식별 정보 (PII)가 포함 된 데이터 세트로 작업하며 때로는 PII를 노출시키지 않고 고용주에게 책임을 부과하지 않는 방식으로 제 3 자와 데이터 세트의 일부를 공유해야합니다. 우리의 일반적인 접근 방식은 데이터를 완전히 보류하거나 경우에 따라 해상도를 낮추는 것입니다. 예를 들어, 정확한 거리 주소를 해당 카운티 또는 인구 조사로 교체하십시오. 이는 …

1
LeakyReLU와 PReLU의 차이점은 무엇입니까?
나는 PReLU와 Leaky ReLU가 모두 f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) 그러나 Keras 는 docs에 두 기능을 모두 가지고 있습니다 . 새는 ReLU LeakyReLU의 출처 : return K.relu(inputs, alpha=self.alpha) 따라서 ( relu 코드 참조 ) f1(x)=max(0,x)−αmax(0,−x)f1(x)=max(0,x)−αmax(0,−x)f_1(x) = \max(0, x) …

4
시계열 모델 LSTM에 기능 추가
LSTM과 시계열에 대한 사용법에 대해 조금 읽었으며 흥미롭지 만 동시에 어려웠습니다. 내가 이해하는 데 어려움을 겪었던 한 가지는 이미 시계열 기능 목록에 추가 기능을 추가하는 방법입니다. 다음과 같이 데이터 세트가 있다고 가정하십시오. t-3, t-2, t-1, 출력 이제 출력에 영향을주는 기능이 있지만 반드시 시계열 기능은 아니라는 사실을 알고 날씨 외부의 날씨를 …

2
신경망을위한 이미지를 준비 / 확대하는 방법은 무엇입니까?
이미지 분류에 신경망을 사용하고 싶습니다. 사전 훈련 된 CaffeNet으로 시작하여 응용 프로그램에 맞게 교육하겠습니다. 입력 이미지를 어떻게 준비해야합니까? 이 경우 모든 이미지는 동일한 객체이지만 변형이 있습니다 (생각 : 품질 관리). 그것들은 다소 다른 스케일 / 해상도 / 거리 / 조명 조건에 있습니다 (그리고 대부분의 경우 스케일을 모릅니다). 또한 각 이미지에는 …

6
거리 메트릭으로서 코사인 유사성 대 도트 곱
두 피처의 코사인 유사성은 크기의 곱으로 스케일 된 점의 곱인 것 같습니다. 코사인 유사성이 언제 내적보다 더 나은 거리 측정법을 만드는가? 즉, 내적 곱과 코사인 유사성이 상황에 따라 다른 강점 또는 약점을 갖습니까?

7
ValueError : 입력에 NaN, 무한대 또는 dtype ( 'float32')에 비해 너무 큰 값이 있습니다
RandomForest 모델을 사용하여 테스트 데이터를 예측할 때 ValueError가 발생했습니다. 내 코드 : clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) 오류: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). 테스트 데이터 세트에서 잘못된 값을 어떻게 찾습니까? 또한 이러한 레코드를 …

4
모든 교육 데이터가 포함 된 단일 "일괄 처리"보다 미니 배치 크기가 더 좋은 이유는 무엇입니까?
딥 러닝 모델의 경우 일반적인 연습은 여러 교육 시대에 미니 배치 (일반적으로 작은 32/64)를 적용하는 것입니다. 나는 이것의 이유를 실제로 추측 할 수 없다. 내가 실수하지 않는 한 배치 크기는 훈련 반복 중에 모델에서 볼 수있는 훈련 인스턴스의 수입니다. 에포크는 각 훈련 사례가 모델에 의해 보여 졌을 때 완전한 회전입니다. …

10
머신 러닝 모델을 블랙 박스라고하는 이유는 무엇입니까?
필자는이 블로그 게시물을 읽었습니다. The Financial World는 AI의 블랙 박스를 열고 싶어 합니다. 저자는 ML 모델을 "블랙 박스"라고 반복해서 말합니다. ML 모델을 언급 할 때 유사한 용어가 여러 곳에서 사용되었습니다. 왜 그래야만하지? ML 엔지니어가 신경망 내부에서 무슨 일이 일어나고 있는지 알지 못하는 것은 아닙니다. ML 엔지니어는 사용할 활성화 기능, 해당 …

11
C (또는 C ++)의 데이터 과학
저는 R언어 프로그래머입니다. 나는 또한 데이터 과학자로 간주되지만 CS 이외의 학문 분야에서 온 사람들의 그룹에 있습니다. 이것은 데이터 과학자로서의 역할에서 잘 작동하지만 R다른 스크립팅 / 웹 언어에 대한 기본 지식 만 가지고 경력을 시작함으로써 두 가지 주요 영역에서 다소 부적절하다고 느꼈습니다. 프로그래밍 이론에 대한 확실한 지식이 부족합니다. 경쟁과 같은보다 빠르고 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.