데이터 과학

5

나의 '머신 러닝'과제는 양성 인터넷 트래픽과 악성 트래픽을 분리하는 것입니다. 실제 시나리오에서 인터넷 트래픽의 대부분 (예 : 90 % 이상)은 양성입니다. 따라서 모델 훈련을 위해 유사한 데이터 설정을 선택해야한다고 생각했습니다. 그러나 나는 모델을 훈련시키기 위해 "클래스 밸런싱"데이터 접근 방식을 사용하여 양성 및 악성 트래픽의 동일한 수의 인스턴스를 암시하는 연구 논문을 …

48 machine-learning dataset unbalanced-classes

9

대량의 (이진) 데이터의 버전 제어를 처리하는 방법

저는 지구 물리학 박사 학위를 받았으며 많은 양의 이미지 데이터 (수백 GB, 수만 개의 파일)를 다루고 있습니다. 나도 svn과 git상당히 잘 함께 쉽게 작업 할 수있는 기능과 함께 프로젝트 역사를 소중히 디스크 손상에 대한 보호를 갖게. 내가 찾아 git도 일관된 백업을 가진 매우 유용하지만 난 그 자식 효율적 이진 많은 …

46 bigdata databases binary version-control

9

R 프로그래밍을위한 IDE 대안 (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

R 프로그래밍에 RStudio를 사용합니다. Visual Studio 또는 Eclipse와 같은 다른 기술 스택의 견고한 IDE에 대해 기억합니다. 두 가지 질문이 있습니다. RStudio 이외의 다른 IDE가 사용되는 것 (간단한 설명을 고려하십시오). RStudio보다 눈에 띄는 장점이 있습니까? 필자는 코딩 자체 외에도 디버그 / 빌드 / 배포 기능을 주로 의미합니다 (따라서 텍스트 편집기는 해결책이 …

45 r tools rstudio programming

10

기계 학습-날짜 / 시간 데이터를 통한 엔지니어링 기능

머신 러닝 응용 프로그램의 시간 데이터를 처리하는 일반적인 / 모범 사례는 무엇입니까? 예를 들어 데이터 세트에 "2014-05-05"와 같이 이벤트 타임 스탬프가있는 열이있는 경우이 열에서 유용한 기능을 추출하는 방법은 무엇입니까? 미리 감사드립니다!

45 machine-learning time-series feature-selection

9

데이터 과학자의 직업은 얼마나 많은 데이터를 정리 하는가?

저는 현재 소매 회사에서 데이터 과학자로 일하고 있습니다 (DS의 첫 번째 직업이므로이 질문은 경험이 부족한 결과 일 수 있습니다). 그들은 구현 될 경우 큰 긍정적 인 영향을 미칠 수있는 정말로 중요한 데이터 과학 프로젝트에 대한 엄청난 백 로그를 가지고 있습니다. 그러나. 데이터 파이프 라인은 회사 내에 존재하지 않습니다. 표준 절차는 …

44 data-wrangling

3

LSTM 모델의 매개 변수 수

단일 스택 LSTM에는 몇 개의 매개 변수가 있습니까? 파라미터 수는 필요한 훈련 예의 수에 하한을 부과 하고 훈련 시간에도 영향을 미칩니다. 따라서 매개 변수의 수를 아는 것은 LSTM을 사용한 모델 훈련에 유용합니다.

43 deep-learning rnn

6

기밀 데이터 세트의 이름을 익명으로 변환하지만 이름의 일부 특성을 유지하려면 어떻게해야합니까?

동기 개인 식별 정보 (PII)가 포함 된 데이터 세트로 작업하며 때로는 PII를 노출시키지 않고 고용주에게 책임을 부과하지 않는 방식으로 제 3 자와 데이터 세트의 일부를 공유해야합니다. 우리의 일반적인 접근 방식은 데이터를 완전히 보류하거나 경우에 따라 해상도를 낮추는 것입니다. 예를 들어, 정확한 거리 주소를 해당 카운티 또는 인구 조사로 교체하십시오. 이는 …

42 data-cleaning anonymization

1

LeakyReLU와 PReLU의 차이점은 무엇입니까?

나는 PReLU와 Leaky ReLU가 모두 f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) 그러나 Keras 는 docs에 두 기능을 모두 가지고 있습니다 . 새는 ReLU LeakyReLU의 출처 : return K.relu(inputs, alpha=self.alpha) 따라서 ( relu 코드 참조 ) f1(x)=max(0,x)−αmax(0,−x)f1(x)=max(0,x)−αmax(0,−x)f_1(x) = \max(0, x) …

42 neural-network

4

시계열 모델 LSTM에 기능 추가

LSTM과 시계열에 대한 사용법에 대해 조금 읽었으며 흥미롭지 만 동시에 어려웠습니다. 내가 이해하는 데 어려움을 겪었던 한 가지는 이미 시계열 기능 목록에 추가 기능을 추가하는 방법입니다. 다음과 같이 데이터 세트가 있다고 가정하십시오. t-3, t-2, t-1, 출력 이제 출력에 영향을주는 기능이 있지만 반드시 시계열 기능은 아니라는 사실을 알고 날씨 외부의 날씨를 …

42 machine-learning neural-network deep-learning time-series

2

신경망을위한 이미지를 준비 / 확대하는 방법은 무엇입니까?

이미지 분류에 신경망을 사용하고 싶습니다. 사전 훈련 된 CaffeNet으로 시작하여 응용 프로그램에 맞게 교육하겠습니다. 입력 이미지를 어떻게 준비해야합니까? 이 경우 모든 이미지는 동일한 객체이지만 변형이 있습니다 (생각 : 품질 관리). 그것들은 다소 다른 스케일 / 해상도 / 거리 / 조명 조건에 있습니다 (그리고 대부분의 경우 스케일을 모릅니다). 또한 각 이미지에는 …

41 neural-network image-classification preprocessing convnet

6

거리 메트릭으로서 코사인 유사성 대 도트 곱

두 피처의 코사인 유사성은 크기의 곱으로 스케일 된 점의 곱인 것 같습니다. 코사인 유사성이 언제 내적보다 더 나은 거리 측정법을 만드는가? 즉, 내적 곱과 코사인 유사성이 상황에 따라 다른 강점 또는 약점을 갖습니까?

41 classification

7

ValueError : 입력에 NaN, 무한대 또는 dtype ( 'float32')에 비해 너무 큰 값이 있습니다

RandomForest 모델을 사용하여 테스트 데이터를 예측할 때 ValueError가 발생했습니다. 내 코드 : clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) 오류: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). 테스트 데이터 세트에서 잘못된 값을 어떻게 찾습니까? 또한 이러한 레코드를 …

41 python random-forest pandas

4

모든 교육 데이터가 포함 된 단일 "일괄 처리"보다 미니 배치 크기가 더 좋은 이유는 무엇입니까?

딥 러닝 모델의 경우 일반적인 연습은 여러 교육 시대에 미니 배치 (일반적으로 작은 32/64)를 적용하는 것입니다. 나는 이것의 이유를 실제로 추측 할 수 없다. 내가 실수하지 않는 한 배치 크기는 훈련 반복 중에 모델에서 볼 수있는 훈련 인스턴스의 수입니다. 에포크는 각 훈련 사례가 모델에 의해 보여 졌을 때 완전한 회전입니다. …

40 machine-learning deep-learning

10

머신 러닝 모델을 블랙 박스라고하는 이유는 무엇입니까?

필자는이 블로그 게시물을 읽었습니다. The Financial World는 AI의 블랙 박스를 열고 싶어 합니다. 저자는 ML 모델을 "블랙 박스"라고 반복해서 말합니다. ML 모델을 언급 할 때 유사한 용어가 여러 곳에서 사용되었습니다. 왜 그래야만하지? ML 엔지니어가 신경망 내부에서 무슨 일이 일어나고 있는지 알지 못하는 것은 아닙니다. ML 엔지니어는 사용할 활성화 기능, 해당 …

40 machine-learning terminology

11

C (또는 C ++)의 데이터 과학

저는 R언어 프로그래머입니다. 나는 또한 데이터 과학자로 간주되지만 CS 이외의 학문 분야에서 온 사람들의 그룹에 있습니다. 이것은 데이터 과학자로서의 역할에서 잘 작동하지만 R다른 스크립팅 / 웹 언어에 대한 기본 지식 만 가지고 경력을 시작함으로써 두 가지 주요 영역에서 다소 부적절하다고 느꼈습니다. 프로그래밍 이론에 대한 확실한 지식이 부족합니다. 경쟁과 같은보다 빠르고 …

40 machine-learning bigdata statistics programming c