데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A


11
scikit learn을 사용하는 SVM은 끝없이 실행되며 실행을 완료하지 않습니다
595605 개의 행과 5 개의 열 (기능)이있는 교육 데이터 세트와 397070 개의 행이있는 테스트 데이터 세트에서 scikit learn (python)을 사용하여 SVR을 실행하려고합니다. 데이터는 사전 처리되어 정규화되었습니다. 테스트 예제를 성공적으로 실행할 수는 있지만 내 데이터 세트를 사용하여 실행하고 1 시간 이상 동안 실행할 수 있지만 여전히 프로그램의 출력 또는 종료를 볼 …

5
비용 함수가 왜 제곱 오차를 사용합니까?
방금 기계 학습을 시작했으며 지금까지 하나의 변수에 대한 선형 회귀를 다루었습니다. 나는 가설이 있다는 것을 배웠다. hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x 매개 변수 및 θ 1에 대한 올바른 값을 찾기 위해 계산 된 결과와 테스트 데이터의 실제 결과 간의 차이를 최소화하려고합니다. 그래서 우리는 빼기θ0θ0\theta_0θ1θ1\theta_1 hθ(x(i))−y(i)hθ(x(i))−y(i)h_\theta(x^{(i)})-y^{(i)} 1 에서 m 까지의 모든 대해 . 따라서이 차이에 …

11
사람들은 왜 Pandas를 SQL보다 선호합니까?
1996 년부터 SQL을 사용해 왔기 때문에 편견이있을 수 있습니다. MySQL과 SQLite 3을 광범위하게 사용했지만 Microsoft SQL Server와 Oracle도 사용했습니다. Pandas로 수행 한 대부분의 작업은 SQL로 더 쉽게 수행 할 수 있습니다. 여기에는 데이터 집합 필터링, 표시 할 특정 열 선택, 값에 함수 적용 등이 포함됩니다. SQL에는 옵티 마이저 및 데이터 …
69 pandas  sql 


8
데이터 과학자 vs 기계 학습 엔지니어
"데이터 과학자"와 "머신 러닝 엔지니어"의 차이점은 무엇입니까? 지난 1 년 동안 "머신 러닝 엔지니어"는 구인 광고에 많은 것을 보여주었습니다. 이것은 샌프란시스코에서 특히 눈에 띄는 데, 이는 "데이터 과학자"라는 용어가 유래 된 곳일 것입니다. 어느 시점에서 "데이터 과학자"는 "통계 학자"를 능가했으며, 이제 같은 데이터가 "데이터 과학자"에게 천천히 일어나기 시작하는지 궁금합니다. 이 …

1
팬더에서 isna ()와 isnull ()의 차이점
나는 팬더를 꽤 오랫동안 사용 해왔다. 그러나 팬더 isna()와 isnull()팬더 의 차이점은 무엇인지 이해하지 못합니다 . 그리고 더 중요한 것은 데이터 프레임에서 결 측값을 식별하는 데 사용할 것입니다. 값이 na또는 로 감지되는 방법의 기본적인 기본 차이점은 무엇입니까 null?

5
ARIMA vs LSTM을 사용한 시계열 예측
내가 다루고있는 문제는 시계열 값을 예측하는 것입니다. 한 번에 하나의 시계열을보고 있으며 입력 데이터의 15 %를 기준으로 미래 값을 예측하고 싶습니다. 지금까지 나는 두 가지 모델을 보았습니다. LSTM (장기 단기 기억, 반복 신경망의 클래스) 아리마 나는 둘 다 시도하고 그들에 대한 기사를 읽었습니다. 이제 두 가지를 비교하는 방법에 대해 더 …

3
AUC 대 표준 정확도의 장점
곡선 아래 면적 (AUC)을 조사하기 시작했으며 그 유용성에 대해 약간 혼란스러워했습니다. 처음 나에게 설명했을 때 AUC는 성능의 척도 인 것처럼 보였지만 내 연구에서 높은 표준 정확도 측정과 낮은 AUC로 '운이 좋은'모델을 잡는 데 가장 유리하다는 점에서 장점이 거의 없다고 주장했습니다. . 모델 검증에 AUC에 의존하지 않아야합니까 아니면 조합이 가장 좋을까요? …

1
두 범주 형 변수와 범주 형 변수 및 연속 변수 사이의 상관 관계를 얻는 방법은 무엇입니까?
회귀 모델을 작성 중이며 상관 관계를 확인하기 위해 아래를 계산해야합니다. 2 개의 다단계 범주 형 변수 간의 상관 다단계 범주 형 변수와 연속 변수의 상관 관계 다단계 범주 형 변수에 대한 VIF (분산 인플레이션 계수) Pearson은 2 개의 연속 변수에 대해서만 작동하기 때문에 위 시나리오에서 Pearson 상관 계수를 사용하는 것이 …

6
의사 결정 트리 / 임의의 포리스트에있는 기능인 문자열
의사 결정 트리 / 임의의 응용 프로그램에서 일부 문제가 있습니다. 숫자와 문자열 (예 : 국가 이름)을 기능으로 갖는 문제를 해결하려고합니다. 이제 라이브러리 scikit-learn 은 숫자를 매개 변수로 사용하지만 문자열을 주입하고 많은 지식을 가지고 싶습니다. 그러한 시나리오를 어떻게 처리합니까? 파이썬의 해싱과 같은 메커니즘으로 문자열을 숫자로 변환 할 수 있습니다. 그러나 의사 …

3
최대 풀링 레이어를 통한 역 전파?
이것은 한동안 나에 대한 작은 개념적 질문입니다. 신경망에서 최대 풀링 레이어를 통해 어떻게 역 전파 할 수 있습니까? Torch 7의 nn 라이브러리에 대한 자습서 를 진행하면서 최대 풀링 레이어를 발견했습니다 . 라이브러리는 딥 네트워크의 각 레이어에 대한 그라디언트 계산 및 전달 패스를 추상화합니다. 최대 풀링 레이어에 대한 그래디언트 계산이 어떻게 …

8
파이썬에서 오픈 소스 이상 탐지
문제 배경 : IT 모니터링 공간에서 찾은 것과 비슷한 로그 파일이 포함 된 프로젝트를 진행하고 있습니다 (IT 공간을 가장 잘 이해하고 있음). 이 로그 파일은 시계열 데이터이며 다양한 매개 변수의 수백 / 수천 행으로 구성됩니다. 각 매개 변수는 숫자 (float)이며 각 시점에 대해 사소한 / 오류가없는 값이 있습니다. 내 임무는 …

2
Keras에서 다른 길이의 예제를 사용하여 RNN 교육
RNN에 대해 배우려고 노력 중이며 Keras를 사용하고 있습니다. 바닐라 RNN 및 LSTM 레이어의 기본 전제를 ​​이해하고 있지만 교육을위한 특정 기술 요점을 이해하는 데 어려움을 겪고 있습니다. 에서 keras 문서 , 그것은 RNN 층에 입력이 모양이 있어야합니다 말한다 (batch_size, timesteps, input_dim). 이것은 모든 훈련 예제가 고정 된 시퀀스 길이, 즉timesteps . …
60 python  keras  rnn  training 


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.