데이터 과학

3

Kolmogorov–Smirnov 검정 (KS), AUROC 및 Gini 계수 와 같은 일반적인 모델 검증 통계 는 모두 기능적으로 관련되어 있습니다. 그러나 내 질문은 이것이 어떻게 관련되어 있는지 증명하는 것과 관련이 있습니다. 이 관계를 증명할 수있는 사람이 있는지 궁금합니다. 온라인에서 아무것도 찾을 수 없었지만 증거의 작동 방식에 진심으로 관심이 있습니다. 예를 들어 Gini …

11 data-mining statistics predictive-modeling accuracy

2

실험 실행 및 결과의 책 보관

나는 연구원에 손을 잡고 실행 가능한 솔루션을 테스트하는 것을 좋아하므로 많은 실험을하는 경향이 있습니다. 예를 들어, 문서 간의 유사성 점수를 계산하는 경우 많은 측정 값을 시도 할 수 있습니다. 실제로 각 측정에 대해 일부 매개 변수의 효과를 테스트하기 위해 여러 번 실행해야 할 수도 있습니다. 지금까지 입력에 대한 정보가 많은 …

11 tools experiments

3

NER에 대한 감독되지 않은 기능 학습

나는 수작업으로 만들어진 CRF 알고리즘을 사용하여 NER 시스템을 구현하여 꽤 좋은 결과를 얻었습니다. 문제는 POS 태그 및 보조 정리를 포함하여 많은 다른 기능을 사용했다는 것입니다. 이제 다른 언어에 대해 동일한 NER를 만들고 싶습니다. 여기서 문제는 POS 태그와 젬마를 사용할 수 없다는 것입니다. 딥 러닝 및 비지도 기능 학습에 대한 기사를 …

11 nlp text-mining feature-extraction

1

t-SNE Python 구현 : Kullback-Leibler 분기

[1]에서와 같이 t-SNE는 특정 조건이 충족 될 때까지 KL (Kullback-Leibler) 발산을 점진적으로 줄임으로써 작동합니다. t-SNE의 제작자는 KL 분기를 시각화의 성능 기준으로 사용하도록 제안합니다. Kullback-Leibler가 t-SNE가보고 한 차이점을 비교할 수 있습니다. t-SNE를 10 번 실행하고 KL 발산이 가장 낮은 솔루션을 선택하는 것이 좋습니다 [2] t-SNE의 두 가지 구현을 시도했습니다. 파이썬 : …

11 machine-learning python

4

HPC 클러스터 작업

우리 대학에는 HPC 컴퓨팅 클러스터가 있습니다. 클러스터를 사용하여 분류 자 등을 교육합니다. 따라서 일반적으로 작업을 클러스터로 보내려면 (예 : python scikit-learn 스크립트)와 같은 명령을 포함하는 Bash 스크립트를 작성해야합니다 qsub script.py. 그러나 나는이 과정이 매우 실망 스럽다는 것을 안다. 일반적으로 노트북에 파이썬 스크립트를 작성한 다음 서버에 로그인하여 SVN 저장소를 업데이트하므로 동일한 …

11 bigdata data-mining

3

패턴 분석을위한 데이터 시각화 (언어 독립적이지만 R 선호)

패턴을 이해하기 위해 디스크 이미지에서 바이트를 플로팅하려고합니다. 디스크 테스트 프로그램에 의해이 패턴이 생성 된 것이 거의 확실하기 때문에 이것은 주로 학술적인 작업이지만 어쨌든 리버스 엔지니어링하고 싶습니다. 256 자 주기로 패턴이 정렬되어 있음을 이미 알고 있습니다. 이 정보를 시각화하는 두 가지 방법, 즉 각 픽셀의 색상이 문자의 ASCII 코드 인 16x16 …

11 r visualization

4

주식에 대한 과거 시가 총액 및 일일 매출 데이터는 어디서 다운로드 할 수 있습니까?

과거의 주식 데이터를 제공하는 소스는 많지만 볼륨 및 조정 된 닫기와 함께 OHLC 필드 만 제공합니다. 또한 내가 찾은 두 가지 소스는 시가 총액 데이터 세트를 제공하지만 미국 주식으로 제한됩니다. Yahoo Finance는이 데이터를 온라인으로 제공하지만 다운로드 할 수있는 옵션이 없습니다 (또는 내가 아는 바 없음). 티커 이름을 사용하여 국가 간 …

11 dataset

3

자연어 쿼리를 처리하는 방법?

자연어 쿼리에 대해 궁금합니다. 스탠포드는 자연 언어 처리를위한 강력한 소프트웨어 세트를 가지고 있습니다 . 또한 Apache OpenNLP 라이브러리 와 텍스트 엔지니어링을위한 일반 아키텍처를 보았습니다 . 자연어 처리에는 엄청나게 많은 용도가 있으며 이러한 프로젝트의 문서를 빨리 흡수하기 어렵게 만듭니다. 간단한 질문을 SQL로 기본 변환하는 데 필요한 작업을 개략적으로 간략하게 설명 할 …

11 nlp

4

로지스틱 회귀는 실제로 회귀 알고리즘입니까?

회귀의 일반적인 정의는 (내가 아는 한) 주어진 입력 변수 세트에서 연속 출력 변수를 예측하는 것 입니다. 로지스틱 회귀는 이진 분류 알고리즘이므로 범주 형 출력을 생성합니다. 정말 회귀 알고리즘입니까? 그렇다면 왜 그렇습니까?

11 algorithms logistic-regression

3

통계 석사 논문에 대한 데이터 과학 지향 데이터 세트 / 연구 질문

'데이터 과학'을 탐구하고 싶습니다. 이 용어는 다소 모호한 것 같지만 요구할 것으로 예상합니다. 기계 학습 (전통적인 통계가 아닌); 클러스터에서 분석을 실행해야하는 충분한 데이터 집합 데이터 과학 분야를 탐색하는 데 사용할 수있는 프로그래밍 배경을 가진 통계학자가 액세스 할 수있는 좋은 데이터 세트와 문제점은 무엇입니까? 가능한 한 좁게 유지하기 위해, 잘 사용되는 …

11 statistics education knowledge-base definitions

5

상관 된 변수를 제거하는시기

피처 엔지니어링 전이나 피처 엔지니어링 후 상관 변수를 제거하는 올바른 단계가 무엇인지 제안 해 주시겠습니까?

11 machine-learning feature-selection data-science-model

3

LSTM, BiLSTM은 무엇이며 언제 사용해야합니까?

저는 딥 러닝을 처음 접했고 특히 LSTM과 BiLSTM가 무엇이며 언제 사용해야하는지 (주요 응용 분야) 알고 싶습니다. LSTM 및 BILSTM가 RNN보다 인기가 높은 이유는 무엇입니까? 감독되지 않은 문제에서 이러한 딥 러닝 아키텍처를 사용할 수 있습니까?

11 machine-learning deep-learning rnn lstm

1

CNN에서 고밀도 레이어의 수와 크기

내가 본 대부분의 네트워크에는 최종 softmax 레이어 이전에 하나 또는 두 개의 고밀도 레이어가 있습니다. 고밀도 레이어의 수와 크기를 선택하는 원칙적인 방법이 있습니까? 동일한 수의 매개 변수에 대해 두 개의 치밀한 레이어가 하나보다 더 대표적입니까? 각 고밀도 레이어 전에 드롭 아웃을 적용해야합니까, 아니면 한 번만 적용해야합니까?

11 convnet

2

너무 오래 훈련 할 때 Adam 최적화 프로그램의 이상한 동작

64 개의 무작위로 생성 된 데이터 포인트에서 단일 퍼셉트론 (1000 입력 단위, 1 출력, 숨겨진 레이어 없음)을 훈련하려고합니다. Adam 최적화 프로그램을 사용하여 Pytorch를 사용하고 있습니다. import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = Variable(torch.randn(N, D_out)) model = torch.nn.Linear(D_in, …

11 perceptron pytorch

3

이미지에서 감독되지 않은 기능 추출에 GAN을 사용하는 방법은 무엇입니까?

두 네트워크 (생성 및 차별적)가 서로 경쟁하는 동안 GAN의 작동 방식을 이해했습니다. 나는 MNIST 데이터 세트와 유사한 자필 숫자를 성공적으로 생성하는 DCGAN (컨볼 루션 판별 기 및 디볼 루션 생성기가있는 GAN)을 만들었습니다. 이미지에서 기능을 추출하기위한 GAN의 애플리케이션에 대해 많이 읽었습니다. 훈련 된 GAN 모델 (MNIST 데이터 세트)을 사용하여 MNIST 필기 …

11 feature-extraction unsupervised-learning gan