데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

3
KS, AUROC 및 Gini의 관계
Kolmogorov–Smirnov 검정 (KS), AUROC 및 Gini 계수 와 같은 일반적인 모델 검증 통계 는 모두 기능적으로 관련되어 있습니다. 그러나 내 질문은 이것이 어떻게 관련되어 있는지 증명하는 것과 관련이 있습니다. 이 관계를 증명할 수있는 사람이 있는지 궁금합니다. 온라인에서 아무것도 찾을 수 없었지만 증거의 작동 방식에 진심으로 관심이 있습니다. 예를 들어 Gini …

2
실험 실행 및 결과의 책 보관
나는 연구원에 손을 잡고 실행 가능한 솔루션을 테스트하는 것을 좋아하므로 많은 실험을하는 경향이 있습니다. 예를 들어, 문서 간의 유사성 점수를 계산하는 경우 많은 측정 값을 시도 할 수 있습니다. 실제로 각 측정에 대해 일부 매개 변수의 효과를 테스트하기 위해 여러 번 실행해야 할 수도 있습니다. 지금까지 입력에 대한 정보가 많은 …

3
NER에 대한 감독되지 않은 기능 학습
나는 수작업으로 만들어진 CRF 알고리즘을 사용하여 NER 시스템을 구현하여 꽤 좋은 결과를 얻었습니다. 문제는 POS 태그 및 보조 정리를 포함하여 많은 다른 기능을 사용했다는 것입니다. 이제 다른 언어에 대해 동일한 NER를 만들고 싶습니다. 여기서 문제는 POS 태그와 젬마를 사용할 수 없다는 것입니다. 딥 러닝 및 비지도 기능 학습에 대한 기사를 …

1
t-SNE Python 구현 : Kullback-Leibler 분기
[1]에서와 같이 t-SNE는 특정 조건이 충족 될 때까지 KL (Kullback-Leibler) 발산을 점진적으로 줄임으로써 작동합니다. t-SNE의 제작자는 KL 분기를 시각화의 성능 기준으로 사용하도록 제안합니다. Kullback-Leibler가 t-SNE가보고 한 차이점을 비교할 수 있습니다. t-SNE를 10 번 실행하고 KL 발산이 가장 낮은 솔루션을 선택하는 것이 좋습니다 [2] t-SNE의 두 가지 구현을 시도했습니다. 파이썬 : …

4
HPC 클러스터 작업
우리 대학에는 HPC 컴퓨팅 클러스터가 있습니다. 클러스터를 사용하여 분류 자 ​​등을 교육합니다. 따라서 일반적으로 작업을 클러스터로 보내려면 (예 : python scikit-learn 스크립트)와 같은 명령을 포함하는 Bash 스크립트를 작성해야합니다 qsub script.py. 그러나 나는이 과정이 매우 실망 스럽다는 것을 안다. 일반적으로 노트북에 파이썬 스크립트를 작성한 다음 서버에 로그인하여 SVN 저장소를 업데이트하므로 동일한 …

3
패턴 분석을위한 데이터 시각화 (언어 독립적이지만 R 선호)
패턴을 이해하기 위해 디스크 이미지에서 바이트를 플로팅하려고합니다. 디스크 테스트 프로그램에 의해이 패턴이 생성 된 것이 거의 확실하기 때문에 이것은 주로 학술적인 작업이지만 어쨌든 리버스 엔지니어링하고 싶습니다. 256 자 주기로 패턴이 정렬되어 있음을 이미 알고 있습니다. 이 정보를 시각화하는 두 가지 방법, 즉 각 픽셀의 색상이 문자의 ASCII 코드 인 16x16 …
11 r  visualization 

4
주식에 대한 과거 시가 총액 및 일일 매출 데이터는 어디서 다운로드 할 수 있습니까?
과거의 주식 데이터를 제공하는 소스는 많지만 볼륨 및 조정 된 닫기와 함께 OHLC 필드 만 제공합니다. 또한 내가 찾은 두 가지 소스는 시가 총액 데이터 세트를 제공하지만 미국 주식으로 제한됩니다. Yahoo Finance는이 데이터를 온라인으로 제공하지만 다운로드 할 수있는 옵션이 없습니다 (또는 내가 아는 바 없음). 티커 이름을 사용하여 국가 간 …
11 dataset 

3
자연어 쿼리를 처리하는 방법?
자연어 쿼리에 대해 궁금합니다. 스탠포드는 자연 언어 처리를위한 강력한 소프트웨어 세트를 가지고 있습니다 . 또한 Apache OpenNLP 라이브러리 와 텍스트 엔지니어링을위한 일반 아키텍처를 보았습니다 . 자연어 처리에는 엄청나게 많은 용도가 있으며 이러한 프로젝트의 문서를 빨리 ​​흡수하기 어렵게 만듭니다. 간단한 질문을 SQL로 기본 변환하는 데 필요한 작업을 개략적으로 간략하게 설명 할 …
11 nlp 


3
통계 석사 논문에 대한 데이터 과학 지향 데이터 세트 / 연구 질문
'데이터 과학'을 탐구하고 싶습니다. 이 용어는 다소 모호한 것 같지만 요구할 것으로 예상합니다. 기계 학습 (전통적인 통계가 아닌); 클러스터에서 분석을 실행해야하는 충분한 데이터 집합 데이터 과학 분야를 탐색하는 데 사용할 수있는 프로그래밍 배경을 가진 통계학자가 액세스 할 수있는 좋은 데이터 세트와 문제점은 무엇입니까? 가능한 한 좁게 유지하기 위해, 잘 사용되는 …



1
CNN에서 고밀도 레이어의 수와 크기
내가 본 대부분의 네트워크에는 최종 softmax 레이어 이전에 하나 또는 두 개의 고밀도 레이어가 있습니다. 고밀도 레이어의 수와 크기를 선택하는 원칙적인 방법이 있습니까? 동일한 수의 매개 변수에 대해 두 개의 치밀한 레이어가 하나보다 더 대표적입니까? 각 고밀도 레이어 전에 드롭 아웃을 적용해야합니까, 아니면 한 번만 적용해야합니까?
11 convnet 

2
너무 오래 훈련 할 때 Adam 최적화 프로그램의 이상한 동작
64 개의 무작위로 생성 된 데이터 포인트에서 단일 퍼셉트론 (1000 입력 단위, 1 출력, 숨겨진 레이어 없음)을 훈련하려고합니다. Adam 최적화 프로그램을 사용하여 Pytorch를 사용하고 있습니다. import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = Variable(torch.randn(N, D_out)) model = torch.nn.Linear(D_in, …

3
이미지에서 감독되지 않은 기능 추출에 GAN을 사용하는 방법은 무엇입니까?
두 네트워크 (생성 및 차별적)가 서로 경쟁하는 동안 GAN의 작동 방식을 이해했습니다. 나는 MNIST 데이터 세트와 유사한 자필 숫자를 성공적으로 생성하는 DCGAN (컨볼 루션 판별 기 및 디볼 루션 생성기가있는 GAN)을 만들었습니다. 이미지에서 기능을 추출하기위한 GAN의 애플리케이션에 대해 많이 읽었습니다. 훈련 된 GAN 모델 (MNIST 데이터 세트)을 사용하여 MNIST 필기 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.