데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

3
클레임 데이터의 과거 상태에서 다음 의학적 상태 예측
저는 현재 일부 실험실 및 약국 청구를 포함하는 대규모 건강 보험 청구 데이터를 사용하고 있습니다. 그러나 데이터 세트에서 가장 일관된 정보는 진단 (ICD-9CM)과 절차 코드 (CPT, HCSPCS, ICD-9CM)로 구성됩니다. 나의 목표는 : 만성 신장 질환과 같은 의학적 상태에 대해 가장 영향력있는 전구체 상태 (수용성)를 식별하십시오. 환자가 과거에 있었던 상태에 근거하여 …

3
n- 그램으로 색인 된 데이터를 저장하기위한 효율적인 데이터베이스 모델
큰 텍스트 모음에 존재하는 매우 큰 n-gram 데이터베이스를 만들어야하는 응용 프로그램을 작성 중입니다. 효율적인 3 가지 연산 유형이 필요합니다 : n-gram 자체에 의해 색인 된 검색 및 삽입, sub-n-gram을 포함하는 모든 n-gram을 쿼리합니다. 데이터베이스가 거대한 문서 트리 여야하고 Mongo와 같은 문서 데이터베이스가 작업을 잘 수행 할 수 있어야하는 것처럼 들리지만 …
12 nlp  databases 

3
샘플 크기가 다른 여러 분류기의 성능 측정
현재 텍스트에서 추출한 다양한 엔터티에 여러 분류기를 사용하고 있으며 각 개별 분류 기가 주어진 데이터 집합에서 얼마나 잘 수행되는지에 대한 요약으로 정밀도 / 호출을 사용하고 있습니다. 이러한 분류기의 성능을 비슷한 방식으로 비교하는 의미있는 방법이 있는지 궁금하지만 분류되는 테스트 데이터의 각 엔터티 수를 고려합니까? 현재는 성능 측정으로 정밀도 / 호출을 사용하고 …

1
전역 압축 방법과 범용 압축 방법의 차이점은 무엇입니까?
압축 방법은 두 가지 주요 세트로 나눌 수 있음을 이해합니다. 글로벌 현지 첫 번째 세트는 처리중인 데이터에 관계없이 작동합니다. 즉, 데이터의 특성에 의존하지 않으므로 데이터 세트의 일부 (압축 자체 이전)에서 사전 처리를 수행 할 필요가 없습니다. 반면에 로컬 방법은 데이터를 분석하여 일반적으로 압축률을 향상시키는 정보를 추출합니다. 이 방법들 중 일부에 …

2
기본 설정 일치 알고리즘
다음 문제에 대한 솔루션을 구조화 해야하는이 측면 프로젝트가 있습니다. 나는 두 그룹의 사람들 (고객)이 있습니다. 그룹 A은 B결정된 제품 을 사고, 그룹 은 판매하려고합니다 X. 이 제품은 속성의 시리즈를 가지고 x_i, 내 목표는 사이의 거래 촉진하는 것이다 A하고 B자신의 환경 설정을 일치하여입니다. 주요 아이디어는 제품이 그의 요구에 더 잘 맞는 …

3
~ 1XTB 데이터의 Amazon RedShift가 Hadoop을 대체합니까?
하둡과 그 생태계를 둘러싼 과대 광고가 많이 있습니다. 그러나 실제로 많은 데이터 세트가 테라 바이트 범위에 있는 경우 하둡 클러스터를 구축하는 데 시간과 노력을 들이지 않고 Amazon RedShift 를 사용하여 큰 데이터 세트를 쿼리 하는 것이 더 합리적이지 않습니까? 또한 설정 복잡성, 비용 및 성능면에서 Amazon Redshift와 Hadoop을 어떻게 비교합니까?

9
기계 학습 응용 프로그램을 쉽게 배울 수있는 것은 무엇입니까? [닫은]
폐쇄되었습니다 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 일반적으로 기계 학습에 익숙하지 않기 때문에 나는 주변에서 놀기 시작하고 가능성이 무엇인지보고 싶습니다. 설치에서 의미있는 결과를 생성하는 데 …

2
Storm과 Hadoop 간의 상충 관계 (MapReduce)
누군가가 데이터 처리를 위해 Hadoop Cluster에서 Storm과 MapReduce를 선택할 때 관련된 트레이드 오프에 대해 친절하게 말해 줄 수 있습니까? 물론 Hadoop (Hadoop 클러스터에서 MapReduce를 통한 처리)은 일괄 처리 시스템이고 Storm은 실시간 처리 시스템이라는 것이 명백합니다. Hadoop Eco System에서 약간 작업했지만 Storm에서는 작업하지 않았습니다. 많은 프레젠테이션과 기사를 검토 한 후에도 여전히 …

3
EC2 사용시 인스턴스와 코어
종종 "중간 데이터"프로젝트라고 할 수있는 작업을 수행하면서 4 개에서 32 개 코어에 이르는 단일 시스템에서 코드 (대부분 Python에서 모델링 및 예측 용)를 병렬화 할 수있었습니다. 이제는 EC2에서 클러스터로 확장하는 것을보고 있는데 (아마도 StarCluster / IPython을 사용하지만 다른 제안에도 열려 있음) 클러스터의 인스턴스와 인스턴스의 코어간에 작업을 분산시키는 방법에 의문이 생겼습니다. 각 …
12 parallel  clusters  aws 

2
신경망이
유명한 Tensorflow Fizz Buzz 농담과 XOr 문제의 정신에서 y=x2y=x2y = x^2 기능 을 구현하는 신경망을 설계 할 수 있다면 생각하기 시작했습니다 . 숫자의 일부 표현 (예 : 이진수 형식의 벡터로 숫자 5가로 [1,0,1,0,0,0,0,...]표시됨) 이 주어진 경우 신경망은이 경우 제곱-25를 반환하는 법을 배워야합니다. y=x2y=x2y=x^2 구현할 수 있다면 아마도 y=x3y=x3y=x^3 및 일반적으로 …

3
신경망 설계에 대한 경험 규칙이 있습니까?
신경망 아키텍처는 대부분 문제 자체와 입력 / 출력 유형을 기반으로하지만 여전히 빌드를 시작할 때 항상 "사각형"이 있다는 것을 알고 있습니다. 그래서 내 질문은 MxN 의 입력 데이터 세트 (M은 레코드 수, N은 피처 수) 및 C 가능한 출력 클래스 가 주어진다 는 것입니다. 우리는 몇 개의 레이어 / 단위로 시작해야하는 …

1
회귀 분석을위한 높은 카디널리티 범주 기능을 사용하여 기능의 중요성 (숫자 고유 변수)
랜덤 포레스트의 기능 중요도를 사용하여 회귀 문제에 대한 경험적 기능 선택을 수행하려고 시도했습니다. 회귀 문제는 모든 기능이 범주 형이며 많은 기능이 많은 수준 (100-1000 정도)입니다. one-hot 인코딩은 각 레벨마다 더미 변수를 생성하므로 각 기능 (컬럼)이 아니라 각 레벨마다 기능 중요도가 중요합니다. 이러한 기능 중요도를 집계하는 좋은 방법은 무엇입니까? 기능의 모든 …

1
딥 러닝의 정사각형 이미지에 대한 이유
VGG, ResNet 등과 같은 대부분의 고급 딥 러닝 모델에는 일반적으로 픽셀 크기가 정사각형 이미지가 입력으로 필요합니다 .224x224224x224224x224 입력이 동일한 모양이어야하는 이유가 있습니까? 아니면 이라고 말하는 Convnet 모델을 만들 수 있습니까 (예를 들어 팩스 인식을 원하고 세로 이미지가있는 경우)?100x200100x200100x200 와 같이 더 큰 픽셀 크기로 이점이 증가 합니까?512x512512x512512x512

4
모델이 과적 합을 시작한 것을 아는 방법은 무엇입니까?
다음 발췌문이 내 질문이 무엇인지에 대한 통찰력을 제공하기를 바랍니다. 이들은 http://neuralnetworksanddeeplearning.com/chap3.html 에서 온 것입니다. 학습은 점차 느려집니다. 마지막으로, 약 280 년경에 분류 정확도는 거의 개선되지 않습니다. 후기 신기원은 신기원 280에서 정확도 값 근처에서 작은 확률 론적 변동을 볼뿐입니다. 이전 데이터와 대조적으로 훈련 데이터와 관련된 비용이 계속해서 하락합니다. 우리가 그 비용을 …

3
Pandas의 범주 형 열을 대량 변환 (원핫 인코딩 아님)
scikit-learn을 사용하여 의사 결정 트리에서 사용할 예정인 수많은 범주 열이있는 팬더 데이터 프레임이 있습니다. 그것들을 숫자 값으로 변환해야합니다 (핫 벡터가 아닌). scikit-learn의 LabelEncoder로 할 수 있습니다. 문제는 너무 많아서 수동으로 변환하고 싶지 않다는 것입니다. 이 프로세스를 자동화하는 쉬운 방법은 무엇입니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.