데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

2
왜 우리는 데이터 불균형을 처리해야합니까?
데이터 불균형을 처리해야하는 이유 를 알아야 합니다. 업 샘플링 또는 다운 샘플링 또는 Smote를 사용하여 문제를 해결하는 방법과 다양한 방법을 알고 있습니다. 예를 들어, 100 명 중 1 %의 희귀 질환이 있고 훈련 세트에 대해 균형 잡힌 데이터 세트를 결정했다고 가정 해 보겠습니다. 50/50 샘플 기계가 환자의 50 %가 질병? …

4
신경망으로 이상 감지
매일 생성되는 큰 다차원 데이터 집합이 있습니다. 이전과 비교했을 때 어떤 종류의 '이상 현상'을 감지하는 좋은 방법은 무엇입니까? 이것이 신경망으로 해결할 수있는 적절한 문제입니까? 모든 제안을 부탁드립니다. 추가 정보 : 예가 없으므로이 방법은 이상 자체를 감지해야합니다.

4
다른 형식의 문서를 비교할 때 TF-IDF 및 코사인 유사성에 대한 대안
저는 작고 개인적인 프로젝트를 진행하고 있는데,이 프로젝트는 사용자의 직무 기술을 활용하고 그 기술을 기반으로 가장 이상적인 경력을 제안합니다. 나는 이것을 달성하기 위해 직업 목록 데이터베이스를 사용합니다. 현재 코드는 다음과 같이 작동합니다. 1) 각 직업 목록의 텍스트를 처리하여 목록에 언급 된 기술을 추출합니다. 2) 각 경력 (예 : "데이터 분석가")에 대해 …

2
유효성 검사 손실이 계속 떨어지더라도 과적 합이 발생할 수 있습니까?
나는 Keras에 컨볼 루션 + LSTM 모델을 가지고 있는데, 이것과 비슷한 (참조 1), 나는 Kaggle 콘테스트에 사용하고 있습니다. 아키텍처는 아래와 같습니다. 20 % 검증 분할로 50 에포크에 대해 레이블이 지정된 11000 샘플 세트 (두 클래스, 초기 유병률은 ~ 9 : 1이므로 1에서 약 1/1 비율로 업 샘플링했습니다)에 대해 학습했습니다. 한동안 …

3
분류에 RBM을 사용하는 방법은 무엇입니까?
현재 Restricted Boltzmann Machines를 사용하고 있는데 지금부터 필기 자릿수를 분류하려고합니다. 내가 만든 모델은 이제 꽤 멋진 생성 모델이지만 더 나아가는 방법을 모르겠습니다. 에서 이 문서 저자의 말은, 그건 좋은 생식 모델을 만든 후, 하나는 " 다음 차별적 분류를 기차 (즉, 선형 분류, 서포트 벡터 머신)을 RBM의 상단 라벨이 샘플 사용에 …

1
간단한자가 운전 RC 자동차에 대한지도 학습과 강화 학습
나는 재미를 위해 원격 제어식자가 운전 차량을 만들고 있습니다. 온보드 컴퓨터로 Raspberry Pi를 사용하고 있습니다. 저는 자동차 주변 환경에 대한 피드백을 위해 Raspberry Pi 카메라 및 거리 센서와 같은 다양한 플러그인을 사용하고 있습니다. 비디오 프레임을 텐서로 전환하기 위해 OpenCV를 사용하고 있으며 Google의 TensorFlow를 사용하여 도로 경계와 장애물을 배우기 위해 복잡한 …

2
PCA를 수행 할 때 얼마나 많은 차원을 줄일 수 있습니까?
PCA에 K를 선택하는 방법은 무엇입니까? K는 투영 할 치수의 수입니다. 유일한 요구 사항은 너무 많은 정보를 잃지 않는 것입니다. 나는 그것이 데이터에 달려 있다는 것을 이해하지만 K를 선택할 때 고려해야 할 특성에 대한 간단한 일반적인 개요를 찾고 있습니다.
12 pca 

1
2 가지 기능과 일련의 이벤트를 기반으로 고객 분류
내가 설계하고있는 알고리즘에서 다음 단계가 무엇인지에 대한 도움이 필요합니다. NDA로 인해 많은 것을 공개 할 수는 없지만 일반적이고 이해할 수 있도록 노력할 것입니다. 기본적으로 알고리즘의 여러 단계 후에 다음과 같은 결과가 있습니다. 내가 보유한 각 고객과 한 달 동안 수행하는 이벤트에 대해 첫 번째 단계에서 이벤트를 여러 범주로 클러스터링했습니다 (각 …

1
MinHashing 및 SimHashing
클러스터링하려는 5 개 세트가 있다고 가정합니다. SimHashing 기술이 여기에 설명되어 있음을 이해합니다. https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 예를 들어 결과가 다음과 같은 경우 세 개의 클러스터 ( {A}, {B,C,D}및 {E})를 생성 할 수 있습니다 . A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 마찬가지로 MMDS 책의 3 …


2
항공 요금-경쟁력있는 가격 결정 동작과 가격 상관 관계를 탐지하기 위해 어떤 분석을 사용해야합니까?
항공사의 가격 결정 동작, 특히 항공사가 경쟁사 가격에 반응하는 방식을 조사하고 싶습니다. 더 복잡한 분석에 대한 내 지식은 상당히 제한적이라고 말하지만 데이터의 전체적인 관점을 수집하기 위해 대부분 기본 방법을 모두 사용했습니다. 여기에는 유사한 패턴을 식별하는 데 도움이되는 간단한 그래프가 포함됩니다. SAS Enterprise 9.4도 사용하고 있습니다. 그러나 나는 더 많은 숫자 …

7
데이터 과학자의 '이전 이름'은 무엇입니까?
'데이터 과학'및 '데이터 과학자'와 같은 용어가 점점 더 많이 사용되고 있습니다. 많은 회사들이 '데이터 과학자'를 고용하고 있습니다. 그러나 나는 그것이 완전히 새로운 직업이라고 생각하지 않습니다. 과거의 데이터가 존재했으며 누군가 데이터를 처리해야했습니다. '데이터 과학자'라는 용어가 더 화려하고 '섹시하게'들리기 때문에 인기가 높아진 것 같습니다. 과거에 데이터 과학자들은 어떻게 불려왔습니까?
12 bigdata 

1
해싱 트릭-실제로 일어나는 일
Vowpal Wabbit 또는 일부 인수 분해 시스템이 클릭률 경쟁 ( Kaggle ) 을 수상한 ML 알고리즘과 같이 기능이 '해시'되었다고 언급하면 ​​실제로 모델에 어떤 의미가 있습니까? 인터넷 추가의 ID를 나타내는 변수가 있는데 '236BG231'과 같은 값을 사용합니다. 그런 다음이 기능은 임의의 정수로 해시된다는 것을 이해합니다. 그러나 내 질문은 다음과 같습니다. 이제 모델에서 …

3
비정형 텍스트 분류
구조화되지 않은 텍스트 문서, 즉 구조가 알려지지 않은 웹 사이트를 분류하려고합니다. 내가 분류하고있는 수업의 수는 제한되어 있습니다 (이 시점에서는 3 명 이하라고 생각합니다). 누구든지 내가 어떻게 시작할 수 있는지 제안 했습니까? 여기서 "단어"접근이 가능한가? 나중에 문서 구조 (아마도 의사 결정 트리)를 기반으로 다른 분류 단계를 추가 할 수 있습니다. Mahout과 …

2
이모티콘에 대한 감정 데이터
실험을 위해 우리는 사용하고 싶은 이모티콘 많은 지상 사실로 트윗 / 단순 양적 senitment 분석을 위해 데이터를 교육에 포함합니다. 트윗은 일반적으로 NLP가 제대로 작동하기에는 너무 구조화되어 있지 않습니다. 어쨌든 유니 코드 6.0에는 722 개의 이모지가 있으며, 유니 코드 7.0에는 또 다른 250 개가 추가 될 것입니다. 감정 주석이 포함 된 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.