저는 현재 소매 회사에서 데이터 과학자로 일하고 있습니다 (DS의 첫 번째 직업이므로이 질문은 경험이 부족한 결과 일 수 있습니다). 그들은 구현 될 경우 큰 긍정적 인 영향을 미칠 수있는 정말로 중요한 데이터 과학 프로젝트에 대한 엄청난 백 로그를 가지고 있습니다. 그러나.
데이터 파이프 라인은 회사 내에 존재하지 않습니다. 표준 절차는 정보가 필요할 때마다 기가 바이트의 TXT 파일을 전달하는 것입니다. 이 파일들을 비전 표기법과 구조로 저장된 테이블 형식의 트랜잭션 로그로 생각하십시오. 하나의 단일 데이터 소스에 전체 정보가 포함되어 있지 않으며 "보안상의 이유로"ERP 데이터베이스에 대한 액세스 권한을 부여 할 수 없습니다.
가장 간단한 프로젝트의 초기 데이터 분석에는 잔인하고 치명적인 데이터 조정이 필요합니다. 프로젝트 시간의 80 % 이상 이 실용적인 데이터 세트를 구축하기 위해 이러한 파일 을 분석 하고 데이터 소스 를 교차 하려고합니다 . 이것은 단순히 누락 된 데이터를 처리하거나 전처리하는 문제가 아니라 , 처음에 처리 할 수있는 데이터를 구축하는 데 필요한 작업입니다 ( 데이터 과학이 아닌 dba 또는 데이터 엔지니어링으로 해결할 수 있는가? ).
1) 대부분의 작업이 데이터 과학과 전혀 관련이없는 것처럼 느껴집니다. 이것이 정확합니까?
2) 나는 이것이 고급 데이터 엔지니어링 부서를 가진 데이터 중심 회사가 아니라는 것을 알고 있지만, 지속 가능한 미래의 데이터 과학 프로젝트를 구축하기 위해서는 최소한의 데이터 접근성 수준이 필요하다고 생각합니다 . 내가 잘못?
3) 이 유형의 설정은 심각한 데이터 과학이 필요한 회사에 공통적인가?