데이터 과학자의 직업은 얼마나 많은 데이터를 정리 하는가?


44

저는 현재 소매 회사에서 데이터 과학자로 일하고 있습니다 (DS의 첫 번째 직업이므로이 질문은 경험이 부족한 결과 일 수 있습니다). 그들은 구현 될 경우 큰 긍정적 인 영향을 미칠 수있는 정말로 중요한 데이터 과학 프로젝트에 대한 엄청난 백 로그를 가지고 있습니다. 그러나.

데이터 파이프 라인은 회사 내에 존재하지 않습니다. 표준 절차는 정보가 필요할 때마다 기가 바이트의 TXT 파일을 전달하는 것입니다. 이 파일들을 비전 표기법과 구조로 저장된 테이블 형식의 트랜잭션 로그로 생각하십시오. 하나의 단일 데이터 소스에 전체 정보가 포함되어 있지 않으며 "보안상의 이유로"ERP 데이터베이스에 대한 액세스 권한을 부여 할 수 없습니다.

가장 간단한 프로젝트의 초기 데이터 분석에는 잔인하고 치명적인 데이터 조정이 필요합니다. 프로젝트 시간의 80 % 이상 실용적인 데이터 세트를 구축하기 위해 이러한 파일분석 하고 데이터 소스교차 하려고합니다 . 이것은 단순히 누락 된 데이터를 처리하거나 전처리하는 문제가 아니라 , 처음에 처리 할 수있는 데이터를 구축하는 데 필요한 작업입니다 ( 데이터 과학이 아닌 dba 또는 데이터 엔지니어링으로 해결할 수 있는가? ).


1) 대부분의 작업이 데이터 과학과 전혀 관련이없는 것처럼 느껴집니다. 이것이 정확합니까?

2) 나는 이것이 고급 데이터 엔지니어링 부서를 가진 데이터 중심 회사가 아니라는 것을 알고 있지만, 지속 가능한 미래의 데이터 과학 프로젝트를 구축하기 위해서는 최소한의 데이터 접근성 수준이 필요하다고 생각합니다 . 내가 잘못?

3) 이 유형의 설정은 심각한 데이터 과학이 필요한 회사에 공통적인가?


정보를 원하는 형식을 지정 했습니까? 그리고 그들이 ERP로 어떻게 이것을 할 수 있는지에 대한 지시를합니까?
jonnor

@jonnor 물론입니다. 나는 거의 2 년 동안 이곳에서 일해 왔으며, 첫날부터 더 나은 데이터 접근성을위한 플랫폼을 구축 할 수있는 방법을 설명했습니다. 하지만 30 년 동안 회사의 업무 변화에 강한 저항이 있습니다.
빅터 발렌테

13
TXT를 다시 사용 가능한 형식으로 변환하는 데 시간을 낭비하는 데 시간을 추적하고 비용으로 변환하십시오. 그들이 $ $ 그림을 가지고 일단 당신을 내기, 그들은 그것을 할 수 있습니다.
넬슨

그것이 당신의 시간에 짐이라면 아웃소싱 할 수 있습니다.
육종

회사가 데이터 과학자를 고용하고 여전히 변화에 저항하는 것이 혼란 스럽다는 것을 알게되었습니다. 당신은 그들에게 낭비되는 시간과 실제 보안상의 문제없이 긴 TXT 파일에 데이터를 보관하는 위험 OS를 보여 주어야합니다
Pedro Henrique Monforte

답변:


27
  1. 대부분의 작업이 데이터 과학과 전혀 관련이없는 것 같습니다. 이것이 정확합니까?

  2. 나는 이것이 고급 데이터 엔지니어링 부서를 가진 데이터 중심 회사가 아니라는 것을 알고 있지만 데이터 과학에는 최소한의 데이터 액세스 가능성이 필요하다고 생각합니다. 내가 잘못?

    당신은 틀리지 않지만 실제 생활의 현실입니다.

  3. 이 유형의 설정은 심각한 데이터 과학이 필요한 회사에 공통적인가?

기술적 인 관점에서보다 쉽게 ​​생활을 할 수있는 ETL 솔루션을 조사해야합니다. 특정 도구를 읽는 데 도구 하나가 다른 도구보다 훨씬 빠를 수 있습니다. 예를 들어, R의 readxl은 xlsx 파일을 읽을 때 파이썬 팬더보다 빠른 수면입니다. R을 사용하여 파일을 가져온 다음 Python에 적합한 형식 (나무 마루, SQL 등)으로 저장할 수 있습니다. 나는 당신이 xlsx 파일로 작업하고 있지 않다는 것을 알고 있으며 파이썬을 사용하는지 전혀 모른다. 그것은 단지 예일 뿐이다.

실용적인 관점에서 두 가지 :

  • 우선 기술적으로 가능한 것을 이해하십시오. 많은 경우, 귀하에게 말하는 사람들은 비즈니스 또는 규정 준수 고려 사항에 대해 걱정하지만 IT 관점에서 실현 가능하지 않은 것과 불가능한 것에 대한 개념이없는 IT 비양 한 사람들입니다. DBA 또는 데이터 인프라를 관리하는 사람과 대화하십시오. 기술적으로 가능한 것을 이해하십시오. 그런 다음에 만 타협점을 찾으십시오. 예를 들어 그들은 당신에게 그들의 시스템에 대한 액세스를 제공하지 않지만, 그 뒤에 데이터베이스가 있다고 가정합니다. 어쩌면 그들은 다른 형식으로 데이터를 추출 할 수 있습니까? 데이터 형식 등을 정의하는 SQL 문을 추출 할 수 있습니까?

  • THEIR에 관심이있는 경우 비즈니스 담당자가 도움을 줄 수 있습니다. 그들이 당신이하고있는 일조차 믿지 않는다면 힘든 운이 ...


2
ETL 솔루션을 찾거나 구축하는 데있어 탁월한 점. 추가 만하면됩니다 : 익숙하고 쉽게 읽고 디버깅 할 수있는 설정을 선택하십시오. 작업 자동화의 초기 단계에서 가장 빠른 데이터 제거 도구를 찾는 것보다 훨씬 중요합니다. 텍스트가 너무 많으면 밤새 실행되는 경우가 많으며 도구 / 프레임 워크 / 언어를 사용하면 유창한 데이터를 깨우거나 다시 시작해야하는 내용에 차이가 생길 수 있습니다. 단 한 번의 도킹만으로도 모든 효율성 이점을 없앨 수 있습니다. 빠르고 넘어지는 것보다 적은 버그로 꾸준히하는 것이 좋습니다.
Jason

2
참된. 그러나 지나치게 최적화하지 마십시오. 우선 순위를 현명하게 선택하십시오. 데이터 가져 오기가 일 회일 경우 가져 오기 시간을 2 시간에서 30 분으로 줄이는 방법을 찾는 데 며칠을 소비하지 마십시오. 기타
PythonGuest

39

이것은 많은 블로그, 회사 및 논문이 많은 경우에 실제 무언가로 인정하는 상황입니다.

이 백서에서는 빅 데이터를위한 데이터 랭 글링 : 과제 및 기회 에 대해 인용합니다.

데이터 과학자들은 시간의 50 %에서 80 %를 소비합니다

불법 디지털 데이터 수집 및 준비

또한이 기사에서 New York Times의 빅 데이터 과학자를위한 '재니 터 워크 (Janitor Work)는 통찰력의 핵심 장애물' 이라는 인용문의 출처를 읽을 수 있습니다.

불행히도 실제 세계는 Kaggle과 다릅니다. 약간의 정리만으로 데이터 탐색을 시작할 수있는 CSV 또는 Excel 파일이 없습니다. 필요에 맞지 않는 형식으로 데이터를 찾아야합니다.

당신이 할 수있는 일은 가능한 한 오래된 데이터를 활용하고 새로운 데이터의 저장을 프로세스 (또는 미래의 동료)가보다 쉽게 ​​작업 할 수있는 프로세스에 적용하는 것입니다.



4
Forbes는 "데이터 과학"이라는 단어와 함께 언급되지 않아야합니다.
gented

(인용) "인터뷰 및 전문가 추정치"를 기준으로 50-80 %
oW_

3
의견 기반 질문에 대한 의견 기반 답변에 배치 된 의견 기반 기사에서 의견 기반 설문에 대한 @gented Opinion 의견. "Data Science"SE에서 누가 이것을 찾을 것이라고 생각했을까요?
Keeta

25

대부분의 작업이 데이터 과학과 전혀 관련이없는 것 같습니다. 이것이 정확합니까?

이것은 모든 데이터 과학 프로젝트의 현실입니다. 구글은 실제로 그것을 측정하고 "기계 학습 시스템에 숨겨진 기술 부채"( https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf)를 출판했습니다.

여기에 이미지 설명을 입력하십시오

논문의 결과는 저의 경험도 반영합니다. 대부분의 시간은 데이터 수집, 정리 및 처리에 소비됩니다.


7
  1. 대부분의 작업이 데이터 과학과 전혀 관련이없는 것 같습니다. 이것이 정확합니까?

    데이터 랭 글링은 가장 확실하게 데이터 과학자 작업 설명에 있습니다. 어떤 수준에서는 솔루션을 구동하기 위해 데이터 생성 프로세스를 이해해야합니다. 물론 ETL 전문가라면 더 빠르고 효율적으로 작업 할 수 있지만 실제로는 데이터 덤프를받는 것이 드문 일이 아닙니다. 데이터 과학의 이러한 측면이 마음에 들지 않으면 IT 리소스와 더 긴밀하게 협력하여 액세스 할 수있는웨어 하우스에 데이터를 올바르게 제공 할 수 있습니다. 또는 이미 더 나은 순서로 데이터가있는 작업을 찾을 수 있습니다.

  2. 나는 이것이 고급 데이터 엔지니어링 부서를 가진 데이터 중심 회사가 아니라는 것을 알고 있지만 데이터 과학에는 최소한의 데이터 액세스 가능성이 필요하다고 생각합니다. 내가 잘못?

    최소 수준은 txt 파일이라고 생각합니다. 텍스트 파일을 통해 데이터에 액세스 할 수있는 경우 데이터베이스의 데이터에 액세스 할 수 있어야합니다 (상사와 함께 푸시 백).

  3. 이 유형의 설정은 심각한 데이터 과학이 필요한 회사에 공통적인가?

    예. 당신은 데이터 과학자입니다; 당신은 전문가입니다. 현재 데이터 구조의 비 효율성 및 도움을 줄 수있는 방법에 대해 다른 사람을 교육하는 것은 직업의 일부입니다. 사용할 수없는 데이터는 누구에게도 도움이되지 않습니다. 일을 개선하고 회사의 미래를 형성 할 수있는 기회가 있습니다.


6

데이터 과학의 또 다른 스타터로서, 나는 당신이 경험이 독창적이라고 생각하지 않는다고 덧붙일 수 있습니다. 약 10 명의 팀이 1 년 이상 DS를 수행하지 않은 것 같습니다 (작은 프로젝트 중 2 개를 차지한 작은 프로젝트 팀). 이는 팀이 작업하고있는 효과적인 파이프 라인의 약속 때문이지만 여전히 데이터를 제공하지는 않습니다. 과거에는 보존력이 상당히 좋지 않았으며 향후 DS 프로젝트를 위해 성스러운 MS Azure 환경에 대한 지속적인 약속이 있습니다.

따라서 대답하십시오.

1) 그렇습니다

2) 정확하지는 않지만 원하는 데이터에 액세스하는 것은 어려운 일입니다.

3) 다른 회사보다 나은 회사가 있다고 확신합니다. 현재 회사에 설 수 없다면, 2 년은 꽤 긴 시간입니다. 더 밝은 것들을 찾기 시작하십시오 (현재의 직장을 떠나고 싶은 욕구를 표현하는 방법에주의를 기울이십시오. 팀 "은"나의 오래된 회사가 나에게 데이터를 제공하지 않습니다 "보다 나을 것입니다.


5

"이것이 내 일이 아니므로 왜해야합니까" 라는 관점에서 이것을 보면 데이터 과학에만 국한되지 않는 상당히 일반적인 문제입니다. 궁극적으로, 당신의 임무는 상사가 지시 한대로 행동하는 것이지만, 실제로 상사가 이에 대해 독재자가 될 이유는 거의 없으며 보통 설득 될 수 있습니다. 아니면 적어도 왜 그런 식으로해야하는지에 대한 진실한 설명을 해줄 것입니다. 그러나 권위에 호소하는 한, "데이터 과학"에 대한 공식적인 정의는 없으며 X % 데이터 정리 만 할 수 있다고합니다. 당국은 귀하에게 지불을 중단 할 법적 권리가있는 한 귀하를 지불하는 사람입니다.

다른 관점에서 볼 수도 있습니다. 시간을 잘 활용하고 있습니까? 일부 작업 ( "데이터 과학")을 수행하기 위해 작업을 수행 한 것처럼 보이지만 다른 작업 ( "데이터 조정")을 수행해야합니다. 더 적절한 것이 있기 때문에 직업 설명과 개인적인 감정은 여기에 약간의 차이가 있습니다. 그러나 더 많은 능력을 발휘하거나 동기를 부여하거나 덜 비싼 다른 사람들이 할 수있는 다른 일을 대신해야합니다. 만약 당신의 월급을 반으로 줄인 사람이 데이터 정리를 할 수 있다면, 같은 일을하기 위해 두 배의 돈을 지불하는 것은 말이되지 않습니다. 더 빨리 할 수 있다면누군가 동일한 급여를 지불하면 동일한 논리가 적용됩니다. 따라서 회사가이 작업을 귀하에게 할당하게하는 것은 자원 낭비 (특히 돈)입니다. 이 관점에서 보면, 상사들이 당신의 사물을 보게하는 것이 훨씬 쉬울 것입니다.

물론 하루가 끝나면 누군가 가 데이터를 정리해야합니다. 가장 저렴하고 빠르며 가장 쉬운 방법은 아마도 업무상 가장 좋은 사람 일 것입니다. 이 경우 운이 나쁘다. 계약서의 일부가 아니라고 주장 할 수는 있지만 계약서에 특정한 것을 넣을 정도로 순진한 확률은 무엇입니까?


3

아마도 간단히 말하면 :

  • 변수를 만들고 숫자를 비닝 할 때 맹목적으로 또는 데이터를 분석 한 후에 하시겠습니까?
  • 동료가 조사 결과를 검토 할 때 특정 데이터에 대해 궁금한 점이 있으면이를 모르는 것이 당황 스럽습니까?

불일치 수정 (NULL, 빈 문자열, "-")부터 데이터가 수집에서 표시로 이동하는 방식을 이해하는 간단한 작업을 포함하여 데이터를 다루고 이해해야합니다. 이를 처리하는 데는 동일한 정보를 아는 것이 포함되므로 어쨌든 부분적으로해야 할 일입니다.

이제이 회사는 데이터를 보유하기 위해 일종의 무료 MySQL (또는 유사한) 인스턴스를 설정하면 도움이 될 것 같습니다. wrangling 코드를 디자인 할 때 융통성을 유지하는 것도 좋은 생각입니다. 처리 된 데이터의 중간 데이터 세트를 갖는 것이 허용된다면 (그리고 MySQL에서는 할 수 없다면) 유용하다고 생각합니다.

그러나 물론 여전히 처음부터 설정하고 있습니다. 이것은 쉬운 과정은 아니지만이 "학습 경험"은 적어도 이력서에 넣는 것이 좋습니다.


3

1) 대부분의 작업이 데이터 과학과 전혀 관련이없는 것처럼 느껴집니다. 이것이 정확합니까? 제 생각에는 데이터 과학은 데이터 논쟁에서 벗어날 수 없습니다. 그러나 말했듯이, 데이터 과학자가 데이터 랭 글링의 몇 퍼센트를 수행해야하는지에 대한 의문이 생길 것입니다. 조직의 대역폭과 그러한 작업에 관심이있는 사람에 따라 다릅니다. DS에서 15 ~ 16 년 동안 경험 한 바에 따르면 항상 데이터 조정 활동에 약 60 % ~ 70 %를 소비했으며 실제 분석에 최대 15 %의 시간을 소비했습니다. 전화 해

2) 나는 이것이 고급 데이터 엔지니어링 부서를 가진 데이터 중심 회사가 아니라는 것을 알고 있지만 데이터 과학에는 최소한의 데이터 액세스 가능성이 필요하다고 생각합니다. 내가 잘못? 다시 한 번 그것은 조직의 보안 정책에 달려 있습니다. 그들은 모든 것을 당신에게 맡길 수 없으며 임시 직원 인 사람에게 데이터를 공개하기 위해 자체 보안 문제가 있습니다 (죄송합니다 :-()

3)이 유형의 설정은 심각한 데이터 과학이 필요한 회사에 공통적인가? 이러한 종류의 회사는 데이터 과학자가 데이터 기반 모델링이 비즈니스를 유지하기위한 미래라고 느끼기 위해 가장주의를 기울여야한다고 생각합니다. :-)

기술적 인 관점 대신 비즈니스를 생각할 때 의견을 제시했습니다. :-) 내가 선택한 단어가 분명하기를 바랍니다.


3

그의 이야기에서 튜링 상을 수상한 마이클 스톤 브레이커가 큰 문제로이 특정 문제를 언급, "빅 데이터는 네 가지 다른 문제이다"( 비디오 , 슬라이드 )

그는이 분야에 여러 가지 개방 된 문제가 있다고 말합니다 : 입수, 전환 (예 : 유로 / 달러), 청소 (예 : 99 / 널), 스키마 매핑 (예 : 임금 / 급여), 실체 통합 (예 : Mike Stonebraker / Michael) 돌 파괴자)

Tamr, Alteryx, Trifacta, Paxata, Google Refine와 같은이 문제를 해결하려는 회사 / 제품이이 문제를 해결하기 위해 노력하고 있습니다.

이 영역이 완성 될 때까지 많은 데이터 과학자가 실제로 데이터를 정리해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.