데이터 과학 및 운영 연구


11

제목에서 알 수 있듯이 일반적인 질문은 다음과 같습니다.

  • DS와 OR / 최적화의 차이점은 무엇입니까?

개념적 수준에서 DS는 사용 가능한 데이터에서 지식 을 추출 하려고 시도 하며 대부분 통계적 기계 학습 기술을 사용합니다. 반면에 OR 데이터 (입력)에 대한 일부 객관적인 기능 (기준)을 최적화함으로써 데이터를 기반으로 의사 결정 을하기 위해 데이터를 사용 합니다 .

이 두 패러다임이 어떻게 비교되는지 궁금합니다.

  • 다른 하나의 하위 집합입니까?
  • 그들은 보완적인 분야를 고려하고 있습니까?
  • 하나의 필드가 다른 필드를 보완하거나 결합에 사용되는 예가 있습니까?

특히 다음에 관심이 있습니다.

데이터 과학 문제 / 문제를 해결하기 위해 OR 기법을 사용하는 예가 있습니까?


3
이것이 실제로 컴퓨터 과학에 관한 질문인지 확실하지 않지만 충분히 가깝다고 생각합니다. 한 쪽 사람들이 다른쪽에 대해 어떻게 생각하는지에 대한 부분을 편집했습니다. 왜냐하면 그것은 전적으로 의견의 문제인 것 같습니다.
David Richerby

@DavidRicherby 감사합니다. 의견의 여지가있을 수 있음에 동의합니다. 전통적으로 두 분야 모두 CS 커뮤니티에서 교육을 받고 등장했으며, 이것이 바로 올바른 장소라고 생각합니다.
PsySp


@DW 감사합니다. 나는 기사를 읽었으며 솔직히 언급 한 두 필드의 중복 및 / 또는 차이점에 대한 토론을 보지 못했습니다. 특히, 하나가 다른 하나를 보완하는 방법.
PsySp

1
데이터 과학은 주로 데이터를 통해 정보를 찾기위한 작업을 수행하는 것입니다. 운영 연구는 주로 의사 결정을 개선하기위한 작업을 수행하는 것입니다. OR을 방법을 사용하여 의사 결정에 사용할 최적의 정책을 찾는 것으로 종종 볼 수 있습니다. OR에 사용 된 일부 방법은 CS 커뮤니티에서 강화 학습 방법으로 분류 될 수 있지만 모든 OR 문제가이 유형에 해당되는 것은 아닙니다.
spektr

답변:


9

Operations Research와 Data Science는 모두 많은 주제와 영역을 다루지 만 각각의 가장 대표적이고 주요한 부분으로 보는 것에 대한 관점을 제시하려고 노력할 것입니다.

다른 사람들이 지적했듯이, 대량의 운영 연구는 주로 의사 결정에 관심이 있습니다. 의사 결정 방법을 결정하는 방법에는 여러 가지가 있지만 OR의 가장 주된 부분은 수학 프로그래밍 프레임 워크에서 의사 결정 문제를 모델링하는 데 중점을 둡니다. 이러한 종류의 프레임 워크에는 일반적으로 의사 결정 변수 세트, 이러한 변수에 대한 제약 조건 및 최소화하거나 최대화하려는 의사 결정 변수에 따른 목적 함수가 있습니다. 결정 변수가 값을 가질 수 있는 경우 제약 조건은 결정 변수에 대한 선형 불평등이고 목적 함수는 결정 변수의 선형 함수이며 선형 프로그램이 있습니다.R-지난 60 년간 OR의 주력 회사. 다른 종류의 객관적인 함수 또는 제약 조건이있는 경우 정수 프로그래밍 , 2 차 프로그래밍 , 반정의 프로그래밍 등 의 영역에서 자신을 찾으십시오 .

반면에 데이터 과학은 대부분 추론에 관심이 있습니다.. 여기서는 일반적으로 많은 양의 데이터로 시작하며 아직 큰 파일에서 보지 않은 데이터에 대해 추측하고 싶습니다. 여기에 표시되는 일반적인 종류는 다음과 같습니다. 1) 큰 데이터 더미는 두 가지 다른 옵션의 과거 결과를 나타내며 어떤 옵션이 최상의 결과를 산출하는지 알고 싶습니다 .2) 큰 데이터 더미는 시간을 나타냅니다. 시리즈를 통해 시계열이 미래로 어떻게 확장되는지 알고 싶습니다. 3) 큰 데이터 더미는 레이블이 지정된 관측 값 세트를 나타내며 레이블이없는 새 관측 값에 대한 레이블을 추론하고 싶습니다. 처음 두 예제는 고전적인 통계 영역 (가설 테스트 및 시계열 예측)에 각각 해당하지만 세 번째 예제는 현대 머신 러닝 주제 (분류)와 더 밀접한 관련이 있다고 생각합니다.

제 생각에는 운영 연구 및 데이터 과학은 대부분 직교 학문이지만 일부 중복이 있습니다. 특히, 시계열 예측은 OR에서 사소한 금액으로 나타납니다. 이것은 수학에서 중요하지 않은 프로그래밍 기반의 OR 중 가장 중요한 부분 중 하나입니다. 운영 연구는 입력과 출력 사이의 알려진 관계가있는 경우 전환하는 곳입니다. Data Science는 입력 및 출력의 일부 정의에 대해 해당 관계를 결정하려고 할 때 전환하는 곳입니다.


명확한 답변에 감사드립니다. 예를 들어 어떤 OR 기술을 사용하여 DS 문제를 해결할 수 있는지 궁금합니다. 나는 그러한 예에 관심이 있지만, 당신의 대답에서, 나는 어떤 것이 있는지 의심합니다.
PsySp

@Psysp Eh, 아마도? 나는 머리 꼭대기에서 아무것도 생각할 수 없지만 결정적인 것은 아닙니다.
mhum

1
나는 당신이 믿는 것처럼 OR과 DS의 구분이 엄격하다고 생각하지 않지만 이것은 DS를 통계의 동의어로 간주하는 대신 주제를 기계 학습 및 데이터 마이닝으로 DS의 일부로 간주하기 때문일 수 있습니다. 그러나, 작업 (DS가 화두이기 때문에 내가 아는까지로 불행히도, 그것은 더 넓게 정의를 인정하지 않았다) descision추론 필요가 상호 배타적 일 수 없습니다. 머신 러닝은 정확히 두 분야가 결합 된 분야입니다. 때때로 적절한 추론을하기 위해 영리한 결정을 내려야하며, 다른 경우에는 올바른 결정에 영리한 추론이 사용됩니다.
이산 도마뱀

@Discretelizard 물론, 어느 정도 동의합니다. 나는 각 분야가 일반적으로 조정되는 문제 유형의 차이점을 강조하기 위해 다소 뚜렷한 부문 (거의 캐리커처?)을 제시하고 각 분야의 핵심 부분에 집중하고 있습니다. 두 필드의 가장자리는 매우 흐릿 할 수 있으며 (특히 DS가 훨씬 더 최신 인 경우), 더 많은 중복이있을 수 있습니다. 또한 DS의 많은 주류에 ML 관련 내용이 포함되어 있지만 DS와 ML의 차이점을 정확히 알지 못했습니다.
mhum

4

mhum 's는 OR 대 DS 의 다른 목표 를 대조하는 데 상당히 좋기 때문에 완전한 대답은 아닙니다 .

오히려, 나는 당신 의이 의견을 다루고 싶습니다 :

예를 들어 어떤 OR 기술을 사용하여 DS 문제를 해결할 수 있는지 궁금합니다.

대답은 '예'입니다. 가장 명쾌한 예는 SVM (Support Vector Machines) 입니다.

SVM 모델을 일부 데이터에 "적합"하려면 (이를 사용하여 예측을 추론하기 전에 수행해야 함) 다음 최적화 문제를 해결해야합니다.

듀얼을 극대화

g(a)=i=1mαi12i=1mj=1mαiαjyiyjxiTxj,

제약 조건에 따라

0αiC,i=1nyiαi=0

이것은 OR 분야의 많은 분야와 마찬가지로 제한된 최적화 문제이며 2 차 프로그래밍 방법 또는 내부 포인트 방법을 사용하여 해결됩니다. 이것들은 일반적으로 DS가 아닌 OR의 분야와 관련이 있지만 이것은 더 넓은 적용 성의 예입니다.

보다 일반적으로, 최적화는 DS 분야에서 사용되는 많은 통계 및 머신 러닝 모델의 핵심입니다. 이러한 모델을 교육하는 과정은 일반적으로 겸손한 시절부터 손실 / 후회 기능과 관련된 최소화 문제로 공식화 될 수 있기 때문입니다. 최신 딥 러닝 신경망에 대한 선형 회귀 모델.

SVM에 대한 좋은 참고 자료는 Bishop 입니다.


2

전략가로서, 나는 훈련의 양측과 함께 일할 수있는 기회를 가졌습니다. 질적 MBA 경영진에게 OR 및 DS가 무엇인지 설명하려고 할 때, 각각의 (과도하게) 단순한 한 줄 소개

또는 : 코딩 방법을 알고있는 경제학자
: 코딩 방법을 알고있는 통계 학자.

실질적으로 두 그룹이 함께 모이는 방식 : OR 측이 의사 결정 모델을 개발하고 DS 측이 모델에 피드를 제공하기위한 적절한 데이터 구현을 파악합니다.

각자는 자신의 분야의 이론적 전통에 의존합니다. 함께 최적의 결정을 내리는 데 필요한 진정한 통찰력을 얻기 위해 데이터를 구조화하고 모델을 수정하는 실험을 수행합니다. 각자가 서로를 알게되면 그들의 생각과 언어가 수렴 될 것입니다.


1
DS를 '통계를 쓰는 통계 학자'라고하는 실제적인 설명을 이해하지만 OR에 대한 설명은 조금 이상해 보입니다. 또는 물류 및 관련 라우팅 문제가 포함됩니다. 그것은 저에게 경제학자에게는 자연스러운 장소처럼 보이지 않습니다. 아마도 실제로 경제학자들이 OR을 수행하는 이유를 자세히 설명 할 수 있습니까?
이산 도마뱀

1
@Discretelizard 나는 경제학자들이 OR을하는 것을 의심하지 않지만, 경제학과는 아무런 관련이 없으며 컴퓨터 과학자, 수학자 및 다른 사람들이하는 많은 OR이있다.
David Richerby

0

데이터 과학 은 일반적으로 데이터를 다루는 광범위한 분야입니다. 이것이 모호하게 들리면 실제로 있기 때문에 정상입니다. 그것은 꽤 오랫동안 몇 년 동안 유행어였습니다. 기본적으로 데이터를 활용하는 방법을 찾으려고합니다. 데이터로 무엇을 할 수 있습니까 (데이터에서 얻을 수있는 통찰력은 무엇입니까?).

Operations Research 는 수학 최적화의 과학입니다. 문제를 "방정식"으로 모델링하고이 수학 모델을 해결하며 솔루션을 초기 문제 설정으로 다시 변환합니다. 결정을 내리는 데 도움이되는 도구입니다.이를 위해 무엇을해야합니까?

많은 비즈니스 문제는 최적화 문제로 볼 수 있습니다. 리소스 제약으로 인해 비즈니스를 얼마나 정확하게 수행 할 것인지, 의사 결정 변수에 어떤 값을 설정해야하는지에 따라 수익을 극대화하려고합니다. 스케줄링, 시설 계획, 공급망 관리 등과 같은 문제는 모두 최적화 기술을 활용합니다.

포트폴리오 최적화는 최적화가 사용되는 전형적인 예이기도합니다. 비 결정적 수익을 가진 포트폴리오의 여러 자산에 투자 할 수 있다고 가정 해 봅시다. 포트폴리오 수익률을 유지하면서 전반적인 포트폴리오의 위험을 최소화 할 수 있도록 포트폴리오의 균형을 어떻게 조정해야합니까? 이 설정에서 목적 함수는 종종 포트폴리오의 위험 / 변동이되며 제약 조건은 필요한 투자 수익률과 보유하고있는 금액입니다.


3
두 필드의 간단한 요약 만 나열합니다. 이 답변은 DS와 OR의 차이점 및 / 또는 유사점을 다루지 않습니다. 그 부분에 집중함으로써 답을 향상시킬 수 있습니다
이산 도마뱀

-1

ML이 주도하는 ML과 AI를 데이터 과학의 일부로 계산하면 (일부 사람들은 내 경험에 따라 그렇지 않은 경우도 있습니다) 예를 들어 AI의 Microsoft 전문 프로그램에는 데이터 과학 + 기계 학습의 주요 측면이 포함됩니다 (DL 및 RL 모두) ) Higher School of Economics는 Advanced Machine Learning과 실질적으로 동일한 Microsoft cuuriculum의 고급 부분을 제시하지만 두 분야에서 사용되는 수학에는 많은 유사점이 있습니다. 예를 들면 : 비선형 프로그래밍 (Lagrange multipliers, KKT conditions ...)-> Support Vector Machine의 파생에 사용됩니다 ... 회귀 분석을 기반으로하는 등거리 측정 ---> 회귀 분석은 일반적으로 Data Scinece와 보다 구체적으로지도 학습 ... 통계 (일반적으로 OR 커리큘럼에 있음) ---> 데이터 과학 및 기계 학습의 열쇠 ... 보강 학습에서 매우 중요한 확률 론적 프로세스-동적 프로그래밍 ---> 다시 강화 학습에서 발견됩니다 ... 그래서 데이터 과학과 일반적으로 비슷한 점이 있고 ML과 거의 유사하다고 말할 것입니다. 물론 이러한 분야의 목표는 다르지만 이러한 분야에서 사용되는 수학에는 많은 유사점이 있습니다.


질문에 어떻게 대답합니까?
Evil
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.