과학자들에게 점근 적 최악의 분석을 정당화


22

나는 생물 학자들에게 흥미롭고 유용한 목표를 가지고 계산 복잡성의 결과 를 이론적 생물학, 특히 진화 및 생태학 에 도입하기 위해 노력하고 있습니다. 내가 직면 한 가장 큰 어려움 중 하나는 하한에 대한 점근 적 최악의 분석의 유용성을 정당화하는 것입니다. 과학 관객에게 하한과 점근 적 최악의 분석을 정당화하는 기사 길이 참조가 있습니까?

나는 내가 사용할 수있는 제한된 공간에서 정당화를 거치지 않고 내 글에서 연기 할 수있는 좋은 참고 자료를 찾고 있습니다 (이 기사의 중심점이 아니기 때문에). 나는 또한 알고 있는데 다른 종류패러다임 있도록 분석 내가 하지 최악의 경우가 "최고"분석이다라는 기준을 추구하는 (이후 거기에 아주 많이하지 않을 때 설정은), 그러나 그것은 아니라고 completeletely 쓸모 : 그것은 여전히 우리의 행동에 대한 이론적 유용한 통찰력을 제공 할 수 있습니다 실제 에 알고리즘 실제 입력을. 글쓰기가 일반 과학자를 대상으로 하는 것도 중요합니다 엔지니어, 수학자 또는 컴퓨터 과학자 만이 아닙니다.

예를 들어, 경제학자에게 복잡성 이론을 도입 한 Tim Roughgarden의 에세이는 내가 원하는 것에 적합합니다. 그러나 섹션 1과 2 만 관련이 있으며 (나머지는 너무 경제적입니다) 의도 된 청중은 대부분의 과학자들 보다 정리 불명확 한 사고에 좀 더 편합니다 [1] .


세부

진화적응 역학 의 맥락 에서 , 나는 이론적 생물 학자들로부터 두 가지 특정한 유형의 저항을 만났다.

[A] "임의의 에 대한 행동에 관심을 가져야하는 이유는 무엇 입니까? 게놈에는 n = 3 * 10 9 개의 염기쌍 (또는 아마도 n = 2 * 10 4 유전자)이 있고 더 이상 없다는 것을 이미 알고 있습니다."nn=3109n=2104

이것은 "우리는 초 동안 기다릴 수 있지만 2 10 9는 기다릴 수 없다"는 주장으로 비교적 솔직하다 . 그러나보다 복잡한 주장은 "확실히 특정 n 에만 관심이 있다고하는데 이론은이 사실을 절대 사용하지 않습니다. 그것들은 단지 크지 만 유한하다는 것을 사용합니다. 그리고 우리가 함께 연구하는 것은 당신의 이론입니다" 점근 적 분석 ".1092109n

[B] "하지만이 가제트를 사용하여이 특정 풍경을 만들면 이것이 어렵다는 것을 보여주었습니다. 왜 평균 대신 이것에 신경 써야합니까?"

이 분야에서 일반적으로 사용하는 많은 도구가 통계 물리학에서 나오기 때문에 균일 한 (또는 다른 특정 단순) 분포를 취하는 것이 안전하기 때문에 이는 다루기가 더 어려운 비판입니다. 그러나 생물학은 "역사를 가진 물리학"이며 거의 모든 것이 평형이나 '전형적'이 아니며 경험적 지식이 불충분하다입력에 대한 분포에 대한 가정을 정당화합니다. 다시 말해서, 나는 소프트웨어 공학에서 균일 분포 평균 사례 분석에 사용 된 것과 비슷한 주장을 원한다. 입력은 "우리가 아닌 심리학 자나 최종 사용자를위한 것입니다." 이 경우를 제외하고 과학은 '심리학자 또는 최종 사용자'와 동등한 존재가 기본 분포를 파악할 수있는 위치에 있지 않습니다 (또는 의미있는 경우).

메모 및 관련 질문

  1. 이 링크는인지 과학에 대해 설명하지만, 사고 방식은 생물학에서 비슷합니다. Evolution 이나 Journal of Theorytical Biology 를 통해 탐색하는 경우 , 정리 정리를 거의 볼 수 없으며, 그렇게 할 때 일반적으로 존재 증명이나 복잡한 구성과 같은 계산이 아닙니다.
  2. 알고리즘의 복잡성 분석을위한 패러다임
  3. 최악의 경우, 평균적인 경우 외에 다른 종류의 실행 시간 분석?
  4. 알고리즘 렌즈를 통한 생태와 진화
  5. 경제학자들이 계산 복잡성에 관심을 가져야하는 이유

23
최악의 행동은 정당화하기가 불가능합니다. 심플 렉스 알고리즘은 기하 급수적으로 나쁜 행동을하며, 돌 보았던 유일한 사람들은 이론가들입니다. 당신이 논쟁해야 할 것은 (a) 평균적인 경우 점근 적 행동이 중요하다; (b) 평균 경우 점근 행동과 최악의 경우 점근 행동은 매우 유사하다. (c) 최악의 경우 점근 행동은 종종 평균 경우 점근 행동보다 계산하기가 훨씬 쉽다 (특히 관련 확률 분포가 무엇인지 아무도 모르기 때문에).
피터 쇼어

5
무증상은 이미 문제가있는 측면입니다. 우리는 모두 행렬 곱셈 알고리즘 (점근 법 상한은 실제로 의미가 없음)에 대한 이야기와 암호화에서 매개 변수 선택에 관한 이야기를 알고 있습니다 (점근 법 하한은 실제로 의미가 없습니다. 지수 알고리즘은 때때로 가능합니다 [DES]). 분석에 실제 상수가 있으면 더 설득력이 있습니다.
Yuval Filmus

6
입력 공급자와 알고리즘 사이의 게임 (예 : 전쟁)으로 계산을 생각한다면 최악의 경우 분석은 표준 군사 접근법입니다. 얼마나 나쁜지 알고 싶습니다. 둘째, 더 중요한 것은 최악의 경우 분석을 통해 지적 게으르고 세상이 실제로 있다고 생각하는 것에 좋은 해결책을 받아 들일 수 없다는 것입니다. 마지막으로, 아마도 가장 중요한 것은 알고리즘을 희망적으로 의미있는 방식으로 비교하는 균일 한 방법을 제공합니다. 즉, 다른 모든 것을 제외하고는 최악의 방법입니다.
Sariel Har

6
최악의 경우는 공을 코트로 되돌려 놓는 것으로 간주됩니다. 합리적인 시간 내에 모든 인스턴스에서 문제를 해결할 수있는 알고리즘이 없음을 보여주었습니다. 그들은 자신의 인스턴스가 쉽다고 합리적으로 믿을 수 있지만, 이것이 사실이라면 사소한 사실이라는 것을 방금 보여주었습니다. 그러므로 왜 그런지에 대한 설명이 나오지 않으면 그들의 모델은 불완전합니다.
Aaron Roth

3
(이것은 게임 이론가들과 이야기 할 때 효과가있는 것으로 보인다. 만약 시장이 진정 빨리 균형을 잡으면 최악의 경도를 극복 할 수있는 실제 시장에는 어떤 특별한 재산이 있는가? 그러한 재산과 하한은 그렇게하는 것이 중요한 연구 방향임을 시사합니다)
Aaron Roth

답변:


8

필자의 개인적이고 편견은 점근선 최악의 분석이보다 유용한 종류의 분석에 대한 역사적 디딤돌이라는 점이다. 그러므로 실무자들에게 정당화하기는 어렵다.

최악의 경우 한계를 입증하는 것이 평균 사례의 "좋은"정의를 위해 한계를 입증하는 것보다 쉬운 경우가 많습니다. 점근 분석은 종종 합리적으로 엄격한 한계를 입증하는 것보다 훨씬 쉽습니다. 최악의 경우 점근 분석은 시작하기에 좋은 장소입니다.

Simplex의 부드러운 분석에 대한 Daniel Spielman과 Shanghua Teng의 작업은 문제의 형태를 더 잘 이해하기 시작할 때 발생할 수있는 일에 대한 선구자 인 것 같습니다. 개발했다. 또한 Aaron Roth가 의견에서 제안한 것처럼 시스템의 "일반적인"동작이 최악의 경우와 크게 다르면 시스템이 아직 완전히 지정되지 않았으며 모델을 개선하기 위해 더 많은 작업이 필요합니다. 따라서 최악의 경우를 넘어서는 것이 장기적인 목표로서 일반적으로 중요해 보입니다.

점근 적 분석에 관한 한, 일반적으로 길고 지저분한 증거를 산만하게하는 디테일이 없어야합니다. 불행히도 현재 실제 상수를 얻기 위해 세부 사항을 작성하는 지루한 작업에 보상하는 방법이 없어서 거의 이루어지지 않는 것 같습니다. (페이지 한계도 이것에 대해 작동합니다.) 점근 적 경계의 세부 사항을주의 깊게 분석하면 상수에 대한 경계가 좋은 실제 알고리즘이 만들어 졌으므로 개인적으로 이러한 종류의 작업을 더 많이보고 싶습니다. 증거 지원 시스템을 사용하여 더 많은 증거를 공식화 한 경우 추가 노력없이 상수를 추정 할 수 있습니다. (Szemerédi Regularity Lemma에 대한 Gowers의 경계선을 따라 상수에 대한 경계는 더 일상적이 될 수 있습니다.) 상수가없는 하한을 증명하는 방법도 있습니다. 보다 명확한 기계 모델 (예 : 결정적 유한 상태 오토마타)을 사용합니다. 그러나보다 일반적인 계산 모델에 대한 (정확한) 하한은 많은 작업이 필요하거나 도달하지 못할 수 있습니다. 이것은 오토마타 이론의 첫 번째 전성기 동안 ~ 1958-73 년에 추구 된 것으로 보이지만, 내가 알 수있는 한 그 이후로는 대부분 홀로 남겨졌습니다.

O(nk)


나는 명확한 상수를 가진 정확한 범위를 선호하여 무증상을 버리는 것에 대한 당신의 열정을 공유하지 않습니다. 무증상은 부정확 할 수 있지만 유용하게 부정확합니다. 동일한 머신 모델에 대한 구현 차이에 대해 추상화합니다. 예를 들어, 1950 년대 하드웨어에서 2 차적인 정렬 알고리즘은 오늘날의 하드웨어에서 2 차적 일 것입니다. 또한 점근 적 수식이 훌륭하게 구성됩니다. 예를 들어 선형 및 다항식은 컴포지션에서 닫힙니다. (최악의 경우와 비교할 때 평균 사례에서 더 나은 범위를 주장하는 것은
무증상

당신은 일반적으로 옳지 만 작은 상수와 관련 매개 변수의 비 기본 기능 인 큰 차이가 있습니다.
András Salamon

나는이 답변을 전반적으로 좋아하지만 상수를 숨기는 것이 중요하다는 @brandjon에 동의합니다. 저에게 TCS가 생물학에서 유용한 이유는 물리학보다 미세 역학에 대한 가정이 훨씬 적기 때문입니다. 그러나 미세 역학에 대해 가정하지 않으면 (즉, 계산 모델의 정확한 사양) 상수 요인을 알 수 없습니다. TCS의 또 다른 유용한 기능은 엄격한 질적 이분법 (바이오의 질적 관측치와 비교하기 쉬운 것)이며, 일반적으로이를 얻기 위해서는 상수를 버려야합니다.
Artem Kaznatcheev

O~(nO~(1/ϵ))

1
부수적으로 최악의 분석이 적합한 예가 있습니다. 예를 들어, 범용 서브 루틴 라이브러리를 개발할 때 어떤 응용 프로그램 도메인이 유용한 지 알 수없는 경우, 예를 들어 누군가가 최소 비용의 이분법 일치를 계산하려는시기와 이유를 예상 할 수는 없습니다. 암호화와 같은 적대적 설정은 훨씬 명확합니다 (그러나 암호에서는 보안 매개 변수와 관련하여 상수를 정말로 알고 싶습니다).
Sasho Nikolov

4

하한과 최악의 분석은 일반적으로 함께 진행되지 않습니다. 최악의 경우 알고리즘이 적어도 지수 시간을 소비한다고 말하지 않으므로 나쁘다. 최악의 경우 최대 선형 시간이 걸릴 수 있으므로 좋습니다. 전자는 단지 평균 입력이 아니라 가능한 모든 입력에서 알고리즘을 실행하려는 경우에만 유용합니다.

하한을 사용하여 악의를 나타내려면 최상의 사례 분석 또는 평균 사례 분석이 필요합니다. @PeterShor의 견해에 따라 최악과 평균이 매우 유사하다는 점을 사용하여 일을 단순화하고 이것이 사실 인 세탁 알고리즘 목록을 제공 할 수 있습니다. (예 : 퀵 정렬 외에 모든 클래식 정렬)

상수 입력 및 상수 요소와 비교할 때 무증상 문제가 중요하다는 것을 증명하기 위해 내가 가장 좋아하는 기사는 Jon Bentley의 "프로그래밍 진주 : 알고리즘 설계 기술"입니다. 그는 간단한 배열 문제에 대한 네 가지 솔루션을 제시하고 선형 접근 방식이 입방체를 소멸시키는 방법을 보여줍니다. 그는 물리학 자들이 로켓 방정식의 다루기 어려울 때 사용한 용어 뒤에 "무정위의 폭정"이라는 표를 부릅니다. 저는이 예를 사용하여 학생들에게 사전 대학에 대한 더 나은 알고리즘을 찾도록 동기를 부여합니다.

컴퓨터가 아닌 과학자가 코드가 포함 된 기사를 읽고 큰 그림을 얻기 위해 낮은 수준의 세부 정보를 건너 뛰는 것을 알고 있습니까? 모르겠어요 아마도 다른 곳에서 더 나은 프레젠테이션이있을 것입니다. 그러나 나는 이것이 인용하기에 알맞은 자원이라고 생각합니다.

그리고 만약 그들이 그들이 임의로 큰 n에 관심이 없다고 주장한다면, 3 * 10 9 개의 염기쌍에서 재귀 적 비 메모리 피보나치를 실행 시키고, DNA 서열의 크기가 고정되어 있기 때문에 O (1)이라고 말하십시오. ;)


1
나는 피보나치 예제를 좋아한다 :)
Suresh Venkat

3
재 : 첫 번째 단락 : 실제로, 그것은 거의 많은 복잡한 이론이하는 것과 거의 같습니다. 문제가 EXP-complete 인 경우 최악의 입력에서 지수 시간이 필요하다는 의미입니다. 이것은 일반적으로 전반적인 어려움의 표시로 간주됩니다 (공평하게 말하면 실제로는 일반적인 지표만큼 나쁘지 않습니다). 이것은 "무한한"또는 io 하한이라고하는 사실상의 표준입니다. 평균적인 경우 또는 거의 모든 곳에서 하한 (즉, 아주 많은 입력을 제외한 모든 입력에 대한)을 얻는 것이 때때로 추구되는 목표이지만 종종 io 하한에 비해 도달 범위를 훨씬 벗어납니다.
Joshua Grochow

2
최악의 경우와 평균 경우의 분석이 동일한 알고리즘의 세탁 목록을 제공 할 수있을뿐만 아니라 매우 다른 여러 가지 예를 제시 할 수도 있습니다 (단순 알고리즘은 가장 유명합니다) 이들의). 실제로는 특정 응용 프로그램과 동일하다고 주장해야합니다. 실험 테스트를 수행하는 것이 좋습니다.
피터 쇼어

1
@JoshuaGrochow 박람회에 충분합니다. 우리는 진술을 다음과 같이 수정하는 방법은 무엇입니까? ;)
brandjon

-3

이 주제를 설문 조사 / 피복에 중요한 주제로 동의했지만 아직 많이 나오지 않은 것 같습니다. 다양한 스타일 / 커버리지 / 청중 / 형식에 대한 몇 가지 언급은 정확히 요청 된 것이 아니라 다소 근접한 것입니다 (중간 검색에서 지금까지 온라인에서 가장 잘 보임).

  • Atkinson 알고리즘의 복잡성

    현대 알고리즘 이론은 점근 적 실행 시간 측정 방법이 사용되기 시작한 1960 년대 후반부터 시작되었습니다. 이 주제는 공학과 과학 날개를 모두 가지고 있다고 주장된다. 공학 날개는 잘 이해 된 설계 방법론으로 구성되어 있으며 과학 날개는 이론적 토대와 관련이 있습니다. 두 날개의 주요 문제가 조사되었습니다. 마지막으로 주제가 다음에 어디로 갈지에 대한 개인적인 의견이 있습니다.

  • 복잡성과 알고리즘 J. Diaz. 100 개의 슬라이드. 넓은; 특히 관련된 것들을 발췌 할 수 있습니다.

  • 알고리즘 복잡도 분석 Dionysis "dionyziz"Zindros에 대한 부드러운 소개

다시 말해 과학 의 진보 알고리즘 렌즈 와 밀접한 조합 / 결합 / 결합으로 복잡한 이론 렌즈에 대한 일종의 소개 / 조사 / 개요가 있는데, 이는 과학자, 엔지니어, 연구원을위한 복잡성 이론 과 같은 것 입니까?

전 "알고리즘 렌즈"당신이 예를 들어 인용 한 좋은 심판이있다 파파 디미트리 오우 하지만 후자 "복잡성 렌즈"에 기록 된 분야의 전문가에 의해 매우 만족스러운 심판을하지 않는 것은 ... 아직 (어쩌면 일부 "엘리트 " 이 사이트의 회원은 다음 도서 또는 종이 프로젝트로 고려할 것입니다).

복잡성 이론 이외의 범위와 이러한 목적을 위해 다소 사용될 수있는 다른 과학 분야 이외의 관련성 P 대 NP에 대한 많은 참조가 있습니다. 관심이 있으면 의견에 추가합니다.


3
나는 이것이 실제로 질문에 대답하지 않는다고 생각합니다.
Huck Bennett

1
어, 당신은 볼 않았다 어떤 심판 들로는의? 내 대답의 일부는 (아직) 이상적인 / 완벽한 대답 이 없다는 것입니다. |
vzn

1
그것들은 그것을 정당화하는 데 초점을 맞추기보다는 점근 적이며 최악의 경우를 분석하는 것처럼 보이지만 어쩌면 뭔가를 놓쳤습니까?
Huck Bennett

7
실제로, TCS 외부의 연구자들은 최악의 경우를 "실제로는 결코 발생하지 않는 인공적으로 구성된 예제"로 쉽게 무시할 수 있으며 평균적인 경우에 훨씬 더 관심이있을 것입니다 (확실하지 않음에도 불구하고) 평균 사례는 실제 인스턴스에 훨씬 가깝습니다).
Joshua Grochow

1
@vzn : 점근 적 (예 : big-Oh)과 최악의 경우는 다소 직교합니다. 하나는 점근 최악의 경우 분석, 점근 평균 사례 분석 또는 심지어 점근 가장 쉬운 사례 분석을 수행 할 수 있습니다 (후자는 다소 왜곡 된 것으로 인정하지만). 대신 모델에 따라 더 강력하고 덜 강력하지만 정확한 최악의 분석 또는 정확한 평균 사례 분석 등을 수행 할 수 있습니다. 무증상의 사용을 정당화하고 일정한 요인과 같은 것을 숨기는 것은 최악의 경우와 평균의 경우 또는 "실제"의 경우를 정당화하는 것과 완전히 다릅니다 (후자가 의미하는 바가 무엇이든간에 ...).
Joshua Grochow
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.