백그라운드 작업을 너무 많이 시작하면 어떻게됩니까?


13

expect 스크립트를 사용하여 700 개의 네트워크 장치에서 일부 작업을 수행해야합니다. 순차적으로 수행 할 수는 있지만 지금까지 런타임은 약 24 시간입니다. 이것은 주로 연결을 설정하는 데 걸리는 시간과 이러한 장치 (오래된 장치)의 출력 지연으로 인한 것입니다. 두 개의 연결을 설정하고 병렬로 제대로 실행할 수 있지만 얼마나 멀리 연결할 수 있습니까?

한 번에 700 개를 모두 수행 할 수 있다고는 생각하지 않습니다. 확실히 no에 제한이 있습니다. 내 VM이 관리 할 수있는 텔넷 연결 수

내가 이런 식으로 어떤 종류의 루프에서 700 개를 시작하려고 시도했다면 :

for node in `ls ~/sagLogs/`; do  
    foo &  
done

  • CPU 12 CPU x Intel (R) Xeon (R) CPU E5649 @ 2.53GHz

  • 메모리 47.94 GB

내 질문은 :

  1. 700 개의 인스턴스가 모두 동시에 실행될 수 있습니까?
  2. 서버가 한계에 도달 할 때까지 얼마나 걸립니까?
  3. 이 한계에 도달하면 다음 반복을 시작하기 위해 기다리 foo거나 상자가 충돌합니까?

불행히도 회사 프로덕션 환경에서 실행 중이므로 정확히 어떤 일이 일어나고 있는지 볼 수는 없습니다.


3
parallel약 50 개의 동시 작업을 사용하여 행운을 빕니다 . 1과 700의 병렬 처리 사이의 훌륭한 매체입니다. 또 다른 좋은 점은 배치가 없다는 것입니다. 중단 된 단일 연결은 다른 연결 중 하나만 중단됩니다. 주요 단점은 오류 관리입니다. 이러한 쉘 기반 접근 방식 중 어느 것도 오류를 정상적으로 처리하지 못합니다. 성공 여부를 직접 확인하고 직접 재 시도해야합니다.
Adam

1
현재 작업 대기열이 700 개가 될 수 있지만 크기가 확장 될 수 있습니까? 스왑 공간이 커지는 지 확인하십시오. 즉, 메모리 한계에 도달했음을 나타냅니다. 그리고 CPU %는 리눅스 (유닉스 / 유닉스)의 좋은 척도가 아니며로드 평균 (실행 큐 길이)을 고려하는 것이 좋습니다.
ChuckCottrill

1
제가 최근에 새 직장에서 생산을 중단 한 가장 최근의 방법은 우연히 백만 건 이상의 단기 배경 작업을 한 번에 실행하는 것이 었습니다. 그들은 JVM과 관련이 있었으며 (기다리는 대기 시간을 기다리십시오) 결과적으로 스레드를 시작할 수없는 수십만 개의 오류 보고서 파일로 제한되었습니다.
michaelb958--GoFundMonica


1
@KuboMD 그리고 아무도 당신의 코드를 사용하고 싶어하지 않는 한.
l0b0

답변:


17

700 개의 인스턴스가 모두 동시에 실행될 수 있습니까?

그것은 당신이 동시에 의미하는 바에 달려 있습니다. 우리가 까다 롭다면 시스템에서 700 개의 스레드 스레드를 사용하지 않으면 사용할 수 없습니다 (아마도 아닙니다). 실제로 시스템에 충분한 RAM 및 / 또는 스왑 공간이 있다면 가능할 것입니다. 유닉스와 다양한 어린이들이 엄청난 수준의 동시성을 관리하는 데 매우 뛰어나므로 대규모 HPC 사용에 인기가있는 이유 중 하나입니다.

서버가 한계에 도달 할 때까지 얼마나 걸립니까?

더 많은 정보가 없으면 구체적으로 대답 할 수 없습니다. 대부분의 경우 충족 할 메모리가 충분해야합니다.

  • 한 작업의 전체 런타임 메모리 요구 사항에 700을 곱한 값입니다.
  • 많은 작업을 관리하기 위해 bash의 메모리 요구 사항 (bash는 이것에 대해 끔찍하지는 않지만 작업 제어는 메모리 효율적이지 않습니다).
  • 시스템의 기타 메모리 요구 사항

당신이 그것을 충족한다고 가정하면 (다시 50GB의 RAM 만 있으면 여전히 다른 문제를 처리해야합니다.

  • 작업 제어에서 bash가 얼마나 많은 CPU 시간을 낭비합니까? 그다지 많지는 않지만 수백 개의 일자리가 있으면 의미가있을 수 있습니다.
  • 필요한 네트워크 대역폭은 얼마입니까? 이러한 연결을 모두 열면 대역폭과 대기 시간에 따라 몇 분 동안 네트워크가 손상 될 수 있습니다.
  • 내가 생각하지 못한 많은 다른 것들.

그 한계에 도달하면 foo에서 다음 반복이 시작되기를 기다리거나 상자가 충돌합니까?

어떤 한계에 도달했는지에 따라 다릅니다. 메모리 인 경우 시스템에서 무언가가 죽거나 (특히 메모리를 확보하기 위해 커널에 의해 종료 됨) 시스템 자체가 충돌 할 수 있습니다 (메모리가 부족할 때 시스템이 의도적으로 충돌하도록 구성하는 것은 드문 일이 아닙니다). CPU 시간이면 문제없이 계속 진행되며 시스템에서 다른 많은 작업을 수행하는 것은 불가능합니다. 네트워크 인 경우 다른 시스템이나 서비스 가 중단 될 수 있습니다.


여기서 실제로 필요한 것은 모든 작업을 동시에 실행하지 않는 것입니다. 대신 배치로 분할하고 배치 내에서 모든 작업을 동시에 실행하고 완료 한 후 다음 배치를 시작하십시오. GNU Parallel ( https://www.gnu.org/software/parallel/ )을 사용할 수 있지만 프로덕션 환경에서 그 규모로는 이상적이지 않습니다 (당신이 그것을 사용한다면 너무 공격적이지 마십시오. 내가 말했듯이, 당신은 네트워크를 늪에 빠뜨리고 그렇지 않으면 만지지 않을 시스템에 영향을 줄 수 있습니다). Ansible ( https://www.ansible.com/ 과 같은 적절한 네트워크 오케스트레이션 도구를 살펴 보는 것이 좋습니다.)를 통해 동시성 문제를 해결할 수있을뿐만 아니라 (위에서 언급 한 것과 같이 일괄 처리가 자동으로 수행됩니다) 작업을 수행하는 데 유용한 다른 많은 기능 (등분 한 작업 실행, 상태 보고서 및 기본 통합과 같은)을 제공합니다. 다른 많은 도구들).


bash, perl, python 등을 사용하여 제한된 수의 백그라운드 작업을 실행하고 작업 완료를 모니터링하며 이전 작업이 완료됨에 따라 더 많은 작업을 실행하는 방법이 있습니다. 간단한 접근 방법은 하위 디렉토리의 파일로 표시되는 배치 작업을 수집하고 한 번에 배치를 처리하는 것입니다. 다른 방법이 있습니다 ...
ChuckCottrill

여기에도 유닉스 계열 시스템이 포함됩니까? "GUN 병렬"이란 무엇입니까?
Biswapriyo

2
@ChuckCottrill 예, 실제로 다른 방법이 있습니다. 그래도 이러한 유형의 문제를 다루는 내 경험에 비추어 볼 때, 특히 규모에 따라 수십 개의 시스템을 지난 후에는 자체 솔루션을 시도하고 롤링하는 것보다 실제 오케스트레이션 도구를 얻는 것이 거의 항상 좋습니다.
Austin Hemmelgarn


3
@forest 예, rlimits를 사용하여 시스템 충돌을 막을 수는 있지만 이와 같은 경우에 올바르게 처리하는 것은 쉽지 않습니다 (작업에 필요한 리소스 요구 사항을 미리 알고 있어야 함). 이러한 작업으로 인해 발생할 수있는 영향으로 인한 나머지 네트워크 (로컬 시스템 충돌보다 잠재적으로 훨씬 더 큰 문제 일 수 있음).
Austin Hemmelgarn

12

설명하는 방식으로 백그라운드 작업으로 실행할 수있는 인스턴스 수를 구체적으로 말하기는 어렵습니다. 그러나 일반 서버는 올바르게 수행하는 한 700 개의 동시 연결을 유지할 수 있습니다. 웹 서버는 항상이 작업을 수행합니다.

GNU 병렬 ( https://www.gnu.org/software/parallel/ ) 또는 이와 비슷한 것을 사용하는 것이 좋습니다 . 백그라운드 작업 접근 방식에 많은 이점을 제공합니다.

  • 동시 세션 수를 쉽게 변경할 수 있습니다.
  • 세션이 완료 될 때까지 기다렸다가 새 세션을 시작합니다.
  • 중단하는 것이 더 쉽습니다.

빠른 시작을 위해 여기를보십시오 : https://www.gnu.org/software/parallel/parallel_tutorial.html#A-single-input-source


1
흥미 롭습니다! 이것 좀 살펴 볼게요. Parallel의 도움없이 이러한 종류의 작업을 시도하면 하이퍼 바이저 충돌의 위험이 있는지 알고 있습니까?
KuboMD

2
@KuboMD 만약 당신이 너무 평범한 무언가로 하이퍼 바이저를 충돌시킬 수 있다면, 그것은 하이퍼 바이저의 버그입니다 :)
hobbs

따로, 웹 서버는 종종 스레딩 또는 이벤트 기반 처리를 사용합니다 (예 : gunicorn.org )
ChuckCottrill

10

&몇 가지 작업을 수행하고 진행 상황을 모니터링 할 때는 병렬 처리에 사용 하는 것이 좋습니다. 그러나 회사 프로덕션 환경에서 실행하는 경우 더 나은 제어 기능을 제공하는 것이 필요합니다.

ls ~/sagLogs/ | parallel --delay 0.5 --memfree 1G -j0 --joblog my.log --retries 10 foo {}

이의 foo각 파일에 대해 실행 됩니다 ~/sagLogs. 0.5 초마다 작업을 시작하며, 1GB RAM이 사용 가능한 한 가능한 많은 병렬 작업을 실행하지만 시스템의 한계 (예 : 파일 및 프로세스 수)를 존중합니다. 일반적으로 허용되는 열린 파일 수를 조정하지 않은 경우 250 개의 작업을 병렬로 실행합니다. 열린 파일 수를 조정하면 메모리가 충분한 한 32000을 병렬로 실행하는 데 아무런 문제가 없습니다.

작업이 실패하면 (즉, 오류 코드와 함께 리턴) 10 회 재 시도됩니다.

my.log 재시도 후 작업의 성공 여부를 알려줍니다.


이것은 매우 유망한 것으로 보입니다. 감사합니다.
KuboMD

cat ~/sagLogs/* >> ~/woah | parallel빠른 시험 과 거룩한 몰리를 실행했습니다. 눈 깜박임에 1,054,552 줄.
KuboMD

3
당신이 준 명령에는 이중 리디렉션이 있으므로 의도 한대로하지 않습니다. GNU Parallel은 작업 당 오버 헤드가 10ms이므로 1M 작업은 3 시간 정도 걸립니다.
Ole Tange

1
단순히 파일을 연결하는 것만으로는 적용 할 수 없습니다.
Ole Tange

1
@ KuboMD 사소한 CPU 사용량이 많은 루프처럼 놀아주는 것 같습니다 awk 'BEGIN{for(i=rand()*10000000; i<100000000;i++){}}' . 또는 CPU 시간을 많이 사용하지 않고 작업을 비행 sleep 10상태로 유지 하는 것과 같은 작업을 시도 하십시오 n. 예 time parallel sleep ::: {100..1}를 들어 100 초에서 1 초까지 절전 모드를 실행합니다.
Peter Cordes

1

백그라운드 작업을 너무 많이 시작하면 어떻게됩니까?

시스템이 느리고 응답하지 않게됩니다. 최악의 경우에는 응답하지 않습니다. 전원 버튼을 누르고 하드 재부팅을하는 것이 가장 좋습니다. 이렇게하면 루트 권한으로 무언가를 실행할 수 있습니다. 당신의 bash는 스크립트가 일반 사용자 권한으로 실행되고있는 경우 먼저 떠오르는 것입니다 /etc/security/limits.conf그리고 /etc/systemd/system.conf그 안에 [이상적으로 말하기] 모든 변수는 방지 의 사용자 (들) 오버로드 시스템을.

  • cpu = 제온 E5649, 즉 12 코어 cpu; 따라서 12 개의 프로세스에 12 개의 코어가 있으며 각각 12 개의 코어 중 하나를 100 %로 사용하여 동시에 실행할 수 있습니다. 24 개의 프로세스를 시작하면 각각 12 개의 코어에서 50 %의 사용률로 실행되며 700 개의 프로세스는 1.7 %이지만 모든 것이 제대로 완료된 후에는 컴퓨터입니다. 효율적이라는 것이 항상 관련이있는 것은 아닙니다.

    1. 700 개의 인스턴스가 모두 동시에 실행될 수 있습니까? 확실히 700은 많지 않습니다. 내 /etc/security/limits.conf maxproc기본값은 4,135,275입니다.

    2. 서버가 한계에 도달 할 때까지 얼마나 걸립니까? 700보다 훨씬 먼 것 같습니다.

    3. 한계 ... 스크립트가 사용자 계정으로 시작되면 어떻게 됩니까 ? ( 그리고 일반적으로 limits.conf거의 모든 사람에게 적용됩니다) 스크립트는 foo &700 번 시도한 후에 스크립트가 종료됩니다 . 그러면 다른 pid로 700 개의 foo 프로세스가 각각 표시되지만 456 (임의 숫자 선택) 만 표시되고 다른 244는 일부 보안 또는 시스템 제한에 의해 차단되어 시작되지 않습니다.

백만 달러 질문 : 몇 개를 동시에 실행해야합니까?

네트워크 에 관여하고 있으며 각각이 텔넷 연결을 할 것이라고 말하면서 교육받은 추측에 따르면 CPU 및 램 제한을 수행하기 전에 네트워크 제한 및 오버 헤드가 발생합니다. 그러나 나는 당신이 구체적으로하고있는 일을 모르겠습니다. 어쩌면 무슨 일이 일어날까요? 한 번에 700 개를 모두 시작할 수 있지만 이전 프로세스와 네트워크 연결이 다양한 시스템 제한 또는 기타 처음 500은 시작되고 나머지 200은 시스템 또는 커널 제한으로 인해 차단되지 않습니다. 그러나 그러나 많은 실행은 한 번에 몇 가지가있을 것입니다 달콤한가능한 한 빨리 일을 처리 할 수 ​​있습니다. 12 코어 (또는 2 CPU가있는 경우 24) 인 다음 한 번에 12 (또는 24)로 시작한 다음 런타임 개선이 보이지 않을 때까지 동시 배치 수를 12 또는 24로 늘리십시오.

힌트 : google max telnet 연결 및 이것이 시스템에 어떻게 적용되는지 확인하십시오. 또한 방화벽을 잊지 마십시오. 또한 프로세스 x 700 당 필요한 메모리를 빠르게 계산하십시오. <가용 RAM (귀하의 경우 약 50GB)이 아닌지 확인하십시오. 그렇지 않으면 시스템이 SWAP 사용을 시작하고 기본적으로 응답하지 않게됩니다. 따라서 한 번에 12, 24, N 프로세스를 시작하고 RAM이 없는지 모니터링 한 다음 N에 대해 이미 알고있는 N 을 늘리십시오 .

기본적으로 RHEL은 단일 호스트에서 텔넷 연결 수를 10 개의 동시 세션으로 제한합니다. 이것은 보안 기능입니다. 10으로 설정하고 /etc/xinetd.conf로“per_source”값을 변경하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.