높은 I/O 속도 중에 네트워크 파일 시스템이 실패함

Question

수년에 걸쳐 배운 몇 가지 제안.

NFS 서버의 로드를 최소화합니다.

NFS 내보내기 옵션을 설정합니다.async,insecure,no_subtree_check

NFS 마운트 옵션 설정soft,noatime,nodiratime,nolock,vers=3

또한 다음을 설정합니다: noatime,nodiratimedata/tmp/scratch 마운트. 로드를 줄이려면 NFS 암호화가 꺼져 있는지 확인하세요. NFS 잠금 프로세스를 중지합니다.

모든 호스트에서 네트워크에 대해 JUMBO 프레임을 활성화해 보십시오(네트 장비에서 지원하는 경우). MTU를 9k 정도로 설정하십시오.
무작위 쓰기 IO에 raid10 스토리지가 사용되는지 확인하십시오(모든 비용을 들여 raid5/6을 피하십시오). SSD가 있나요?
열려 있는 FS 핸들 수를 최대화하고(일부 시스템에서는 기본값은 2K) 1M 정도로 설정합니다.
입력 데이터가 포함된 매핑 데이터베이스를 로컬 스크래치 노드 저장소에 복사하고 결과 샘 파일을 별도의 단계로 결합/정렬할 수 있는 기회가 있습니까?
처리되는 청크의 크기를 늘립니다. (최소 30분 이상 처리되도록 합니다.)
가능하다면가능한 최고 수준에서 작업을 분할(10개의 호스트를 사용하여 각 게놈을 연속적으로 매핑하는 대신 10개의 서로 다른 노드에서 10개의 개별 게놈/샘플을 병렬로 매핑/정렬해 보세요). 모든 프로세스가 완료되면 체크포인트를 시도합니다.
프로그램 소스를 수정하여 4k 대신 1M과 같은 더 큰 청크로 데이터를 읽습니다.
CPU/RAM 상호 연결 경합(특히 AMD 4-8 소켓 시스템)에 유의하십시오. 때로는 48개 코어 상자에서 12-24개 스레드를 실행하는 것이 48개 스레드보다 훨씬 빠릅니다. 다양한 활용도 수준을 시도해 보세요. 다중 CPU 시스템에 대해 NUMA가 켜져 있고 구성되어 있는지 확인하십시오. NUMA를 활성화하여 다시 컴파일합니다.

추신: 효율적인 클러스터를 관리하는 것은 1,000명 이상의 작업자가 있는 건물 현장을 계획/관리하는 것과 유사합니다...

Answer 1