CMS실험에서는 데이터 분석을 위하여 분산 컴퓨팅을 적극적으로 활용합니다. 가장 일반적으로는 LHC Computing Grid (LCG)의 그리드 컴퓨팅을 사용하거나, CERN에서 제공하는 lxplus/lxbatch 컴퓨팅 자원을 제공받을 수 있습니다. 단, 전 세계의 연구자들이 공용으로 활용하므로 자원 사용 우선순위나 사용량 면에서 실질적인 한계가 있습니다.
한국 CMS 연구 그룹(KCMS)은 CMS 데이터 분석과 시뮬레이션을 위해 국내 한 곳의 Tier2 컴퓨팅 센터 (KISTI) 및 세 곳의 Tier-3 컴퓨팅 센터 (KISTI, 경북대, 서울시립대)를 운영하고 있습니다. 각 센터는 WLCG(Worldwide LHC Computing Grid)의 일부로 연결되어 한국 및 해외 CMS 연구자들이 활용할 수 있습니다. 특히, 국내 3개 tier 사이트들에서는 허용 가능 자원량 내에서 사용자 정의 데이터셋 등을 위한 대용량 데이터 저장, 높은 우선순위의 계산자원 등을 제공받을 수 있습니다.
KCMS의 Tier-3 자원 외에도 연구실에 따라 중소규모의 자체 컴퓨팅 자원을 운영하는 경우도 있습니다. 각 연구실별 목적에 따라 관리 운영되고, 대부분 Tier2/3 센터를 경유해 데이터를 전송받아 특수 목적별로 활용되는 편입니다.
각 센터의 컴퓨팅 자원을 활용하려면 사이트별 컴퓨팅 자원 사용 규칙을 따라 사용자 계정을 신청하여 컴퓨팅 자원을 할당받아야 합니다. 각 tier 사이트 사용중 거대 용량 데이터 복사, 장기간 CPU 독점 활용 등 조정이 필요한 경우 KCMS computing resources 미팅에서 논의해 배정받을 수 있습니다. 각 사이트 관리자들간 소통하고 있어 가장 적합한 방안에 대해 안내받을 수 있습니다.
이 페이지에서는 한국 CMS 실험 그룹에서 사용할 수 있는 공용 컴퓨팅 자원에 대해 요약합니다.
Useful information
Quick links
- CERN 계정 및 그리드 계정 생성 발급 방법 (https://twiki.cern.ch/twiki/bin/view/CMSPublic/WorkBookGetAccount)
- CERN 그리드 컴퓨팅 계정 설정 및 사용방법 (https://twiki.cern.ch/twiki/bin/view/CMSPublic/WorkBookStartingGrid)
- KISTI GSDC Tier3 계정 신청 (https://gsdc-service.gitbook.io/gsdc_cmst3/kisti-gsdc-cms-tier-3)
- 경북대 Tier3 계정 신청 (https://t2-cms.knu.ac.kr/index.php/How_to_use_Tier3_at_KNU#Getting_KNU_Tier-3_Account)
- 서울시립대 Tier3 계정 신청은 관리자에게 개별 연락
자원 사용 사례
- Crab job 제출하기
- cvmfs를 포함해 CMSSW 및 그리드 관련 설정이 잘 되어 있어 crab job을 submit하고 결과물을 T3의 storage로 돌려받기 수월함.
- CMS NanoAOD/NanoAODSIM 공용 활용
- 국외 사이트에 비해 빠른 접근이 가능할 수 있고, 장애시 대응을 빨리 받을 수 있음.
- Rucio를 이용하여 CMS 실험 데이터 분석을 위한 central sample을 Tier3 사이트 스토리지에 저장
- 여러 유저들이 동일한 샘플을 사용하는 경우가 많음. 이미 복사되어 있으면 바로 사용하면 됨.
- Skimming등으로 파일 크기를 줄여 각 연구실별 컴퓨터 등으로 xrdcp나 scp재전송 하여 사용
- Private MC Simulation 샘플 생성
- 공식 central production 요청 전 빠른 검증을 위해 필요할 수 있음
- MC sample 저장을 위해 메모리 사용량과 디스크 사용량이 아주 많아 별도 리소스를 확보해야 함
- 요구 자원량이 많은 경우 사전 요청 조정 필요
- Limit calculation parameter scan
- GPU를 이용한 딥러닝 학습
KCMS Computing Resources
공식 tier2/3 사이트 정보
| KISTI GSDC CMS Tier2/3 | 경북대학교 CMS Tier3 | 서울시립대학교 CMS Tier3 | |
|---|---|---|---|
| 홈페이지 / 매뉴얼 | https://gsdc-service.gitbook.io/gsdc_cmst3 | https://t2-cms.knu.ac.kr/index.php/Main_Page | N/A |
| 담당자 | 류건모 박사 | 한대희 연구원 | 장우진 박사 |
| 계정 신청 방법 | 신청서 작성, 지도교수 확인 후 담당자에게 제출 [링크] | 신청서 작성, 지도교수 확인 후 담당자에게 제출 [링크] | 담당자에게 연락 개별검토 |
| CPU | ~2.3k CPUs 공유자원 포함 ~5.1k CPUs | ~2.3k CPUs | ~3.2k CPUs |
| Storage | Tier2: 2.8 PB (for datasets) Tier3 dataset: 1 PB Tier3 home & scratch: 20 TB | Storage: 1.9 PB Home: 20 TB Scratch: 40 TB | Hadoop storage: 3.3 PB Home 80 TB xfs storage 300 TB |
| GPU | (P100, phasing out) | (P100), (4xTitan RTX), (3xTitan V), (4xTitan Xp), (2×3080) | (DGX: 8xV100) (5×3090), (5×4090), (8×4090) |
| 특징 | 한국 CMS Tier2 사이트 Alice 실험, bio 유휴자원 추가활용중 | KCMS용 서비스 제공 가능 (git, jupyter, 웹하드, 매터모스트, www) | GPU, 빅데이터 분석 플랫폼 특화 |
연구실별 추가 자원 정보
각 연구실별 상황에 따라 일부 공용으로 사용할 수도 있으나, 보장되지는 않습니다.
- 경희대학교 (hep, 관리자: 고정환 교수, 자원 정보)
- Login: CPU: AMD EPYC 256 threads / RAM 385GB / home 86TB (2x140TB other exp)
- Worker nodes: EPYC CPUs 64+128×3
- GPUs: Xeon E5+1080ti, Threadripper+5090×4(maintenance), Alveo U200
- (정보 미확인) 강릉원주대학교, 고려대학교, 서울대학교, 성균관대학교, 세종대학교, 연세대학교, 전남대학교, 한양대학교, 중앙대학교