よくある質問など掲載していきたいと考えています。
皆さんからの情報提供もお待ちしております。
NQSUの設定 | |
---|---|
1. | チェックポイントリスタートをしないという設定 |
2. | コアファイルのサイズを0に設定 |
SX: ジョブ実行時エラー | |
1. | "Exceeded per-req elapse time limit" |
2. | "Exceeded cpu limit" |
3. | "Software termination signal from kill" |
4. | "Exceeded RLG1 limit" |
PCクラスタ | |
1. | 2GB超配列を引き渡す際にエラーとなりアボート |
チェックポイントリスタートをしないという設定
#PBS -c n
定期的チェックポイント間隔、および採取しないことを指定します。
上記のとおり、引数 "n" を指定することで定期的チェックポイントを採取しません。
コアファイルのサイズを0に設定
#PBS -l coresz_prc=0
コアファイルのサイズを0にする。
(アボート時に、コアファイルの容量が大きすぎてquotaの制限にかかる事を防ぐ事ができます)
[SX] Exceeded per-req elapse time limit
エラプス時間が超過している場合に出るエラーです。
NQSII(INFO): Batch job received signal SIGKILL. (Exceeded per-req elapse time limit)
[SX] Exceeded cpu limit
CPU時間が超過している場合に出るエラーです。
CMCのDBGキューでは、CPU時間の指定も必要です。
NQSII(INFO): Batch job received signal SIGXCPU. (Exceeded cpu limit)
[SX] Software termination signal from kill
ジョブをキルした場合などのエラーです。
NQSII(INFO): Batch job received signal SIGTERM. (Software termination signal from kill)