COMP
 レーザー研トップ  研究紹介 計算機室comp

業績>論文

SX-4/2Cシステム導入について

大阪大学レーザー研 ○岡本匡代、福田優子、島田京子、直江正美
和田幸裕、田村篤和、西原功修


1. はじめに

 大阪大学レーザー核融合研究センター(以下、当研究センターと略す)では、1996年3月1日よりSX-4/2Cを中心としたシステムの運用を開始した。システム構成は図1に示すように、SX-4/2Cの他に、EWS4800/320VX(以下ホスト系ワークステーションと呼ぶ)が3台、EWS4800/310PX(シミュレーション系ワークステーション及び実験データ処理系ワークステーションと呼ぶ)が20台となっている。SX-4/2Cは主記憶1GB、拡張記憶2GB、最高演算速度4GFLOPSであり、レーザー爆縮実験に必要な現有の実験データベースシステム、図形処理システム、各種ソースプログラムとデータ等を継承している。

 

 SX-4/2Cの導入に伴う最大の変化はOSがUNIXに変わったことであり、これにより当センター内のネットワークにつながるWS,Mac,PC等からtelnetによりSX-4/2Cが利用できるようになった。このため、ユーザーの使い易さおよびシステムの効率を考え、SX-4/2CとWS間で機能分散を行っており、NQSの上かぶせやNFSの利用などの様々な工夫を凝らして独自のシステムを構築している。システム運用においては、基本的には自動運転を行っており、効率的な利用のためのジョブクラス制御も自動的に行うようにしている。
 また当研究センターでは、ユーザーがスムーズに新システムに移行できるよう、テキストの作成やユーザーのレベルに合わせた講習会などを行い、ユーザー教育にも力を注いでいる。

このページのトップへ

2. 機能、階層別システム構成による負荷分散

 計算機とネットワークに対するユーザーの多様なニーズに対応し、さらにシステムを効率良く運用するために、当研究センターでは、以下のような機能、階層別のシステム構成としている。

1)SX-4は計算機シミュレーションなどの大規模な計算を行う専用機と位置づけ、NQS(Network Queing System)を用いたバッチ処理を主体とし、余分な負荷をかけないようにする。

2)ホスト系およびシミュレーション系ワークステーションは、プログラム開発のための編集作業や簡単なデバッグ、SX-4でのシミュレーション結果の解析や簡単な可視化、小規模な計算、ベクトル化されないプログラムの実行などを行う。そのために、これらのワークステーション全てにFORTRAN77、FORTRAN90/sxクロスコンパイラ、科学技術計算ライブラリASLおよびASLCLIB、科学技術計算ソフトウェア支援数値計算ライブラリMATHLIBを搭載した。特にホスト系ワークステーションの中の1台はCPUサーバとして位置づけ、ワークステーションで長時間CPUを必要とする計算を集中することで、他への負荷を軽減している。 

3)可視化システムとしては、シリコングラフィックス(株)社製IRIS Crimsonを専用機とする。

4)激光XII号実験を支援する実験データベース、実験データ処理は実験データ処理系ワークステーションを中心に行う。

5)マルチメディア処理、実験データやシミュレーションデータの参照については、実験データ処理系とシミュレーション系の区別はない。

このページのトップへ

3. ジョブの管理を行う自動オペレーション

 各ジョブの特性(CPU時間、メモリサイズ、並列化)を見極めながら、その特性に合わせたジョブクラスの設定とスケジューリング、実行中ジョブの動的コントロール、さらには2つあるCPUの効率的な運用が行えるように、当研究センター独自のオペレーションを行っている。これは、基本的にはNQSの機能を利用して実現しているが、当研究センターの前システムにおいて開発し、運用していたモードという考え方を取り入れたものとなっている。モードには、昼間モード、夜間モード、通常モード、混雑モード、大規模ジョブモード、並列ジョブモードがあり、システムの状態によりこれらのモードを自動的に遷移させ、それによりジョブクラスの多重度を増減したり、長時間ジョブのベースプライオリティーを制御することで、昼間は短時間ジョブを、夜間には長時間大容量のジョブを優先的に実行するようにしている。また、システムを専有するような並列化プログラムの実行も可能となるように考えている。このような複雑な運用モードの切り替えが自動的に行えるようにしたことは言うまでもないが、細かいパラメータ設定など最終的な運用には至っておらず、今までの経験をもとに、システムの運用状況を見極めながら、今後も最適な状態を探していきたいと考えている。

このページのトップへ

4. 固有のディスク管理

 SX-4、ホスト系ワークステーション、シミュレーション系ワークステーションのそれぞれのディスクを効率良く運用するために、図2に示すようにNFS(Network File System)を用いてディスクを提供している。
 ホスト系ワークステーションではプログラム開発、デバッグ、バッチジョブ投入などの処理を行うことを主とするという考え方で、全てのワークステーションからログインしたときのホームディレクトリは、3台あるホスト系ワークステーションの1台で管理し、利用者はどのワークステーションにログインしても同じファイルを参照するようにしている。さらに、SX-4からホスト系ワークステーションのディスクが見えるようにすることで、バッチジョブをホスト系ワークステーションから投入し、SX-4でコンパイルから実行まで行えるようにした。これにより、一般的な利用法ではSX-4に直接ログインする必要をなくした。
 ロードモジュールやオブジェクトモジュール、大量のシミュレーション結果のデータファイルなどはSX-4のディスクにおくことになっているが、手元のシミュレーション系ワークステーションやパーソナルコンピューターで処理するような少量のデータなどはホスト系ワークステーションに直接出力できるようになっている。さらに、SX-4での大量のシミュレーション結果の解析をワークステーションで行う場合に、SX-4にあるデータを直接利用することで、ファイル転送を不要にし、ディスク領域を有効に使用できるようにしている。
 なお、導入当初は利用者の便宜を考え、上記のNFSを静的マウントで行っていたが、運用上の不便が多かったため、動的マウントに変更した。

4.1 長期保存領域と短期保存領域


 SX-4およびホスト系ワークステーションのそれぞれにプログラムや入力データ、NQSファイルなどを保存するための長期保存領域とシミュレーション結果のデータファイルを保存するための短期保存領域を用意している。各領域は図2に示す通りであり、長期保存領域については利用者一人当たりが利用できる容量に制限をかけることでディスク領域の専有を防ぎ、短期保存領域については容量の制限をかけない利用を許すことで、大量のシミュレーション結果を保存できるようにしている。但し、短期保存領域にあるファイルは、最終アクセス日から一定期間をおいて強制的に削除するようにしている。また、短期保存領域はユーザーのホームディレクトリ配下にtempというディレクトリを作り、そこからシンボリックをはることで、あたかも自分のホームディレクトリ配下に大量の一時保存領域があるように見せている。

4.2 一時保存領域


 他人とのファイルのやり取りなどのために、短期保存領域に /temp という当研究センター固有の一時保存領域を用意し、全ての利用者に読み込み、および書き込みの権利を与えて提供している。UNIX標準では、一時保存領域 /tmp を利用する場合があるが、当研究センターでは、管理上の便宜を考慮し、特にこのような領域を設けている。この領域も、最終アクセス日から一定期間経過したファイルは強制的に削除するようにしている。

4.3 バッチ処理の出力保存領域


 先に述べたように、当研究センターでは、SX-4の利用はNQSによるバッチ処理を主としているが、標準のNQSの機能ではプログラムの出力結果である標準出力とエラーメッセージの標準エラー出力は、バッチリクエストを投入したディレクトリに溜まることになる。また、複数の仕事をしている場合、結果のファイルが様々なディレクトリに分散してできるのは、利用者にとって管理が大変であるという心配があった。そこで、 SXOUTという固有のディスク領域に、利用者個人専用のディレクトリを用意し、全ての標準出力と標準エラー出力を一つのファイルとしてそのディレクトリに出力するよう設定した。また、標準出力と標準エラー出力を一つのファイルとしてまとめる際に、これらの同期をとって出力することで、プログラムのどこでエラーが起こっているかという特定が容易になるように工夫している。 現在のシステムは、極力UNIXの機能をそのまま使用するように構築したが、この部分は利用者の便宜のために、特に当研究センター固有の運用とした部分である。

このページのトップへ

5. 稼働状況

 システムの稼働状況については、毎朝自動的に前日の情報が採れるようにしている。採取している情報としては、1) ジョブ・セッションの実行状況、2) CPU・メモリの使用状況、3) ジョブクラス別のメモリ使用状況・実行待ち時間・投入してから終了するまでの時間・ベクトル演算率の統計情報、4) ベクトル演算率の低いジョブや入出力の多いジョブの洗い出し、などである。これらの情報は、テキスト形式で出力しているため、そのまま中を見ることもできるが、パーソナルコンピュータに取り込み、表計算ソフト(マイクロソフト社製 Excel)などで処理し、グラフ化して表示することにより、システムの状態をより理解し易くしている。また今後、これらの情報を基に、ジョブクラスの設定や自動オペレーションの設定の最適パラメータを探っていくこととしている。

このページのトップへ

5. まとめと今後の課題

 システムのSX-OSからSUPER-UXへの移行を行い、UNIXでの初めての本格的なシステム運用を行った。この際、前システムで利用していたファイルをUNIXの形式に対応させるために、様々なツールを用意したり、UNIXを初めて利用する利用者のために、SX-OSとの概念や利用方法の違いを示した説明書を作成し、利用者のレベルに合わせた講習会を開催したりした。説明書にはなるべく具体的に利用例を掲載し、NQSファイルなどは一般的な利用方法についてひな形のファイルを作成して公開し、利用者が少しカスタマイズすればそのままジョブの実行が可能であるように工夫した。こういったことを行うことにより、比較的短時間で移行が完了した。また、前システムの考え方や機能を継承しつつ、新しい機能を取り入れ、UNIXシステムの長所を生かした効率の良いシステムを構築することができたと考えている。今回構築したシステムは、運用のパラメータなどの変更が比較的容易で、システム運用中に動的にジョブクラスの設定を変更するなど、システムの状況を見ながら試行錯誤を繰り返すことができる。今後も試行錯誤しながら、最適パラメータを探っていきたい。

このページのトップへ