コンピューティングクラスタの電源が切れます。ファイルシステムは使用できなくなりました。考えられる理由は?

コンピューティングクラスタの電源が切れます。ファイルシステムは使用できなくなりました。考えられる理由は?

まず第一に、私はシステム管理者ではなく、ユーザーだけです。 IT部門は従業員の離職率が高く、既存の従業員はHPCシステムを理解していないため、現在のサポートを提供できません。

つまり、私はCentOS Linux 7で動作する高性能コンピューティングクラスタを使用しています。私たちのクラスターは最近、嵐のために電力が失われました。今後電源がオフの状態で、df コマンドは次の出力を提供します。

Filesystem                 1K-blocks         Used   Available Use% Mounted on
/dev/md4                   723772952     48291720   675481232   7% /
devtmpfs                    32828496            0    32828496   0% /dev
tmpfs                       32844812            4    32844808   1% /dev/shm
tmpfs                       32844812      1010484    31834328   4% /run
tmpfs                       32844812            0    32844812   0% /sys/fs/cgroup
/dev/md3                    31425544      4035716    27389828  13% /var
/dev/md2                     8370176        33068     8337108   1% /tmp
/dev/md123                    507684       149533      331940  32% /boot
182.22.0.47:/pool0/data  57316467200          256 57316466944   1% /data
182.22.0.47:/pool0/home 172707177472 115390709760 57316467712  67% /home
tmpfs                        6568964           12     6568952   1% /run/user/42
tmpfs                        6568964            0     6568964   0% /run/user/1003

すべてのユーザーのホームディレクトリは、ファイルシステム182.22.0.47:/ pool0 / homeにあります。しかし、電源を切ってから回復した後、dfコマンドを実行してみると、次のような結果が出ました。

Filesystem                 1K-blocks         Used   Available Use% Mounted on
/dev/md4                   723772952     48291720   675481232   7% /
devtmpfs                    32828496            0    32828496   0% /dev
tmpfs                       32844812            4    32844808   1% /dev/shm
tmpfs                       32844812      1010484    31834328   4% /run
tmpfs                       32844812            0    32844812   0% /sys/fs/cgroup
/dev/md3                    31425544      4035716    27389828  13% /var
/dev/md2                     8370176        33068     8337108   1% /tmp
/dev/md123                    507684       149533      331940  32% /boot
tmpfs                        6568964           12     6568952   1% /run/user/42
tmpfs                        6568964            0     6568964   0% /run/user/1003

IPアドレス182.22.0.47で始まるファイルシステムがないことを除いて、出力は同じです。

私は次の質問を見つけようとしています。なぜこのファイルシステムがマウントされなくなったのですか?最初は、ノード182.22.0.47に電源がまったく供給されていないと思いました。ただし、問題なくこのノードにSSHを介して接続できます。ただし、これを行った後、ユーザーのホームディレクトリが見つかりません。さらに、ディスク容量(〜450 GB)は、最初のdf出力で提供された元の容量(〜161 TB)よりはるかに低くなります。

可能であれば、より多くの情報を提供します。前述のように、私はシステム管理者以外のユーザーであるため、試すことができる操作は限られています。時間をいただきありがとうございます。

編集する:コメントに回答したら、よくわかりません。明確にできますか?もちろんこれは私の操舵室にはありません。

しかし、質問を投稿した後、リモートノードに実際には200 TBを超えるマウントされていないストレージ(欠けているデータが含まれる可能性がある)がある可能性があることがわかりました。私は次の出力を生成するlsblkコマンドを介してこれを見つけました。

    NAME        MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
    sda           8:0    0 745.2G  0 disk  
    ├─sda1        8:1    0 745.2G  0 part  
    └─sda9        8:9    0     8M  0 part  
    sdb           8:16   0  93.2G  0 disk  
    ├─sdb1        8:17   0  93.2G  0 part  
    └─sdb9        8:25   0     8M  0 part  
    sdc           8:32   0  93.2G  0 disk  
    ├─sdc1        8:33   0  93.2G  0 part  
    └─sdc9        8:41   0     8M  0 part  
    sdd           8:48   0 745.2G  0 disk  
    ├─sdd1        8:49   0 745.2G  0 part  
    └─sdd9        8:57   0     8M  0 part  
    sde           8:64   0 447.1G  0 disk  
    └─md126       9:126  0 424.8G  0 raid1 
      ├─md126p1 259:0    0   500M  0 md    /boot
      ├─md126p2 259:1    0   3.9G  0 md    [SWAP]
      └─md126p3 259:2    0 420.4G  0 md    /
    sdf           8:80   0   5.5T  0 disk  
    ├─sdf1        8:81   0   5.5T  0 part  
    └─sdf9        8:89   0    64M  0 part  
    sdg           8:96   0   5.5T  0 disk  
                       .
                       .
                       .

わかりませんが、問題はファイルシステムをアンマウントするだけです。

ベストアンサー1

おすすめ記事