/tmpがめちゃくちゃです。 ls /tmpも失敗します。

/tmpがめちゃくちゃです。 ls /tmpも失敗します。

小さなクラスタが利用できなくなることを確認しました。最初は、コンピューティングノードとヘッドノードで同じ動作が発生しました。これが基本的なソースかどうかはわかりませんが、確かに/tmpディレクトリの何かが混乱して停止してls /tmp殺すことはできません。 (/tmpその下には/nfsをマウントするのではなく他のすべてを見ることができます/var/log/proc/tmp

ハード再起動で問題を一時的に解決できますが、長期的な解決策ではありません。

提案を歓迎します。ただ"ls -ld /tmp &"を実行してください。 lsよりも多くのことはしません...

注:問題が発生すると、/ tmpがめちゃくちゃになります。そうでなければ(現時点では)大丈夫です。

[ldm@head ~]$ df -h /tmp
Filesystem      Size  Used Avail Use% Mounted on
/dev/md126      221G  143G   78G  65% /
[ldm@head ~]$ ls -ld /tmp
drwxrwxrwt. 12 root root 20480 Jan 26 08:45 /tmp

参考までに:

uname -a
"Linux head.cluster 3.10.0-1062.1.1.el7.x86_64 #1 SMP Fri Sep 13 22:55:44 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux 

cat /etc/os-release
NAME="CentOS Linux"
VERSION="7 (Core)"

問題が断続的に発生します。コンピューティングノードの1つに戻って、最終的にdmseg -H:
[Feb 7 00:51] INFO:task kworker / 4:2:20770が120秒以上ブロックされたことを示しました。
[+0.007162] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"はこのメッセージを無効にします。
[+0.008112] kworker/4:2 D ffff985b47709040 0 20770 2
[+0.007307] ジョブキュー: イベント xprt_rdma_connect_worker [rpcrdma]
[+0.006210] 呼び出し追跡:
[
+0.000 05 1 59] [ ] タイムアウト予約 +0x221/0x2d0
[ +0.006035] [] ? mthca_modify_qp+0x8f/0x310 [ib_mthca]
[ +0.006988] [] wait_for_completion+0xfd/0x140
[ +0.006204] [] ? wake_up_state+0x20/0x20
[+0.005776] [] __ib_drain_sq+0x181/0x1c0 [ib_core]
[+0.006638] [] ? ib_sg_to_pages+0x1a0/0x1a0 [ib_core]
[ +0.006902] [] ib_drain_sq+0x25/0x30 [ib_core]
[ +0.006292] [] ib_drain_qp+0x12/0x30 [ib_core
0x58/0x150 [rpcrdma]
[ +0.007244][]rpcrdma_ep_connect+0x139/0x400[rpcrdma]
[+0.007073][]? wake_up_atomic_t+0x30/0x30
[ +0.006022] [] xprt_rdma_connect_worker+0x33/0x60 [rpcrdma]
[ +0.007505] [] process_one_work
+0x17f/ 0x440
[ +0.00 0.0 0 5765章manage_workers.isra 。 25+0x2a0/0x2a0
[ +0.006725] [] kthread+0xd1/0xe0
[ +0.005071] [] ? insert_kthread_work+0x40/0x40
[+0.006285] [] ret_from_fork_nospec_begin+0x21/0x21
[+0.006714] [] ? insert_kthread_work+0x40/0x40
ls -ld /tmp
drwxrwxrwt 8 root root 169 2月7日11:28 /tmp
ls -ld /boot
dr-xr-xr-x 5 root root 4096 1月20
日-ld/hang 起動中 - NFS マウントが機能していないようです。

ベストアンサー1

おすすめ記事