元の質問

Question

コンテンツ通知：この記事には、さまざまなLinuxディスカッションとコードへのリンクが含まれています。一部のリンクされたコンテンツは現行行動規範に準拠していません。スタック交換またはLinux。ほとんどの人は「[人ではなく]コードを侮辱しています。」使用されている言語に関係なく繰り返してはいけません。そのような言語を模倣したり、オウムのように真似したり、議論をすることを控えてください。

Re：iowaitがアイドルアカウントと「一貫していない」 - iowaitが低すぎる

2019年5月7日12:38に、Peter Zijlstraは次のように書きました。

2019年7月5日金曜日の午後12時25分46秒+0100で、Alan Jenkinsは次のように書きました。

私のCPU "iowait"時間が間違って報告されているようです。なぜこれが起こるのか知っていますか？

iowaitは魔法の乱数で意味がないからです。個人的に私はこの部分を除いてはすべて削除したいと思います。ABI:/

周辺のレビューもチェックしてくださいnr_iowait()

ありがとうございます。 [現在の文書に記載されている問題]は別の質問だと思いますが、私の問題を「解決する」ための要件（またはポイント）が多くないことを意味します。

私の問題を発見しました。この問題は5年前に知られていましたが、それを修正するのは簡単なことではありません。

「iowait」時間は、次の関数によって更新されますaccount_idle_time()。

/*
 * Account for idle time.
 * @cputime: the CPU time spent in idle wait
 */
void account_idle_time(u64 cputime)
{
    u64 *cpustat = kcpustat_this_cpu->cpustat;
    struct rq *rq = this_rq();

    if (atomic_read(&rq->nr_iowait) > 0)
        cpustat[CPUTIME_IOWAIT] += cputime;
    else
        cpustat[CPUTIME_IDLE] += cputime;
}

これは私が期待したように機能します。おおよそのCPU時間「サンプリング」は、従来のタイマ割り込み（「ティック」）を使用して実行されます。ただし、節電のためにアイドル時間中にチェックをオフにすると、機能しなくなる可能性がありますNO_HZ_IDLE。パフォーマンス上の理由からティックをオフにすることを許可しても失敗することがあります。NO_HZ_FULLブートが必要だからです。VIRT_CPU_ACCOUNTING。ほとんどのLinuxカーネルは省電力機能を使用します。一部の組み込みシステムでは、これら2つの機能を使用していません。私の説明は次のとおりです。

IOが完了すると、デバイスは邪魔する。カーネル割り込みハンドラは、次を使用してプロセスを起動します。try_to_wake_up()。カウンターを1ずつ減らしますnr_iowait。

if (p->in_iowait) {
    delayacct_blkio_end(p);
    atomic_dec(&task_rq(p)->nr_iowait);
}

プロセスがアイドルCPUから起動すると、そのCPUはaccount_idle_time()アプリケーションの設定に応じてtick_nohz_account_idle_ticks()から__tick_nohz_idle_restart_tick()またはvtime_task_switch()から呼び出されますfinish_task_switch()。

この時は->nr_iowait縮小しました。ゼロに減らすと、iowait時間は記録されません。

この効果はさまざまです。つまり、プロセスが起きたCPUによって異なります。 IO完了割り込みを受信するのと同じCPUでプロセスが起きている場合は、->nr_iowaitアイドル時間が短くなる前に早く計算できます。私の場合、CPU 0が処理されていることがわかりました。アーチを見て中断しますwatch cat /proc/interrupts。

簡単な順次読み込みでこれをテストしました。

dd if=largefile iflag=direct bs=1M of=/dev/null

コマンドをCPU 0に固定すると、taskset -c 0 ...iowaitの「正しい」値が表示されます。他のCPUに固定すると、低い値が表示されます。コマンドを正常に実行すると、カーネルバージョン間で変更されたスケジューラの動作に応じて変更されます。最近のカーネル（4.17、5.1、5.2-rc5-ish）では、「iowait」時間がこの部分に短縮されるため、このコマンドはCPU 0で時間の約1/4を要するようです。

（説明されていません：今、私の仮想マシンでこのテストを実行すると、各（またはすべての）CPUに対して「正しい」iowaitが再現されるように見えます。これが関連している可能性があると思います。IRQ_TIME_ACCOUNTINGこの機能は、仮想マシンの外部テストにも使用されました。

NO_HZ_IDLE抑制すると、4.17+ではCPUごとに「正しい」iowaitが提供されますが、4.16または4.15では提供されない理由を正確に確認できませんでした。

私の仮想マシンでこのテストを実行すると、CPUごとに「正しい」iowaitが再現されるようです。このためです IRQ_TIME_ACCOUNTING。 VM 外部テストにも使用されますが、VM 内部でテストすると、より多くのハングが発生します。特に、「dd」が実行されている仮想CPUには、1秒あたり1000を超える「関数呼び出し割り込み」があります。

だから私の説明の詳細に頼ってはいけません :-)

「iowait」の背景情報は以下の通りです。CPUは、IOが保留中であるかどうかをどうやって知ることができますか？ここへの答えは、累積iowaitが「特定の条件下で減少する可能性がある」という反直観的なアイデアを引用しています。私の簡単なテストが文書化されていない状況を引き起こす可能性があるかどうか疑問に思います。

はい。

最初にこのコンテンツを検索したときに「しゃっくり」という用語が見つかりました。また、累積された「iowait」時間が単調ではないことを示すことによって問題を説明します。つまり、後方にジャンプ（減少）する場合もあります。上記のテストほど単純ではありません。

しかし、調査を行ったところ、同じ根本的な問題が発見されました。 Peter ZijlstraとHidetoshi Setoはそれぞれソリューションを提案し、プロトタイプを作成しました。この問題はカバーメッセージに記載されています。

[RFCパッチ0/8] iowait会計リワーク(2014-07-07)

それ以外は進展があるという証拠が見つかりませんでした。詳細の1つに答えのない質問があります。さらに、シリーズ全体はPowerPC、S390、およびIA64 CPUアーキテクチャの特定のコードをカバーしています。それで、この問題を解決するのは簡単ではないと言いたいのです。

Answer 1

コンテンツ通知：この記事には、さまざまなLinuxディスカッションとコードへのリンクが含まれています。一部のリンクされたコンテンツは現行行動規範に準拠していません。スタック交換またはLinux。ほとんどの人は「[人ではなく]コードを侮辱しています。」使用されている言語に関係なく繰り返してはいけません。そのような言語を模倣したり、オウムのように真似したり、議論をすることを控えてください。

Re：iowaitがアイドルアカウントと「一貫していない」 - iowaitが低すぎる

2019年5月7日12:38に、Peter Zijlstraは次のように書きました。

2019年7月5日金曜日の午後12時25分46秒+0100で、Alan Jenkinsは次のように書きました。

私のCPU "iowait"時間が間違って報告されているようです。なぜこれが起こるのか知っていますか？

iowaitは魔法の乱数で意味がないからです。個人的に私はこの部分を除いてはすべて削除したいと思います。ABI:/

周辺のレビューもチェックしてくださいnr_iowait()

ありがとうございます。 [現在の文書に記載されている問題]は別の質問だと思いますが、私の問題を「解決する」ための要件（またはポイント）が多くないことを意味します。

私の問題を発見しました。この問題は5年前に知られていましたが、それを修正するのは簡単なことではありません。

「iowait」時間は、次の関数によって更新されますaccount_idle_time()。

/*
 * Account for idle time.
 * @cputime: the CPU time spent in idle wait
 */
void account_idle_time(u64 cputime)
{
    u64 *cpustat = kcpustat_this_cpu->cpustat;
    struct rq *rq = this_rq();

    if (atomic_read(&rq->nr_iowait) > 0)
        cpustat[CPUTIME_IOWAIT] += cputime;
    else
        cpustat[CPUTIME_IDLE] += cputime;
}

これは私が期待したように機能します。おおよそのCPU時間「サンプリング」は、従来のタイマ割り込み（「ティック」）を使用して実行されます。ただし、節電のためにアイドル時間中にチェックをオフにすると、機能しなくなる可能性がありますNO_HZ_IDLE。パフォーマンス上の理由からティックをオフにすることを許可しても失敗することがあります。NO_HZ_FULLブートが必要だからです。VIRT_CPU_ACCOUNTING。ほとんどのLinuxカーネルは省電力機能を使用します。一部の組み込みシステムでは、これら2つの機能を使用していません。私の説明は次のとおりです。

IOが完了すると、デバイスは邪魔する。カーネル割り込みハンドラは、次を使用してプロセスを起動します。try_to_wake_up()。カウンターを1ずつ減らしますnr_iowait。

if (p->in_iowait) {
    delayacct_blkio_end(p);
    atomic_dec(&task_rq(p)->nr_iowait);
}

プロセスがアイドルCPUから起動すると、そのCPUはaccount_idle_time()アプリケーションの設定に応じてtick_nohz_account_idle_ticks()から__tick_nohz_idle_restart_tick()またはvtime_task_switch()から呼び出されますfinish_task_switch()。

この時は->nr_iowait縮小しました。ゼロに減らすと、iowait時間は記録されません。

この効果はさまざまです。つまり、プロセスが起きたCPUによって異なります。 IO完了割り込みを受信するのと同じCPUでプロセスが起きている場合は、->nr_iowaitアイドル時間が短くなる前に早く計算できます。私の場合、CPU 0が処理されていることがわかりました。アーチを見て中断しますwatch cat /proc/interrupts。

簡単な順次読み込みでこれをテストしました。

dd if=largefile iflag=direct bs=1M of=/dev/null

コマンドをCPU 0に固定すると、taskset -c 0 ...iowaitの「正しい」値が表示されます。他のCPUに固定すると、低い値が表示されます。コマンドを正常に実行すると、カーネルバージョン間で変更されたスケジューラの動作に応じて変更されます。最近のカーネル（4.17、5.1、5.2-rc5-ish）では、「iowait」時間がこの部分に短縮されるため、このコマンドはCPU 0で時間の約1/4を要するようです。

（説明されていません：今、私の仮想マシンでこのテストを実行すると、各（またはすべての）CPUに対して「正しい」iowaitが再現されるように見えます。これが関連している可能性があると思います。IRQ_TIME_ACCOUNTINGこの機能は、仮想マシンの外部テストにも使用されました。

NO_HZ_IDLE抑制すると、4.17+ではCPUごとに「正しい」iowaitが提供されますが、4.16または4.15では提供されない理由を正確に確認できませんでした。

私の仮想マシンでこのテストを実行すると、CPUごとに「正しい」iowaitが再現されるようです。このためです IRQ_TIME_ACCOUNTING。 VM 外部テストにも使用されますが、VM 内部でテストすると、より多くのハングが発生します。特に、「dd」が実行されている仮想CPUには、1秒あたり1000を超える「関数呼び出し割り込み」があります。

だから私の説明の詳細に頼ってはいけません :-)

「iowait」の背景情報は以下の通りです。CPUは、IOが保留中であるかどうかをどうやって知ることができますか？ここへの答えは、累積iowaitが「特定の条件下で減少する可能性がある」という反直観的なアイデアを引用しています。私の簡単なテストが文書化されていない状況を引き起こす可能性があるかどうか疑問に思います。

はい。

最初にこのコンテンツを検索したときに「しゃっくり」という用語が見つかりました。また、累積された「iowait」時間が単調ではないことを示すことによって問題を説明します。つまり、後方にジャンプ（減少）する場合もあります。上記のテストほど単純ではありません。

しかし、調査を行ったところ、同じ根本的な問題が発見されました。 Peter ZijlstraとHidetoshi Setoはそれぞれソリューションを提案し、プロトタイプを作成しました。この問題はカバーメッセージに記載されています。

[RFCパッチ0/8] iowait会計リワーク(2014-07-07)

それ以外は進展があるという証拠が見つかりませんでした。詳細の1つに答えのない質問があります。さらに、シリーズ全体はPowerPC、S390、およびIA64 CPUアーキテクチャの特定のコードをカバーしています。それで、この問題を解決するのは簡単ではないと言いたいのです。

元の質問

元の質問

「iowait」の背景情報

環境

テストと結果

テスト結果（仮想マシン内部）

ベストアンサー1

おすすめ記事