差分

このページの2つのバージョン間の差分を表示します。

--- linux:kernel:cgroup:memory.txt翻訳 [2013/04/03 08:19] – tenforward
+++ linux:kernel:cgroup:memory.txt翻訳 [2013/08/21 15:43] (現在) – [11. メモリプレッシャー] tenforward
@@ 行 1: / 行 1: @@
 <color red>自分用の適当翻訳ですので細かい所は間違いがあると思います．原文 (Documentation/cgroups/memory.txt) をお読みください．</color>
+多分，3.10 ベース．
 ====== メモリリソースコントローラ ======
@@ 行 36: / 行 38: @@
   * タスクを移動することによりカウントの移動 (再カウント) が選択可能
   * 使用量のしきい値の通知
+  * メモリプレッシャーの通知
   * oom-killer が knob と oom-notifier を無効にすること
   * root cgroup には制限のコントロールがない
@@ 行 61: / 行 64: @@
  memory.use_hierarchy            # カウントの階層構造の有効/無効を設定する/表示する
  memory.force_empty              # 親グループへチャージを強制移動するトリガ
+ memory.pressure_level           # メモリプレッシャー通知を設定する
  memory.swappiness               # vmscan の swappiness パラメータを設定する/表示する
                                  (See sysctl's vm.swappiness)
@@ 行 500: / 行 504: @@
   * under_oom 0 or 1 (1 の時，メモリ cgroup は OOM 状態にあり，タスクは停止している可能性がある)
-===== 11. TODO =====
+===== 11. メモリプレッシャー =====
+プレッシャーレベルの通知はメモリアロケーションのコストをモニタリングするのに使う事ができる．これはプレッシャーをもとにしており，アプリケーションは自身のメモリリソースに様々な管理戦略を実装することが可能になる．プレッシャーレベルは以下のように定義される．
+"low" レベルは，システムが新しいアロケーションのためにメモリを回収している事を意味する．この回収の動きをモニタリングする事はキャッシュレベルを良好に保つのに役に立つ可能性がある．通知があると，プログラム (一般的には "アクティビティ・マネージャ") は vmstat を解析し，あらかじめ何らかの動作を行う事が可能になる (例えば，早めに重要でないサービスを停止するなど)．
+"medium" レベルは，システムが中位のメモリプレッシャー状態にあることを意味する．システムは swap し，アクティブなファイルキャッシュをページアウトするなどしている可能性がある．このイベントで，アプリケーションは vmstat/zoneinfo/memcg や，簡単に再構築できたりディスクから再読み込みすれば良い内部的なメモリ使用の統計値と空きリソースのさらなる解析を決定する可能性がある．
+"critical" レベルは，システムが頻繁にスラッシングを起こしている事を意味する．これはまさに out of memory(OOM) しようとしているところであるか，OOM killer が起動しようとしている所である．アプリケーションは，システムを助ける事ができることなら何でもすべきである．この状態では vmstat や他の統計値の状態を見るには遅すぎであり，すぐに何らかのアクションを起こす事が賢明である．
+イベントは，処理されるまで上流に伝搬する．すなわちイベントは貫通はしないということである．これがどういうことかを以下にしめす．例えば，3 つの cgroup A->B->C が存在するとする．さてここで cgroup A, B, C にイベントリスナーを設定し，グループ C がある種のプレッシャー状態にあるとする．この状況で，グループ C のみが通知を受け取る．すなわち A, B は通知を受け取らない．これはメッセージの過度の「ブロードキャスティング」を防ぐためである．過度のブロードキャスティングは，システムの稼働を阻害し，メモリが少なかったりスラッシング状態にある場合に特に悪い影響を与える．なので，cgroup をきちんと構造化したり，イベントを手動で伝搬するようにする (もしくは，パススルーイベントを自分で実装するように求めたり，なぜ必要なのかの説明を求めたりする)．
+memory.pressure_level ファイルは eventfd を設定するためだけに使われる．通知を登録するために，アプリケーションは
+  - eventfd(2) を使って eventfd を作成する
+  - memory.pressure_level を open する
+  - "<event_fd> <fd of memory.pressure_level> <level>" というような文字列を cgroup.event_control に write する
+アプリケーションは，メモリプレッシャーが指定したレベル (か高いレベル) に達した時，eventfd を通して通知を受け取る．memory.pressure_level に対する read/write 操作は実装されていない．
+テスト:
+ここに小さなサンプルスクリプトがある．これは新しい cgroup を作成し，メモリリミットを設定し，cgroup に通知を設定し，それから子供の cgroup に対して深刻なプレッシャーを与えるスクリプトである．
+<code>
+# cd /sys/fs/cgroup/memory/
+# mkdir foo
+# cd foo
+# cgroup_event_listener memory.pressure_level low &
+# echo 8000000 > memory.limit_in_bytes
+# echo 8000000 > memory.memsw.limit_in_bytes
+# echo $$ > tasks
+# dd if=/dev/zero | read x
+</code>
+(多数の通知が予測され，最終的には oom-killer が発動するだろう)
+===== 12. TODO =====
   - huge ページのアカウンティングサポート (分離したコントローラとして)