GitHub Actions のコスト戦略

TLDR

開発体験が良くなると CI のコストも減る
不必要なジョブ実行を減らし、割れ窓を直すことから始めると良い
Self-hosted runners ではクラウドコスト最適化の一般的なプラクティスも併用する

GitHub Actions のコスト構造

GitHub-hosted runners
- GitHub が提供するインフラを利用する。一般的なクラウドより高めの料金設定になっている
- 1分単位で課金される。ジョブの実行時間が数秒間でも1分間で課金されるので注意
- Public repository は無料、Private repository は従量課金になっている
- Organization 内で利用料金が合算されて翌月請求される。Organization Owner なら請求レポート (CSV) をダウンロードできる
Self-hosted runners
- GitHub では課金されない
- クラウドを利用している場合はインスタンスの実行コストとして現れる
- Kubernetes を利用している場合は1ノードで多数のジョブが実行される
- 自前のハードウェアを利用することも可能だが CI の信頼性に影響する。例えば mac mini などで安価に macOS runner を構築できるが、安定運用に必要な労力は大きい

CI ジョブの特徴

リソース使用量のバラツキが大きい
- CI ではビルドやテストなどの多様な処理が実行されるため、ジョブの CPU 時間やメモリ使用量は大きく変化する。例えば、依存関係のダウンロード中はほとんど CPU を消費しないが、その後のコンパイルでは多数のプロセスが起動して CPU やメモリが激しく消費される
- 一般的なモニタリングツールは数秒間隔でリソース使用量を取得しているため、CPU やメモリのスパイクを正確に計測するのは難しい
- ソースコードや依存関係の変化とともに、リソースの使用量も変化していく。気がついたら OOM kill による失敗が増えている場合もある
所要時間のバラツキが大きい
- CI では多様な処理が実行されるため、ジョブの所要時間は均一にならない。例えば、数秒で終わるジョブと数十分かかるジョブが同一ノードに配置される場合もある
待ち行列の増減が激しい
- Pull Request の作成やマージなどのアクションを契機に多数のジョブが実行される
- 一方で、夜間や休日などほとんどジョブが実行されない時間帯もある
成功するまで再実行される
- 一般的なブランチ戦略では CI が品質ゲートとなっているので、CI が成功するまで Pull Request をマージできない
- Flaky な CI は開発体験を阻害し、コストを浪費する

Self-hosted runners のコスト戦略

ここでは Kubernetes (AWS EKS / EC2) で actions-runner-controller を運用している前提を考える。他のパブリッククラウドでも同様の考え方が使えると思う。

AWS のコスト構造は以下のようになる。

固定費
- Kubernetes クラスタやその運用に必要なコンポーネントの実行コスト
変動費
- EC2 インスタンスの実行コスト
- ネットワークコスト

ネットワークコストは EC2 インスタンスを Public subnet に配置することで大幅に削減できる。そのため、支配的な EC2 インスタンスの実行コストについて考えていく。

コストの計測

同一インスタンスに多数なジョブが配置されて頻繁に入れ替わるため、ジョブ単位の厳密なコスト計算は難しい。

インスタンスの開始から終了までの実行コストを、ジョブの所要時間やリソース割り当てで按分する
- 例えば、インスタンスにジョブ A（メモリ 8GiB、3分）とジョブ B（メモリ 4GiB、5分）が載っていた場合、コストを A : B = 24 : 20 で按分できる
- しかし、ジョブ A が終了してもジョブ B が終了するまではインスタンスを終了できないので、ジョブ B がコストを浪費していたという考え方もある。両方が動いていた3分間は 8 : 4 の割合で按分し、ジョブ B だけ動いていた残り2分間は100%と考えると、A : B = (8×3) : (4×3+12×2) = 24 : 36 となる
- 現実的には計測や集計が難しい
全インスタンスの実行コストを、各ジョブの所要時間で按分する
- (対象ジョブの所要時間 / 全ジョブの所要時間) × 全インスタンスの実行コスト
- 全インスタンスの実行コストは AWS Budget で簡単に計測できる
- ジョブの所要時間は https://github.com/int128/datadog-actions-metrics で計測できる

コストの最適化

EC2 インスタンスの実行コストは以下の契機に依存する。

新しいインスタンスが起動される契機
- 新しいジョブが実行された、かつ、既存ノードにリソースの空きがない場合、新しいインスタンスが起動される
- ジョブが実行されなければインスタンスも作られない
- ジョブの集積率を上げると、新しいインスタンスが起動する確率が下がる
既存のインスタンスが終了される契機
- インスタンス上のすべてのジョブが完了した場合、インスタンスが終了される
- ジョブの数が少なく、所要時間が短くなると、インスタンスが終了される確率が上がる

コストを削減するには以下のアプローチがある。

ジョブの不必要な実行を減らす
- 最も簡単にできる
- ワークフローの paths や branches を見直す
- Dependabot や Renovate などの Bot は大量のジョブが実行される原因になりうる
- ワークフローはコピペで増えていくので、割れ窓を直して conftest で違反を防ぐと、長期的に効いてくる
Flaky なジョブの再実行を減らす
- 一般的なブランチ戦略では CI が失敗すると Pull Request をマージできない。成功するまでジョブを再実行する必要があるので、Flaky な CI はコストを浪費する
- テストケースの失敗率をモニタリングし、継続的にテストを改善する
- OOM もジョブが失敗する原因になるので、OOM をモニタリングし、継続的にリソース割り当てを改善する
ジョブの所要時間を短くする
- テストケースの所要時間をモニタリングし、継続的にテストを改善する
- キャッシュが有効に活用されるように見直す
ジョブに割り当てるリソースを減らす
- リソースを削減しすぎると所要時間が伸びる、OOM による再実行が増える、といった副作用がある
- 前述のようにモニタリングツールでリソース使用量のスパイクを捕捉することは難しい
- OOM 失敗率をモニタリングしながらメモリサイズを減らしていく
インスタンスサイズや集積率の最適化
- クラウドのコスト最適化戦略と同じ
- 前述のようにジョブのリソース利用量には大きなバラツキがあるので、大きめのインスタンスにジョブを配置してオーバーコミットする方が効率的になる
- 集積率が上がるとノードレベルの OOM が発生したり、ディスク I/O がボトルネックになる可能性もある。ジョブが Flaky になるので、かえってコストが高くつく可能性もある