目指すは真にトイルを削減するSREに向けたサービス

2024年2月14日、メタップスホールディングスはsrest(スレスト)をリリースしました。

ITインフラの“体調”を一元監視で早期に異常検知~ダッシュボードを2月14日から無料で提供開始~ ー 株式会社メタップスホールディングス

これは旧来、SRE担当者やバックエンドエンジニアが担ってきたインフラの管理、アプリケーションアラート分析の傾向等を一手に実現するプロダクトです。

srestのサービス責任者であり、メタップスホールディングスSREチームの責任者である山北さんに、開発背景や目指す方向についてインタビューしました。

大坪 亮磨
山北 尚道Naomichi Yamakita / 株式会社メタップスホールディングス srestサービス責任者

ベトナムでオフショア事業を立ち上げ、開発のリードと開発組織育成に約10年間コミット。2015年にメタップスに参画。現在はメタップスの各プロダクトの開発を横断的にリードしつつ、SREチームの責任者として活躍しながら、srestのサービス責任者も兼任。

社内で研究・実践し蓄積したSREノウハウを外部展開したい

―srestの構想はどこから生まれたのでしょうか

2017年ごろ、メタップスには数多くのプロダクトがあり、それぞれ開発チームが分かれていたので、各チームのエンジニアがバラバラにインフラ構築や管理を行っていました。今で言うアプリケーション開発をメインとするエンジニアたちがインフラも見ていたようなイメージです。

そこから開発チームがドメインロジックに専念できるような環境を作ろうということで、全プロダクトを横断する形でインフラ基盤を支えていくSREチームを立ち上げました。

SREの業務範囲は、インフラそのものの課題だけでなく、全社に共通するコストやセキュリティの課題、アプリケーション開発におけるアーキテクチャやパフォーマンスの分析といったところまで幅広いです。それらを専任で見ていくチームとして位置づけました。 社内のプロダクト数は10数個ありましたので、運用の効率化を図る自動化の実装も必須でした。 新規の事業も生み出され続ける環境のため、クラウドネイティブな構成でアプリケーションの開発支援も行い、プロダクトの開発に着手しやすい環境を創っていく必要がありました。

そうして、社内に向けて堅牢で信頼性の高いプラットフォームを構築し、5年ほど運用してきましたが、その成果を社外でも必要とするチームや企業があるのではと思い、外部展開を視野にシフトしはじめました。

社会的な機運の高まりとニーズの拡大

―“SRE”の思想が広まって数年。SREの課題は各企業でも顕在化してきたのでしょうか。

まだまだSREの組織を持つ企業が多いわけではありません。SREを経験したエンジニアも数が多いわけではないので、手探りでトライを続けているチームが多いと思います。SREが必要なのではないかという機運は高まってきていますが、SREのミッションは幅広いので求められる人材や技術は多様化しています。理想の構成や運用の仕組みについては明確な答えを持っている企業は少ない状況です。

ただ、SREコミュニティに目を向けると共通の課題や、共通の取り組みがある程度は見えてきました。特に、わかりやすいものを挙げるとすれば、弊社のように、複数のプロダクトを保有する企業においては横断的な監視は手のかかるタスクで、管理しやすいダッシュボードを自社で内製で開発せざるを得ないケースも多い印象です。

―所謂、“トイルの削減”といわれる活動でもまだまだやるべきことが多いのですか

そうですね。システムのトイルを減らすことはもちろん重要ですが、SREチームが日々使うツールの効率を上げるのも運用コストを下げる一つの手かと思います。

―srestリリース以前から社内のトイルについては細かく潰していっている印象です。

はい、各サービスに特化した改善も日々行っていますが、共通課題となるトイルはsrest上でも今後実装を進めております。そうした取り組みをこのsrestに今後もどんどん実装していき、多くの企業のSREチームやエンジニアの方々の手助けになっていければと思っています。

(参考) メタップスホールディングスの過去の取り組み事例

今後の展望、SREの民主化によるプロダクト開発の推進

―今ある機能と今後の構想について教えて下さい

現状はプロダクトごとのAWSやDatadog、SentryといったIaaSのイベントデータを集積・可視化するダッシュボードがメインです。AWSのAmazon EventBridgeやDatadog、PagerDuty、SENTRYのWebhook APIを利用しています。 各種イベントデータのインテグレーション先となるので、イベントログを一元監視できるものだと思っていただければと思います。SREが見るべき指標を迅速に把握できるようになりますので、トラブルシューティングのための判断も迅速に行えるようになります。

今後については、エンジニア不足といわれ、さらにその中でもSREは人材が不足している領域です。日本でSREという言葉が聞かれるようになって数年が経ち、様々な課題とともにミッションも見えてきました。まだまだSREのナレッジは不足していますので、今回リリースしたsrestによってそうした課題を一つでも多く解消し、SREの民主化を推進し、プロダクト開発を後押しをしていくことができればと思っております。