超PayPay祭りの高負荷対策、クラウド運用の自動化システム開発、クラウドネイティブに変わる電話会社など、運用者に光をあてるセッションを大紹介![PR]

2021年8月3日

クラウド運用者の経験や教訓、ノウハウなどを共有することで、ふだんは目立たないクラウド運用者に「光」をあてようというイベント「Cloud Operator Days Tokyo 2021」がオンラインで開催中です。

すでに60本以上のセッション動画が公開されており、無料で登録することにより、すべての動画をオンデマンドで参照できます。

さらに8月27日にはライブイベントとして、2つのキーノートセッションと、「輝け!クラウドオペレーターアワード2021」の発表を行います。

キーノートでは、OpenStack FoundationのCOOであるMark Collier氏、そしてCloud Native Computing Foundationの設立責任者などを務めたVMwareのR&D担当副社長 クレイグ・マクラッキー氏が登壇。

そして「輝け!クラウドオペレーターアワード2021」では、ネガティヴな印象を受けがちな運用話をポジティブに共有することで、より運用者が輝ける未来を目指して優秀セッションを表彰します。審査員には私(新野)も参加します。

超PayPay祭による高負荷にショッピングはどのように立ち向かったか

この記事では60本以上あるセッション動画から、いくつか注目の動画を紹介していきましょう。読者の皆様が登録してセッション動画を見る際に、参考にしていただければ幸いです。

まずは記事執筆時点の、参加者の視聴数で人気の動画トップ3を紹介しましょう。

現時点でもっとも人気の高い動画が、「超PayPay祭による高負荷にショッピングはどのように立ち向かったか」です。

fig

これは、決済サービスとして知られるPayPayが2020年10月から11月にかけて行ったキャンペーン「超PayPay祭」の裏で、サービスダウンが許されない状況に対して運用チームがどのように立ち向かったかを当事者が解説するセッション。

LINEとの経営統合を記念して当初想定していたよりも早く、3月に超PayPay祭りが開催決定。そんな中、開発チームはどのような負荷対策を行ったのか、そしてプラットフォーム側ではどんな課題を洗い出し、対応を進めたのかが語られます。

新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた

続いて2位が「新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた」です。登壇者は東日本電信電話株式会社に2020年度入社し、プログラミングもクラウドも全くの初心者という坂齊史奈子氏。

fig2

これまでのクラウドの運用では、サービスにエラーが発生した際のアラートメールを人間がダブルチェックした上で送信し、送信後にレポートも作成していました。しかしクラウドの需要の高まりに伴い、年間2500件を超えるアラートで運用業務がひっ迫します。

そこでこの提携業務を自動化し、運用の手間を最小限にする。このためにサーバレスでアプリケーションの開発を目指したと。

通知判断、メール送信、記録機能。それぞれの関数を連携させて作る方法をどうするかなど開発時の課題などについて紹介されています。

NFVでクラウドネイティブに変わる電話会社の運用(KDDI編)

第三位は「NFVでクラウドネイティブに変わる電話会社の運用(KDDI編)」です。

NFV(Network Functions Virtualization)とは、これまでルーター、ファイアウォール、ロードバランサーなどのネットワーク機器で提供されてきたさまざまなネットワークの機能を、仮想マシン上のソフトウェアで提供することです。これによってネットワークの機能が柔軟かつ迅速に提供され、またプロビジョニングや構成などの自動化などが期待されます。

このNFVを、通信大手企業であるKDDIがどのような考えで導入していくのかを紹介したのが本セッションです。

fig3

セッションでは、NFVを実現する上でオープンソースの利点を生かし、低コストで事前比較などを行った経緯。従来の交換機などを用いた運用を踏まえたうえで、新たにNFVをどう導入して行くのか、また導入にあたり必要なソフトウェアの開発を行った際に苦労した点などが語られています。

さらに導入期を超え、実際にさまざまなツールを使って運用してみた結果どうだったのかについても説明されており、自分たちで現場を改善していく運用者の生の声を実感できるでしょう。

CyberAgentでのサーバ選定手法の紹介

上位3本のセッションに加えて、Publickeyが選んだ面白そうなセッションも3つほど紹介しましょう。

1つ目は「CyberAgentでのサーバ選定手法の紹介」です。これはタイトルの通り、サイバーエージェントが自社で運営するデータセンターで採用するサーバをどうやって選んでいるかを赤裸々に語るセッション。

fig4

要件定義では、OpenStackのコンピュートノードで2U4ノード、CPUは24コア48スレッドの2ソケット、メモリは64GB×16で1TBなど技術的な項目が並ぶ上に、「止められない度」や「できるだけ安く」といった、ざっくりとした説明も並びます。

さらに「妥協できる条件」として分解難易度や価格、拡張性などが挙がる一方、「妥協できない条件」として、「PSUの冗長化」「FANのHot Swap対応」「ラックに入る大きさであること」「弊社指定NICを装着できること」など、確かにそれは妥協できないだろうという項目が挙がります。

その上で、電源投入前に確認する検証項目として入力電圧やエアフローや拡張性など多数の項目が挙がり、電源投入後に検証すべき項目としてDiskの見え方やベンチマークなど、徐々に細部の検討へと入っていきます。

データセンターがどうやって機材を選んでいるのか、なかなか知る機会はありませんので、その一端を知るよい機会ではないかと思います。

Kubernetesでコンテナを使ってサービス化したら運用者がログを追えなくて

次は「Kubernetesでコンテナを使ってサービス化したら運用者がログを追えなくて工夫した話」を紹介しましょう。

クラウドネイティブの推進に取り組んでいたら、逆に不便な部分が出てきてしまったと。一緒に働く人を楽にできなくて何がクラウドネイティブだ、というのが話の発端です。

fig5

具体的に何が不便になったのかと言うと、ログです。いままでLinuxのログであれば、ファイルとして扱えて簡単に参照できたのに、クラウドネイティブではそういうような扱いができなくなってしまいます。

すると、いままでできていたようなtalコマンドやgrepコマンドなどで簡単に扱うことができなくなります。それを改善するためにどのようなアクションをしたのか。

内容はぜひセッション動画をご覧ください。

クラウドサービスのインシデント対応をめぐる「モヤモヤ」

3つ目はクラウドサービスのインシデント対応をめぐる「モヤモヤ」 ~JPCERT/CCのインシデント対応事例より~を紹介しましょう。

JPCERT/CCは国内外さまざまなセキュリティインシデントに対する対応支援や予防などの活動を行っている組織です。

fig6

本セッションでは過去のセキュリティ事例を取り上げて解説しています。それが、Salesforce.comのサイトの設定不備によって、多数の情報漏洩や不正アクセス被害が発生した件や、Amazon S3での設定不備を突かれて勝手に暗号化され、身代金を要求された件です。

こうしたクラウドサービスをめぐるセキュリティ事例に対しては、「複雑なマニュアルを提供するのが悪い」「マニュアルも読めないようなら使うべきではない」といった反応が見受けられましたが、もっと根本的な部分にインシデントの原因があるのではないか、と指摘されています。

その根本的な部分とは何か、もやもやするのはなぜか。クラウドサービスのセキュリティは多くの人が気にすべき情報だと思いますので、ぜひセッションでその中身をご確認いただければと思います。

参加者には豪華プレゼントも用意

このほかにも魅力的な多数のセッションがある上に、オンラインイベント参加者には豪華プレゼントも用意されていると、イベント実行委員が告知しています。

ぜひCloud Operator Days Tokyo 2021に登録していただき、さまざまなセッションをお楽しみください。

(本記事はCloud Operator Days Tokyo実行委員会提供のタイアップ記事です)

このエントリーをはてなブックマークに追加
follow us in feedly




カテゴリ

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed


最新記事10本