Data Engineering Study #4「データ分析基盤の障害対応事例 LT 祭り」に視聴者として参加させてもらった。 自分は普段、 Azure を使ったデータ分析基盤の導入支援をおこなっている。 そのため、各コンポーネントの簡単な知見などは知っているが、運用面や障害対応の知見がないため非常に楽しみにしていた。
今回のブログは自分用のメモと資料のまとめとして書き留めておく。
Data Engineering Study #4「データ分析基盤の障害対応事例 LT 祭り」
アーカイブはこちら
正確な意思決定を阻む問題障害との向き合い方
発表者は @syou6162さんです。
(仕事の打ち合わせで視聴できずアーカイブ待ちです…) (ブログ投稿直前にアーカイブに気がついたので、後で編集)
www.slideshare.net
データ分析基盤の障害を未然に防ぐためのチェックリスト
発表者は @sotaron さんです。
コンポーネント毎にチェックポイントがあってわかりやすかった。
(見直したかったけど、資料が見つかりませんでした…)
IoT デバイスデータ収集の難しい点
発表者は@fetarodc さんです。
- IoT デバイスのデータ収集はスキルセットがぜんぜん違う
- IoT はエンジニアの総合格闘技
- エンジニア成り立ての時、ラズパイでなにか作ってみようとしたけど、全然うまくいかなかったことを思い出した。
- ネットワークは切れることがある。
- ログは見ることが出来ない
- このあたり、Maker Faire 東京で、会場に持っていったときに動かなくなったのは思い出だ…。
ラズベリーパイのデータを OSS を組み合わせて可視化しようとしたが、断念したことを思い出した。 いつか手を付けてみよう。
www.slideshare.net
障害、解決、その先に
発表者は@sista05 さんです。
4 つの事例が出てきた上に、Twitter 上での議論が非常に活発になって面白かった。 総論に出てきた「マネージドサービスに任せるほうがいい」「構成は簡単に、保守はしやすいように」ということは非常に共感した。
障害はチャンスだ!障害を前向きに捉える
発表者は@nii_yan さんです。
- モブプロ/ペアプロになり、他の人のコマンドを見られる。
- Q&A に出てきたが、モブプロと言うより、二次災害を防ぐためにダブルチェックを兼ねての知見共有の意味合いがある
- 知らないシステムでも仕様を知れる。
ポストモーテム
- 障害の事後検証報告書の意味
- 障害復旧へ携わった本人以外に、組織も成長できる。
障害対応しているときにモブプロしている余裕がある?
- 障害対応しているときに別の障害を起こしてしまう可能性がある。ダブルチェックをするような感覚でモブプロをしている。
バッチとストリーミング それぞれの障害に立ち向かう
発表者は@syu_cream さんです。
自分はデータ処理基盤の「導入支援」はおこなっていて、バッチレイヤとスピードレイヤをラムダアーキテクチャとしてお客様に紹介する機会はあった。 しかし、運用面での知見がないので、分けたあとでの実務面で発生しうる問題を把握できておらず大変参考になった。
まとめ
普段からデータ分析基盤を運用している方々の知見が聞けてよかった。 やはりこの手の勉強会は OSS だったり Azure 以外のクラウドベンダーの話が多かった。 自分自身の話の幅を広げるためにも他のコンポーネントも少しは理解しようと思った。
今回のテーマは障害についてだった。 障害対応した際の話はなかなか表に出てこなかったり、発表する機会もなかったりする。 なので、発表の中の話の言葉を借りると、この LT 祭りをポストモーテムのような役割として四半期に 1 回ぐらいのペースでおこなうと良いのではないかと思った。
Twitter のハッシュタグが流れる速さもちょうどよくて、そちらからも情報収集ができ刺激を受けることが出来た。
余談
オンラインイベントに参加したときのレポートは「視聴した」にしたほうが良いのかと思って、タイトルを変えてみた。