Data Engineering Study #4「データ分析基盤の障害対応事例 LT 祭り」に視聴者として参加させてもらった。自分は普段、 Azure を使ったデータ分析基盤の導入支援をおこなっている。そのため、各コンポーネントの簡単な知見などは知っているが、運用面や障害対応の知見がないため非常に楽しみにしていた。

今回のブログは自分用のメモと資料のまとめとして書き留めておく。

Data Engineering Study #4「データ分析基盤の障害対応事例 LT 祭り」

forkwell.connpass.com

アーカイブはこちら

正確な意思決定を阻む問題障害との向き合い方

発表者は @syou6162さんです。

（仕事の打ち合わせで視聴できずアーカイブ待ちです…）（ブログ投稿直前にアーカイブに気がついたので、後で編集）

正確な意思決定を阻む問題・障害との向き合い方 from syou6162

www.slideshare.net

データ分析基盤の障害を未然に防ぐためのチェックリスト

発表者は @sotaron さんです。

コンポーネント毎にチェックポイントがあってわかりやすかった。

（見直したかったけど、資料が見つかりませんでした…）

IoT デバイスデータ収集の難しい点

発表者は@fetarodc さんです。

IoT デバイスのデータ収集はスキルセットがぜんぜん違う
IoT はエンジニアの総合格闘技
- エンジニア成り立ての時、ラズパイでなにか作ってみようとしたけど、全然うまくいかなかったことを思い出した。
ネットワークは切れることがある。
ログは見ることが出来ない
- このあたり、Maker Faire 東京で、会場に持っていったときに動かなくなったのは思い出だ…。

ラズベリーパイのデータを OSS を組み合わせて可視化しようとしたが、断念したことを思い出した。いつか手を付けてみよう。

IoTデバイスデータ収集の難しい点 from Tetsutaro Watanabe

www.slideshare.net

障害、解決、その先に

発表者は@sista05 さんです。

4 つの事例が出てきた上に、Twitter 上での議論が非常に活発になって面白かった。総論に出てきた「マネージドサービスに任せるほうがいい」「構成は簡単に、保守はしやすいように」ということは非常に共感した。

docs.google.com

障害はチャンスだ！障害を前向きに捉える

発表者は@nii_yan さんです。

モブプロ/ペアプロになり、他の人のコマンドを見られる。
- Q&A に出てきたが、モブプロと言うより、二次災害を防ぐためにダブルチェックを兼ねての知見共有の意味合いがある
知らないシステムでも仕様を知れる。
ポストモーテム
- 障害の事後検証報告書の意味
- 障害復旧へ携わった本人以外に、組織も成長できる。
障害対応しているときにモブプロしている余裕がある？
障害対応しているときに別の障害を起こしてしまう可能性がある。ダブルチェックをするような感覚でモブプロをしている。