2023-01-01から1年間の記事一覧
DMM における AWS から BigQuery へのデータ基盤移行 / 合同会社DMM.com 背景 1500テーブル ほぼ日時処理 biから投げられる30000クエリ/ week 1500mau 新規テーブル・カラムの別作業が5回/week 課題 オペの省力化ができていないため、活用拡大にリソースを割…
基調講演 ハルシレーションを抑えるグラウンディングをし、事実に基づく生成AIにする Vertexがより協力になっていく話 Garden Codey 企業独自のコードベースから、出力をチューニングしてくれる https://zenn.dev/cloud_ace/articles/20230609codeyapisprevi…
記事の概要 Google Cloud SDKの認証コマンド、`gcloud auth login` と `gcloud auth application-default login` の違いについてまとめた。 gcloud auth login 目的 `gcloud` コマンドラインツールを使用するユーザー自身を認証するためのコマンドになる。 …
はじめに 2022の振り返りと称した、半年の振り返りはこれになる。 yoshitaku-jp.hatenablog.com 1年間での主な業務と成果 主に - ETL処理を組む - バッチ処理の面倒をみる - 集計依頼に対応する - データ基盤の速度改善 - データ基盤のコスト削減 を実施して…
SNSの時間を抑えたいなと思っていたところone secにたどり着き、使ってみたところとても良かったので紹介します。 tl, dr SNSの時間消費にone secがよかった 対象のアプリが起動すると、one secの妨害が始まる 妨害のカスタマイズもできる one sec とは one …
SQLのLinterであるSQLfluffをCI /CDで回したかったので、GitHub Actionsで試してみた。今回は PR上でCIが回る checkout時のデータ量削減で、fetch-depth: 1の設定 リポジトリ内の全てのSQLファイルにLinterを実行するため、find . -name '*.sql' -type f | x…
BigQueryのメタデータからDDL文を確認する方法を調べた。以前、過去に作ったテーブルのDDL文がわからず困った時に役立った。 INFORMATION_SCHEMA.TABLESのddlカラムにDDL文が存在している。 SELECT table_name, ddl FROM `<project_id>.<dataset_name>.INFORMATION_SCHEMA.TABLES` WHER</dataset_name></project_id>…
前回に引き続き、ETLツールをいろいろさわってみたいと思ったところから、今回はPython製のETLツールLuigiをさわってみた。 インストール pip install luigi バージョン確認 $ python --version Python 3.9.1 luigi 3.2.0 サンプルコード import luigi class…
ETLツールをいろいろさわってみたいと思って、Python製のETLツールPrefectをさわってみた。 インストール pip install prefect バージョン確認 $ python --version Python 3.11.1 $ prefect --version 2.8.3 サンプルコード Prefect公式で提供されている「We…
チームメンバーへの共有の意味を兼ねてプルリクエストを作り、作業を始める前の作業想定やメモなどを書きたい時があった。しかし、そのプルリクエストを作るために、何かしら作業をしてコミットとプッシュをしなければいけなくなってしまうというジレンマも…
BigQueryの予約語を調べてもなかなか公式ドキュメントに辿り着けず悲しかったので自分のブログにリンクする 予約済みのキーワード https://cloud.google.com/bigquery/docs/reference/standard-sql/lexical?hl=ja#reserved_keywords 2023-02-08
Google ColabからGCPへログインした後、ユーザを切り替えたいなどの理由でログアウトしたいときに実行する方法です。 gcloudのrevokeコマンドを使ってログアウトする ! gcloud auth revoke Google Colabのランタイムを終了させる from google.colab import r…
Google ColabからGCPへアクセスしたい場合は、次のコードを実行するとGoogleアカウントへのログインフォームが出てきます。 ログインが完了すると、Google Clund SDKのリクエスト確認の画面へ移動し、「許可」をクリックします。 次に認証用コードが発行され…
セルの内容をファイルに書き出す マジックコマンドの%%writefileを使うことでセルの内容を書き出す事ができる。 %%bash ls sample_data %%writefile sample.txt test1 test2 %%bash ls sample_data sample.txt %%bash cat sample.txt test1 test2 セルの内容…
VS Code拡張機能のEdit CSVがとても便利だったので紹介する。 概要 Edit CSVはVS codeの拡張機能で、CSVファイルをExcel操作のように編集することができる。 紹介ページにも、次のように書いてある。 This extensions allows you to edit csv files with an …
いまさらとなってしまったが、2022年の振り返りをする。 ## 仕事 2022で自分の一番大きな変化といえば転職になる。7月までSIerでデータエンジニアの仕事をし、1ヶ月間有給消化後、9月から引き続きデータエンジニアとして事業会社で仕事をしている。 転職する…