よしたく blog

ほぼ週刊で記事を書いています

2023-01-01から1年間の記事一覧

Google Cloud Next Tokyo ’23 Day2に行った📝

DMM における AWS から BigQuery へのデータ基盤移行 / 合同会社DMM.com 背景 1500テーブル ほぼ日時処理 biから投げられる30000クエリ/ week 1500mau 新規テーブル・カラムの別作業が5回/week 課題 オペの省力化ができていないため、活用拡大にリソースを割…

Google Cloud Next Tokyo ’23 Day1に行った📝

基調講演 ハルシレーションを抑えるグラウンディングをし、事実に基づく生成AIにする Vertexがより協力になっていく話 Garden Codey 企業独自のコードベースから、出力をチューニングしてくれる https://zenn.dev/cloud_ace/articles/20230609codeyapisprevi…

gcloud auth loginとapplication-default loginの違いを整理した

記事の概要 Google Cloud SDKの認証コマンド、`gcloud auth login` と `gcloud auth application-default login` の違いについてまとめた。 gcloud auth login 目的 `gcloud` コマンドラインツールを使用するユーザー自身を認証するためのコマンドになる。 …

転職して1年を振り返る

はじめに 2022の振り返りと称した、半年の振り返りはこれになる。 yoshitaku-jp.hatenablog.com 1年間での主な業務と成果 主に - ETL処理を組む - バッチ処理の面倒をみる - 集計依頼に対応する - データ基盤の速度改善 - データ基盤のコスト削減 を実施して…

one secアプリがSNSの時間消費抑えに良かった

SNSの時間を抑えたいなと思っていたところone secにたどり着き、使ってみたところとても良かったので紹介します。 tl, dr SNSの時間消費にone secがよかった 対象のアプリが起動すると、one secの妨害が始まる 妨害のカスタマイズもできる one sec とは one …

GitHub ActionsでSQLFluffを実行する

SQLのLinterであるSQLfluffをCI /CDで回したかったので、GitHub Actionsで試してみた。今回は PR上でCIが回る checkout時のデータ量削減で、fetch-depth: 1の設定 リポジトリ内の全てのSQLファイルにLinterを実行するため、find . -name '*.sql' -type f | x…

BigQueryのメタデータからDDL文を確認する

BigQueryのメタデータからDDL文を確認する方法を調べた。以前、過去に作ったテーブルのDDL文がわからず困った時に役立った。 INFORMATION_SCHEMA.TABLESのddlカラムにDDL文が存在している。 SELECT table_name, ddl FROM `<project_id>.<dataset_name>.INFORMATION_SCHEMA.TABLES` WHER</dataset_name></project_id>…

【Python】ETLツールのLuigiをさわってみた

前回に引き続き、ETLツールをいろいろさわってみたいと思ったところから、今回はPython製のETLツールLuigiをさわってみた。 インストール pip install luigi バージョン確認 $ python --version Python 3.9.1 luigi 3.2.0 サンプルコード import luigi class…

【Python】ETLツールのPrefectをさわってみた

ETLツールをいろいろさわってみたいと思って、Python製のETLツールPrefectをさわってみた。 インストール pip install prefect バージョン確認 $ python --version Python 3.11.1 $ prefect --version 2.8.3 サンプルコード Prefect公式で提供されている「We…

Gitで空のコミットを作る

Git

チームメンバーへの共有の意味を兼ねてプルリクエストを作り、作業を始める前の作業想定やメモなどを書きたい時があった。しかし、そのプルリクエストを作るために、何かしら作業をしてコミットとプッシュをしなければいけなくなってしまうというジレンマも…

BigQueryの予約語のページ

BigQueryの予約語を調べてもなかなか公式ドキュメントに辿り着けず悲しかったので自分のブログにリンクする 予約済みのキーワード https://cloud.google.com/bigquery/docs/reference/standard-sql/lexical?hl=ja#reserved_keywords 2023-02-08

【Google Colab】ログインしたGCPからログアウトする

Google ColabからGCPへログインした後、ユーザを切り替えたいなどの理由でログアウトしたいときに実行する方法です。 gcloudのrevokeコマンドを使ってログアウトする ! gcloud auth revoke Google Colabのランタイムを終了させる from google.colab import r…

【Google Colab】GCPへログインする

Google ColabからGCPへアクセスしたい場合は、次のコードを実行するとGoogleアカウントへのログインフォームが出てきます。 ログインが完了すると、Google Clund SDKのリクエスト確認の画面へ移動し、「許可」をクリックします。 次に認証用コードが発行され…

【Google Colab】%%writefile でセルの内容をファイルに書き出す

セルの内容をファイルに書き出す マジックコマンドの%%writefileを使うことでセルの内容を書き出す事ができる。 %%bash ls sample_data %%writefile sample.txt test1 test2 %%bash ls sample_data sample.txt %%bash cat sample.txt test1 test2 セルの内容…

【VS Code】Edit CSVを使って、ExcelライクにCSVを編集する

VS Code拡張機能のEdit CSVがとても便利だったので紹介する。 概要 Edit CSVはVS codeの拡張機能で、CSVファイルをExcel操作のように編集することができる。 紹介ページにも、次のように書いてある。 This extensions allows you to edit csv files with an …

2022 振り返り

いまさらとなってしまったが、2022年の振り返りをする。 ## 仕事 2022で自分の一番大きな変化といえば転職になる。7月までSIerでデータエンジニアの仕事をし、1ヶ月間有給消化後、9月から引き続きデータエンジニアとして事業会社で仕事をしている。 転職する…