AWS Glue

Google CloudからAWSへのデータ転送: BigQueryデータをAmazon S3に移行する方法

BigQueryデータをAmazon S3に移行する方法を紹介します。 いくつか方法はありますが、本手順ではAWS Glue JobでBigQueryに対しクエリを実行することでデータを移行します。 本手順を取り入れることで、BigQuery上の大規模なデータの移行・加工処理がサーバー…

Amazon S3上のデータを分析するアーキテクチャ例~HiveとApache Iceberg比較~

サーバーワークスの村上です。 今回はAmazon S3上にあるデータを外部テーブルとして分析する際、どのような方法があるか、主にHiveとApache Icebergを中心に比べてみました。 想定シーン パターン一覧 結論:Hive形式 とApache Iceberg形式の比較 扱うJSONデ…

S3バケットにオブジェクトが生成されたタイミングでGlue Workflowsを動かしたい

サウナハットは持ち歩かずタオルを頭に巻く派の小菅です。 Glueワークフローを使ったS3オブジェクトのParquet変換のブログを以前ご紹介させていただきました。 このブログの中で、Glue Workflowsの起動トリガーとして、2種類(イベントトリガー or スケジュ…

コードをあまり書かずにログファイルのParquet変換とパーティションキー設定を実現したい

サウナの水風呂はちょっと高めで長めに浸かりたい派の小菅です。 AWSリソースにおいては、「各種ログをS3に出力する」という機能が結構あり設定されている方も多いと思います。 その各種ログをAthenaで分析したい!そのためにテーブル化される方も多いと思い…

【後編】AWS Glue ETLジョブから Amazon S3 Tables 上の Apache Iceberg テーブルにアクセスしてみる

(前編はこちら) こんにちは。荒井です。 前回の記事では、Amazon S3 Tables 上に Apache Iceberg テーブルを作成し、Athena からクエリできるところ並びに Glue データカタログには登録されていないところまで確認しました。 この記事では、AWS Glue ETLジョ…

AuroraからRedshiftへのデータ収集パターン5選

はじめに 前提 データ収集パターン Redshift ZeroETL 構成イメージ 特徴 課金対象となる主な要素 前提・考慮事項 構成検討時のポイント 参考リンク Redshift FederatedQuery 構成イメージ 特徴 課金対象となる主な要素 前提・考慮事項 構成検討時のポイント …

AuroraからS3へのDMSを利用した継続的レプリケーション

はじめに 前提 AuroraMySQL情報 検証で使用するテーブル DMSセットアップ手順 ソースエンドポイント作成 ソースエンドポイント作成 ターゲットエンドポイント作成 レプリケーションデータ保存先S3バケット作成 IAMロール作成 IAMロールに権限をアタッチ ター…

AuroraからS3へのDBクラスターデータのエクスポート

はじめに 前提 AuroraMySQL情報 検証で使用するテーブル 本エントリーで触れないこと S3エクスポート実行手順 S3エクスポートタスク作成に必要なリソースの作成 DBクラスターデータ保存先S3バケットの作成 S3エクスポートが使用するIAMロールの作成 IAMロー…

Amazon AthenaとAWS Glueの料金体系をまとめてみた

こんにちは、エンタープライズクラウド課の加藤ゆです。 AthenaとGlueの料金ページを解読するのがつらかったので、まとめてみました。 なお当記事に記載する情報は、2023年3月1日現在のものです。 最新料金体系は記載の公式ドキュメントをご確認ください。 A…

GlueとAthenaワークグループのアクセス権限管理

こんにちは、クラウドインテグレーション部の加藤ゆです。 Athenaを利用してデータ検索を実施する際に、Athenaエディタを利用グループ毎で管理したいときや、裏で利用するGlueの実行権限を限定したいときはないでしょうか。 今回は、AthenaとGlueのアクセス…

AthenaとGlueを利用して、データソースへのSQLクエリ実行環境を準備する

こんにちは、CI2部の加藤ゆです。 Athenaを利用したデータ分析を実施するための環境準備作業をやっていきます。 Amazon Athena とは? AWS Glueとは? Glue Data Catalog Glueクローラ AthenaとGlueの関係 本記事でやること 前提条件 作業手順 1.Database…

Glue Studio Jupter Notebook を使うときは料金に気をつけて!

こんにちは、アプリケーションサービス部 ディベロップメントサービス2課の森田です。 当記事では Glue Studio Jupyter Notebook の料金について書いていきます。 ちょっと試しただけのつもりだったのですが、蓋を開けてみるととんでもない料金になっていま…

指定のファイル数がS3バケットに到達したらGlueジョブを実行させる方法

こんにちは!SRE2課 入倉です。 今回はEventBridgeを使ってS3バケットに指定した数のファイルがアップロードされたら、 Glueワークフローを起動させて、その中で指定したGlueジョブを実行する設定を試してみました。 構成 前提 設定 Glueワークフローの作成 …

AWS Glue Python Shell ジョブで CSV → Parquet 変換する ETL を実装する

はじめに こんにちは。アプリケーションサービス部 河野です。 最近 Glue の Python Shell ジョブを初めて触ったのですが、その際に検証した ETL 実装について備忘録として記載します。 検証では、以下処理を実行する単一の Python Shell ジョブを実装しまし…

AWS Glue Studioにてお気軽にGUIでETL

例のAWSデータレイクの本でお勉強がてら AWS Glueを開いていたら何やら「new!」としてAWS Glue Studioなる機能が追加されていたので実際に触ってみました。 aws.amazon.com 一言でいうと「AWS Glueの新しいビジュアルインタフェースで、利用者がAWS Glue ETL…

AWS GlueでS3に入っているデータを加工してみた

2017年12月から東京リージョンでも使用可能になったAWS Glue。データの加工や収集ができるともっぱらの噂ですが、どんなことに使えるんだろう・・・?ということで、S3に保存したデータを、Glueを使って加工してみました、というブログです。 はじめに 4月は…