AWSデータ分析系入門ハンズオンをやってみた2 – Redshiftをさわってみた編


この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので十分ご注意ください。

この記事のざっくりとした内容

AWSが公開しているデータ分析サービスの入門ハンズオンをやってみたので、
振り返りの意味も込め、その時に行った手順などをまとめたものになります。

ハンズオン全体の手順

ハンズオン全体のおおまかな手順はこちら
また、本記事では全体のうち 手順 2 と 手順 3 で実施した手順を扱います

  1. Redshiftクラスターの作成
  2. Amazon Redshiftクラスターへのデータロード
  3. Amazon Redshift上でのクエリ実行
  4. Amazon QuickSightの事前セットアップ
  5. Amazon QuickSightでのデータ可視化
  6. リソースの削除

本記事では記載しない内容

全体手順のうち、本記事では扱わない内容についてご覧になりたい場合はこちらをご参照ください:

AWSデータ分析系入門ハンズオンをやってみた1 – Redshiftクラスター作成編

AWSデータ分析系入門ハンズオンをやってみた3 – QuickSightで可視化してみた編

本記事で記載する手順

  1. Amazon Redshiftクラスターへのデータロード
    2-1. S3バケットの作成
    2-2. データのアップロード
    2-3. Redshiftクラスターとの接続確認
    2-4. Redshift上のテーブル作成
    2-5. Redshiftへのデータロード実行
    2-6. データロード実行後の確認

  2. Amazon Redshift上でのクエリ実行
    3-1. クエリエディタを使用したSELECT文の実施 1
    3-2. クエリエディタを使用したSELECT文の実施 2

2. Amazon Redshiftクラスターへのデータロード

2-1. S3バケットの作成

S3コンソール > バケットを作成

バケット作成画面に進んだら…
・作成するバケット名を入力(任意)
・リージョンを選択(ハンズオン解説では東京リージョンを選択していました)
↑の入力および選択が完了したらバケットを作成 を押下

file

作成できました

file

2-2. データのアップロード

作成したバケットを選択 > アップロード > フォルダをアップロード

file

今回はハンズオンから提供されているデータの中からticketdbを選択し、アップロード

file

すべてのデータのアップロードが完了
※ アップロード完了までの時間は、環境やデータ量により変わります

file

2-3. Redshiftクラスターとの接続確認

コンソールからRedshiftクラスターとの接続確認を行う手順です

Redshiftコンソール画面左:エディタ > クエリエディタ

file

データベースに接続を押下

file

以下、画面の指示に従い入力後、接続を押下

設定項目 設定値
接続 新しい接続を作成
認証 一時的な認証情報
クラスター 作成したクラスターを選択
データベース名 dev
データベースユーザー awsuser

file

接続できました!

file

2-4. Redshift上のテーブル作成

クエリエディタを使用しRedshift上にテーブルを作成する手順です

やること:
 提供されているSQLデータを使用し、
 users,table,dateの3つのテーブルを作成

ここではハンズオンから提供されているSQL文をペーストしていきますが、
赤枠内には1つのSQLのみ実行可能なため、1つずつ実行する必要があります
※ 複数のSQLをつなげて実行は不可

file

usersテーブルを作成するSQLを赤枠内にペースト
実行するを押下

file

Completedになりました、usersテーブル作成完了です

file

※ table,dateテーブルも同様の手順にて作成します

2-5. Redshiftへのデータロード実行

S3にアップロードしたファイルをRedshiftのテーブルにCOPYコマンドでロード

提供されているデータ元にCOPYコマンドを実行しますが、
S3バケット名,ロールARNについては実際の値に置き換える必要があるので注意

users,date,sales、それぞれの内容を編集

file

usersの内容をペーストし、実行するを押下

file

クエリの実行が完了

file

※ テーブル作成時と同じく、table,dateも同様の手順にて実行します

2-6. データロード実行後の確認

データロードが問題なく実行されているか確認するため、
各テーブルの件数を確認するSQLを実行

これまでの手順と同様に提供されているデータからSQLをペーストし、実行するを押下

file

結果が出力されるので、件数(=count)に問題ないか確認

file

※ これまでの手順と同様に table,date も確認を行います

3. Amazon Redshift上でのクエリ実行

後述のするQuickSightを用いた可視化との対比の為、SELECT文にてクエリを実行

3-1. クエリエディタを使用したSELECT文の実施1

提供されているデータ元にSELECT文の実行

file

実行内容:2008年1月5日の総売り上げ量を確認する

file

3-2. クエリエディタを使用したSELECT文の実施2

提供されているデータ元にSELECT文の実行

file

実行内容:売上量TOP10を確認する

file

本記事での手順はこれにて完了です

つづきの手順

続いてQuickSightのセットアップ~可視化を行う手順にうつっていきます
AWSデータ分析系入門ハンズオンをやってみた3 – QuickSightで可視化してみた編をご参照ください

Last modified: 2024-02-06

Author