Azure Data Factoryで共用体でデータを連結する方法

はじめに
1. 共用体アクティビティとは？
2. 主な機能
データ内容
1. 想定結果
設定手順
まとめ

はじめに

異なるデータソースからのデータを一つにまとめることは、データ分析やビジネスインテリジェンスにおいて不可欠です。
本記事では、Azure Data Factoryを使用して、共用体(union)を利用してデータを連結する方法について詳しく説明します。
これにより、複数のデータセットを効率的に統合し、分析に役立てることができます。

共用体アクティビティとは？

複数のデータストリームを一つにまとめるための変換アクティビティです。
このアクティビティを使用すると、異なるデータソースからのデータを結合し、単一の出力として処理することができます。

主な機能

複数のデータストリームを結合: Unionアクティビティは、SQLのUnion操作と同様に、複数のデータストリームを一つにまとめます。これにより、異なるデータソースからのデータを統合することができます。
スキーマの自動統合: 各入力ストリームのスキーマが自動的に統合されるため、共通の結合キーを持つ必要がありません。
柔軟な設定: Unionアクティビティでは、名前による結合（union by name）や位置による結合（union by position）を選択できます。名前による結合では、各カラムの値が対応するカラムに配置され、位置による結合では、各カラムの値が元の位置に配置されます。

単純にくっつけるだけだし、設定箇所が少ない！

データ内容

今回使う入力データの内容は以下の通り。

データの内容

連結する source.csv と target.csv です。基本的に同じ列定義で、source.csv の下に target.csv を単純にくっつけるイメージ。
本記事では、このデータを例にして、ADFでの連結方法を説明します。

source.csv

type	base	date	output
A	X	2024/12/01	150
B	Y	2024/12/02	200

target.csv

type	base	date	output
A	X	2024/12/01	100
C	Z	2024/12/03	300

想定結果

source.csv に対して、target.csv のデータを連結するだけです。
ほんと単純にくっつけただけですね。

type	base	date	output
A	X	2024/12/01	150
B	Y	2024/12/02	200

A	X	2024/12/01	100
C	Z	2024/12/03	300

設定手順

1. データセットの作成

ADFポータルにログインし、新しいデータセットを作成します。
source.csv と target.csv のデータセットをそれぞれ作成し、適切なリンクサービスを設定します。

データセットの作り方は以下の投稿で説明。

Azure Data Factoryで汎用的なデータセットの作り方 | 技術的なメモ書き

2. パイプラインの作成

新しいパイプラインを作成し、データフローアクティビティを追加します。
データフローの中で、ソースとして source.csv と target.csv を追加します。

3. 共用体アクティビティの設定

データフロー内で共用体アクティビティを追加し、source.csv と target.csv を連結します。
結合対象として「target」を選択します。

4. 出力データの確認

「データのプレビュー」でデータを確認します。

まとめ

Azure Data Factoryを使用して共用体(union)でデータを連結する方法について解説しました。
この手法を用いることで、異なるデータソースからのデータを効率的に統合し、分析に役立てることができます。
データ統合のプロセスを理解し、実践することで、ビジネスインテリジェンスの向上に繋がるでしょう。