2022/04/5

AWS Data Pipelineとは？利点や利用料金などを紹介

この記事の目次

AWSとは
AWS Data Pipelineとは
- 特徴
AWS Data Pipelineの利点
AWS Data Pipelineの料金
AWS Data PipelineとAmazon Simple Workflow Serviceの差
- シンプル
- スケーラブル
AWS Data Pipelineを活用しよう！

AWSとは

AWSというのは、Amazonから提供されている100種類以上のクラウドコンピューティングサービスのことを指します。正式名称を、Amazon Web Servicesといいます。クラウドコンピューティングというのは、インターネットを通じて、ストレージ・サーバー・データベース・ソフトウェアなどのコンピューターを使ったサービスを使用することです。クラウドコンピューティングならば、1台のパソコンとインターネット環境があれば、サーバーやストレージ、データベースを必要なだけ使用出来るのです。

AWS Data Pipelineとは

この記事では、Amazonから提供されているAWS Data Pipelineというサービスについて説明していきます。 AWS Data Pipelineというのは、AWSのあらゆるコンピューティングサービス、ストレージサービス、そしてオンプレミスなどのデータソースの間で、高い信頼の寄せられるデータ処理およびデータ移動の実行をすることを支援するWebサービスのことです。 AWS Data Pipelineを使用することで、保存されたユーザーのデータへと定期的にアクセスして、必要となるスケールのリソースで処理と変換を実行し、その結果をAmazon RDS、Amazon S3、Amazon EMR、Amazon DynamoDBといったAWSサービスへと効率的に転送することが出来るのです。

特徴

AWS Data Pipelineを利用することにより、耐障害性を持ち、繰り返しが可能で、高可用性を備えている、データ処理ワークロードの作成が簡単に出来るようになります。リソースの可用性を保証、タスク間の依存関係を管理、作業ごとの一時的なミスによる再試行およびタイムアウト、失敗を通知するシステムの構築などについての心配をする必要がありません。そしてAWS Data Pipelineを使うと、オンプレミスのデータ格納庫へと保管されるデータの移動および処理も出来るようになります。

AWS Data Pipelineの利点

AWS Data Pipelineを利用する上で、知っておきたい利点が幾つかあります。主に、信頼性が高い点、簡単に使用出来る点、柔軟性に富んでいる点、スケーラブルなシステムである点、透過的である点が挙げられます。 サービスを使いこなすためには、正しい知識を身につけて理解を深めることが大切です。それでは1つずつ説明していきます。

高い信頼性

AWS Data Pipelineでは、ユーザーがアクティビティ実行する際の耐障害性を高めるため、高可用性が備えられた分散型インフラストラクチャ上へと構築されています。アクティビティロジックもしくはデータソースで障害が生じた場合、AWS Data Pipelineは自動でアクティビティの再試行をします。失敗が何度も続く場合は、AWS Data Pipelineは失敗通知をAmazon SNS（Amazon Simple Notification Service）を経由して送信します。正常な実行、計画をしたアクティビティの遅れ、もしくは失敗に対し、通知がされるよう設定することが出来るのです。

使いやすさ

ドラッグアンドドロップにより操作することの出来るコンソールを使用しているので、簡単に素早くパイプラインの作成が出来ます。 よく使われる前提条件がサービスへと組み込まれているので、前提条件を使うためのロジックを追加する必要がありません。例えばAmazon S3バケットの名称と確認するファイルのパスを打ち込むだけで、Amazon S3ファイルが有るか否かを確認でき、後の作業はAWS Data Pipelineが行ってくれます。簡単にパイプラインを作成出来るツールだけでなく、AWS Data Pipelineにはパイプラインのテンプレートがあります。これらのテンプレートを使うことで、より複雑なパイプラインも簡単に作ることが出来ます。

柔軟性

スケジュールの設定、依存関係を追跡、エラーの処理などといった、AWS Data Pipelineの様々な機能を利用することが出来ます。 AWSから提供されている前提条件やアクティビティを使用したり、オリジナルのカスタム前提条件やアクティビティの記述をしたりすることも出来ます。要するに、AWS Data Pipelineの設定をして、Amazon EMRジョブ実行、データベースに対してのSQL クエリを直接実行、もしくはユーザーのデータセンターで稼働しているカスタムアプリケーションの実行などといったアクションが可能です。これによって、アプリケーションロジックをスケジュール設定して行うための手間をかけなくても、高性能なカスタムパイプラインを作り、データの処理や分析が出来るようになります。

スケーラブル

AWS Data Pipelineを利用すれば、1つのマシンへの送信も、多くのマシンへの送信も、シリアル送信も、パラレル送信も、どの場合でも作業は簡単です。 AWS Data Pipelineの柔軟性に富んだ設計によって、何千万ものファイル処理を、1つのファイルを処理するのと同じく簡単に行うことが出来ます。

透過的

ビジネスロジックの実行をする、コンピューティングリソースをコントロールする権利はユーザーの方にあるので、ロジック拡張やデバッグも難しくありません。さらに、実行ログの全体が自動でAmazon S3へと送信されるので、パイプラインで起こった事について永続的かつ細かなレコードを取得することが出来ます。

AWS Data Pipelineの料金

AWS Data Pipelineの料金は、ユーザーのアクティビティ、前提条件を実行するスケジュールの頻度、そして実行場所（オンプレミスもしくはAWS）に基づき請求されます。なお、AWS無料利用枠というものがあり、新規のユーザーはAWSで行う低頻度の前提条件3つ、低頻度のアクティビティ5つを毎月無料で利用することが出来ます。ちなみに、ここでいう低頻度というのは、実行するスケジュールが1日1回以下の物を指します。

AWS Data PipelineとAmazon Simple Workflow Serviceの差

AWS Data Pipelineとよく似た、Amazon Simple Workflow Serviceというサービスがあります。オリジナルでコーディングのされたプロセスオートメーションソフトウェアやワークフローソリューションの複雑さを無くすことの出来るWebサービスです。ここでは、Amazon Simple Workflow ServiceとAWS Data Pipelineの差について知るため、Amazon Simple Workflow Serviceの利点を簡単に紹介していきます。

シンプル

Amazon Simple Workflow Serviceの特徴として、シンプルであるという点が挙げられます。 プロセスオートメーションの基本であるインフラストラクチャの管理を開発者がしなくてもよくなるので、独自のアプリケーションの開発へと集中することが出来ます。

スケーラブル

Amazon Simple Workflow Serviceでは、アプリケーションを使用する状況に応じて、処理する規模の拡大および縮小が出来ます。 クラウドワークフローがアプリケーションに追加されたり、ワークフローが複雑化していったとしても、ワークフローサービスを手作業で管理する必要が無いのです。

AWS Data Pipelineを活用しよう！

この記事では、AWS Data Pipelineについての説明をしてきました。 AWS Data Pipelineは、特定の手順に特化しているので、プログラミングやコーディングの知識が無くても、ワークフロー定義の作成を簡単にすることが出来ます。 AWS Data Pipelineの利点や使用方法を理解することで、効率の良い作業が出来るようになります。興味を持たれた方は、是非ともAWS Data Pipelineを実際に活用してみて下さい。]]>

この記事の監修者・著者

株式会社オープンアップITエンジニア

未経験からITエンジニアへのキャリアチェンジを支援するサイト「キャリアチェンジアカデミー」を運営。これまで4500人以上のITエンジニアを未経験から育成・排出してきました。
・AWS、salesforce、LPICの合計認定資格取得件数：2100以上（2023年6月時点）
・AWS Japan Certification Award 2020 ライジングスター of the Year 受賞