この記事の目次
AWSとは

AWS Data Pipelineとは

特徴
AWS Data Pipelineを利用することにより、耐障害性を持ち、繰り返しが可能で、高可用性を備えている、データ処理ワークロードの作成が簡単に出来るようになります。 リソースの可用性を保証、タスク間の依存関係を管理、作業ごとの一時的なミスによる再試行およびタイムアウト、失敗を通知するシステムの構築などについての心配をする必要がありません。 そしてAWS Data Pipelineを使うと、オンプレミスのデータ格納庫へと保管されるデータの移動および処理も出来るようになります。AWS Data Pipelineの利点

高い信頼性
AWS Data Pipelineでは、ユーザーがアクティビティ実行する際の耐障害性を高めるため、高可用性が備えられた分散型インフラストラクチャ上へと構築されています。 アクティビティロジックもしくはデータソースで障害が生じた場合、AWS Data Pipelineは自動でアクティビティの再試行をします。失敗が何度も続く場合は、AWS Data Pipelineは失敗通知をAmazon SNS(Amazon Simple Notification Service)を経由して送信します。 正常な実行、計画をしたアクティビティの遅れ、もしくは失敗に対し、通知がされるよう設定することが出来るのです。使いやすさ
ドラッグアンドドロップにより操作することの出来るコンソールを使用しているので、簡単に素早くパイプラインの作成が出来ます。 よく使われる前提条件がサービスへと組み込まれているので、前提条件を使うためのロジックを追加する必要がありません。 例えばAmazon S3バケットの名称と確認するファイルのパスを打ち込むだけで、Amazon S3ファイルが有るか否かを確認でき、後の作業はAWS Data Pipelineが行ってくれます。 簡単にパイプラインを作成出来るツールだけでなく、AWS Data Pipelineにはパイプラインのテンプレートがあります。これらのテンプレートを使うことで、より複雑なパイプラインも簡単に作ることが出来ます。柔軟性
スケジュールの設定、依存関係を追跡、エラーの処理などといった、AWS Data Pipelineの様々な機能を利用することが出来ます。 AWSから提供されている前提条件やアクティビティを使用したり、オリジナルのカスタム前提条件やアクティビティの記述をしたりすることも出来ます。 要するに、AWS Data Pipelineの設定をして、Amazon EMRジョブ実行、データベースに対してのSQL クエリを直接実行、もしくはユーザーのデータセンターで稼働しているカスタムアプリケーションの実行などといったアクションが可能です。 これによって、アプリケーションロジックをスケジュール設定して行うための手間をかけなくても、高性能なカスタムパイプラインを作り、データの処理や分析が出来るようになります。スケーラブル
AWS Data Pipelineを利用すれば、1つのマシンへの送信も、多くのマシンへの送信も、シリアル送信も、パラレル送信も、どの場合でも作業は簡単です。 AWS Data Pipelineの柔軟性に富んだ設計によって、何千万ものファイル処理を、1つのファイルを処理するのと同じく簡単に行うことが出来ます。透過的
ビジネスロジックの実行をする、コンピューティングリソースをコントロールする権利はユーザーの方にあるので、ロジック拡張やデバッグも難しくありません。 さらに、実行ログの全体が自動でAmazon S3へと送信されるので、パイプラインで起こった事について永続的かつ細かなレコードを取得することが出来ます。AWS Data Pipelineの料金

AWS Data PipelineとAmazon Simple Workflow Serviceの差

シンプル
Amazon Simple Workflow Serviceの特徴として、シンプルであるという点が挙げられます。 プロセスオートメーションの基本であるインフラストラクチャの管理を開発者がしなくてもよくなるので、独自のアプリケーションの開発へと集中することが出来ます。スケーラブル
Amazon Simple Workflow Serviceでは、アプリケーションを使用する状況に応じて、処理する規模の拡大および縮小が出来ます。 クラウドワークフローがアプリケーションに追加されたり、ワークフローが複雑化していったとしても、ワークフローサービスを手作業で管理する必要が無いのです。AWS Data Pipelineを活用しよう!
