Amazon EC2 と Amazon EMR [終了] 質問する

Amazon EC2 と Amazon EMR [終了] 質問する

Hive にタスクを実装しました。現在、単一ノード クラスターで正常に動作しています。現在、AWS にデプロイする予定です。

AWS について何も知りません。導入する予定の場合、Amazon EC2 と Amazon EMR のどちらを選択すればよいでしょうか?

タスクのパフォーマンスを改善したいのですが、どれがより優れていて信頼できるのでしょうか? どのようにアプローチすればよいでしょうか? VM 設定を AWS にそのまま登録することもできると聞きました。可能でしょうか?

できるだけ早くご提案ください。

どうもありがとう。

ベストアンサー1

EMR は、Hadoop (およびオプションで Hive や Pig) がインストールおよび設定された EC2 インスタンスのコレクションです。クラスターを使用して Hadoop/Hive/Pig ジョブを実行する場合は、EMR が最適です。EMR インスタンスは、EC2 インスタンスに比べて少し余分にコストがかかります。今日の Amazon の価格をざっと確認すると、小さな EC2 インスタンスは 1 時間あたり 0.08 ドル、小さな EMR インスタンスは 1 時間あたり 0.015 ドルの追加料金がかかります。私の意見では、Hadoop (Hive および Pig も含む) のインストールとセットアップ、AMI の作成と保守、使用の手間を省くために、その追加料金を支払う価値は十分にあります。さらに、EMR の Hadoop および Hive バージョンには、Apache Hive では利用できない (少なくとも現時点では) パッチがいくつかあります。 EC2を使用する場合、おそらくApache HadoopとHive(またはClouderaディストリビューション)を使用しているため、それらのパッチ(S3のネイティブサポートや次のようなコマンドなど)にアクセスできません。ALTER TABLE my_table RECOVER PARTITIONS

参考文献:

おすすめ記事