HDFS における「ストリーミングデータアクセス」とはどういう意味ですか?

Question 1

ストリーミングとは、データがバーストまたは波状で入ってくるのではなく、データを転送するときに、特定のしきい値を超える一定のビットレートを提供できることを意味します。

HDFS がストリーミング用にレイアウトされている場合、一定のストリームのデータをキャッシュするために若干のオーバーヘッドが必要になりますが、おそらくシークは引き続きサポートされます。

もちろん、システムやネットワークの負荷によっては、シークに少し時間がかかる場合もあります。

Answer

ストリーミングとは、データがバーストまたは波状で入ってくるのではなく、データを転送するときに、特定のしきい値を超える一定のビットレートを提供できることを意味します。

HDFS がストリーミング用にレイアウトされている場合、一定のストリームのデータをキャッシュするために若干のオーバーヘッドが必要になりますが、おそらくシークは引き続きサポートされます。

もちろん、システムやネットワークの負荷によっては、シークに少し時間がかかる場合もあります。

Question 2

HDFS は、データを 64 MB などの大きなブロックに保存します。ハードドライブ上でデータを順番に配置することで、ハードドライブがデータを読み取るために行うシークの回数を減らすという考え方です。

さらに、HDFS はユーザー空間のファイルシステムであるため、クラスター全体のすべてのブロック (およびそのレプリカ) が保存されるメモリ内ディレクトリを含む単一の中央ネームノードが存在します。ファイルは大きくなることが予想され (たとえば 1 GB 以上)、複数のブロックに分割されます。ファイルを読み取るために、コードはネームノードにブロックのリストを要求し、ブロックを順番に読み取ります。

ドライブがこれらの大きなデータブロックに対して維持できる最大 I/O レートを維持することにより、データはハードドライブから「ストリーミング」されます。

Answer

HDFS は、データを 64 MB などの大きなブロックに保存します。ハードドライブ上でデータを順番に配置することで、ハードドライブがデータを読み取るために行うシークの回数を減らすという考え方です。

さらに、HDFS はユーザー空間のファイルシステムであるため、クラスター全体のすべてのブロック (およびそのレプリカ) が保存されるメモリ内ディレクトリを含む単一の中央ネームノードが存在します。ファイルは大きくなることが予想され (たとえば 1 GB 以上)、複数のブロックに分割されます。ファイルを読み取るために、コードはネームノードにブロックのリストを要求し、ブロックを順番に読み取ります。

ドライブがこれらの大きなデータブロックに対して維持できる最大 I/O レートを維持することにより、データはハードドライブから「ストリーミング」されます。

Question 3

ストリーミングデータ用Hadoop: 決定版ガイド、第 3 版:

HDFS は、最も効率的なデータ処理パターンは、一度書き込み、何度も読み取るパターンであるという考えに基づいて構築されています。データセットは通常、ソースから生成またはコピーされ、その後、時間の経過とともにそのデータセットに対してさまざまな分析が実行されます。各分析には、データセットのすべてではないにしても、大部分が含まれるため、データセット全体を読み取る時間の方が、最初のレコードを読み取る際の待ち時間よりも重要です。

Answer

ストリーミングデータ用Hadoop: 決定版ガイド、第 3 版:

HDFS は、最も効率的なデータ処理パターンは、一度書き込み、何度も読み取るパターンであるという考えに基づいて構築されています。データセットは通常、ソースから生成またはコピーされ、その後、時間の経過とともにそのデータセットに対してさまざまな分析が実行されます。各分析には、データセットのすべてではないにしても、大部分が含まれるため、データセット全体を読み取る時間の方が、最初のレコードを読み取る際の待ち時間よりも重要です。

HDFS における「ストリーミングデータアクセス」とはどういう意味ですか?

答え1

答え2

答え3

関連情報