ニュース - ネットワークパケットブローカーによるデータ最適化のためのネットワークパケット重複排除

データ重複排除は、ストレージ容量を最適化する、広く普及しているストレージテクノロジです。データセットから重複データを削除し、コピーを 1 つだけ残すことで冗長データを排除します。下の図に示すように、このテクノロジにより、増大するデータストレージの需要を満たすために必要な物理ストレージスペースを大幅に削減できます。重複排除テクノロジには、主に次の側面を含む多くの実用的な利点があります。

（1）	ROI (投資収益率)/TCO (総所有コスト) 要件を満たします。
（2）	データの急速な増加を効果的に制御できます。
（3）	有効なストレージスペースを増やし、ストレージ効率を向上させます。
（4）	総ストレージコストと管理コストを節約します。
（5）	データ転送のネットワーク帯域幅を節約します。
（6）	スペース、電源、冷却などの運用および保守コストを節約します。

重複排除技術は、データのバックアップやアーカイブシステムで広く利用されています。これは、データの複数回のバックアップ後に大量の重複データが発生するため、この技術に非常に適しているためです。実際、重複排除技術は、オンラインデータ、ニアラインデータ、オフラインデータストレージシステムなど、様々な状況で活用できます。ファイルシステム、ボリュームマネージャー、NAS、SANに実装できます。また、データ圧縮技術はデータのパッケージ化に使用できるため、重複排除はデータの災害復旧、データ転送、同期にも使用できます。重複排除技術は、多くのアプリケーションにおいて、データストレージの削減、ネットワーク帯域幅の節約、ストレージ効率の向上、バックアップウィンドウの短縮、コスト削減に役立ちます。

重複排除には、重複排除率とパフォーマンスという 2 つの主要な側面があります。重複排除パフォーマンスは特定の実装テクノロジに依存しますが、重複排除率は、次の表に示すように、データ自体の特性とアプリケーションパターンによって決まります。現在、ストレージベンダーは、20:1 から 500:1 の範囲の重複排除率を報告しています。

高い重複排除率	重複排除率が低い
ユーザーが作成したデータ	自然界からのデータ
データの変化率が低い	データの変化率が高い
参照データ、非アクティブデータ	アクティブデータ
低データ変更率アプリケーション	データ変更率の高いアプリケーション
完全なデータバックアップ	増分データバックアップ
データの長期保存	データの短期保存
幅広いデータアプリケーション	データアプリケーションの範囲が狭い
継続的なデータビジネス処理	一般データ業務処理
小規模データのセグメンテーション	ビッグデータのセグメンテーション
細長いデータセグメンテーション	固定長データセグメンテーション
認識されたデータ内容	データ内容不明
時間データ重複排除	空間データ重複排除

重複排除の実装ポイント

Dedupe テクノロジーを開発または適用する際には、パフォーマンスと有効性に直接影響するさまざまな要素を考慮する必要があります。

（1）	何	どのデータが重み付け解除されますか?
（2）	いつ	いつになったら体重は減るのでしょうか？
（3）	どこ	減量はどこにありますか？
（4）	どうやって	体重を減らすにはどうすればいいですか?

重複排除の主要技術

ストレージシステムの一般的な重複排除プロセスは次のとおりです。まず、データファイルがデータのセットに分割され、各データブロックのフィンガープリントが計算されます。次に、フィンガープリントのハッシュ検索キーワードに基づいて、一致するデータが重複データブロックであることを示します。一致する場合は、データブロックのインデックス番号のみが格納されます。一致しない場合は、データブロックが新しい唯一の部分であることを意味し、データブロックを保存して、関連するメタ情報を作成します。したがって、ストレージシステム内の物理ファイルは、FP メタデータセットの論理表現に対応します。ファイルを読み取るときは、最初に論理ファイルを読み取り、次に FP シーケンスに従って、ストレージシステムから対応するデータブロックを取り出し、物理ファイルのコピーを復元します。上記のプロセスから、重複排除の主要テクノロジには、主にファイルデータブロックの分割、データブロックのフィンガープリントの計算、およびデータブロックの取得が含まれることがわかります。

（1）ファイルデータブロックのセグメンテーション

（２）データブロックのフィンガープリント計算

（３）データブロックの取得