1。データマスキングの概念
データマスキングは、データマスキングとも呼ばれます。マスキングのルールとポリシーを提供したときに、携帯電話番号、銀行カード番号、その他の情報などの機密データを変換、変更、またはカバーするための技術的な方法です。この手法は、主に信頼性の低い環境で機密データが直接使用されるのを防ぐために使用されます。
データマスキングの原則:データマスキングは、元のデータ特性、ビジネスルール、およびデータ関連性を維持し、その後の開発、テスト、およびデータ分析がマスキングの影響を受けないようにする必要があります。マスキングの前後にデータの一貫性と妥当性を確保します。
2。データのマスキング分類
データマスキングは、静的データマスキング(SDM)および動的データマスキング(DDM)に分けることができます。
静的データマスキング(SDM):静的データマスキングには、生産環境から分離するために、新しい非生産環境データベースの確立が必要です。機密データは、生産データベースから抽出され、非生産データベースに保存されます。このようにして、脱感作データは生産環境から分離され、ビジネスニーズを満たし、生産データのセキュリティを保証します。
3。データマスキングソリューション
一般的なデータマスキングスキームには、無効化、ランダム値、データ置換、対称暗号化、平均値、オフセット、丸めなどが含まれます。
無効化:無効化とは、機密データの暗号化、切り捨て、または隠すことを指します。このスキームは通常、実際のデータを特別なシンボル( *など)に置き換えます。操作は簡単ですが、ユーザーは元のデータの形式を知ることができず、後続のデータアプリケーションに影響を与える可能性があります。
ランダム値:ランダムな値とは、機密データのランダム置換を指します(数字は数字を置き換え、文字を置き換え、文字が文字を置き換える)を指します。このマスキング方法は、機密データの形式をある程度保証し、その後のデータアプリケーションを促進します。人や場所の名前など、いくつかの意味のある単語には、マスキング辞書が必要になる場合があります。
データ置換:データ置換は、特殊文字やランダム値を使用する代わりに、マスキングデータが特定の値に置き換えられることを除いて、NULL値とランダム値のマスキングに似ています。
対称暗号化:対称暗号化は、特別な可逆的なマスキング方法です。暗号化キーとアルゴリズムを介して機密データを暗号化します。 Ciphertext形式は、論理ルールの元のデータと一致しています。
平均:平均スキームは、統計シナリオでよく使用されます。数値データの場合、最初にそれらの平均を計算し、次に平均の周りに脱感作値をランダムに分配し、データの合計を一定に保ちます。
オフセットと丸め:この方法は、ランダムシフトによってデジタルデータを変更します。オフセットの丸めは、以前のスキームよりも実際のデータに近いデータのセキュリティを維持しながら、範囲の近似信頼性を保証し、ビッグデータ分析のシナリオで非常に重要です。
推奨モデル」ML-NPB-5660「データマスキングの場合
4.一般的に使用されるデータマスキング手法
(1)。統計技術
データサンプリングとデータ集約
- データサンプリング:データセットの代表的なサブセットを選択して、元のデータセットの分析と評価は、識別技術の有効性を改善するための重要な方法です。
- データの集約:マイクロダタの属性に適用される統計的手法(合計、カウント、平均化、最大および最小など)のコレクションとして、結果は元のデータセットのすべてのレコードを表しています。
(2)。暗号化
暗号化は、脱感作の有効性を脱感作または強化する一般的な方法です。異なるタイプの暗号化アルゴリズムは、異なる脱感作効果を達成できます。
- 決定論的暗号化:非ランダム対称暗号化。通常、IDデータを処理し、必要に応じてciphertextを元のIDに復号化および復元できますが、キーを適切に保護する必要があります。
- 不可逆的な暗号化:ハッシュ関数は、通常IDデータに使用されるデータの処理に使用されます。直接復号化することはできず、マッピング関係を保存する必要があります。さらに、ハッシュ関数の特徴により、データの衝突が発生する可能性があります。
- 同型暗号化:暗号文化均質アルゴリズムが使用されます。その特徴は、暗号文操作の結果は、復号化後のプレーンテキスト操作の結果と同じであるということです。したがって、数値フィールドを処理するために一般的に使用されますが、パフォーマンス上の理由では広く使用されていません。
(3)。システムテクノロジー
抑制技術は、プライバシー保護を満たさないが公開していないデータ項目を削除またはシールドします。
- マスキング:対戦相手番号など、属性値をマスクする最も一般的な脱感作方法を指し、IDカードにアスタリスクがマークされているか、アドレスが切り捨てられます。
- 局所抑制:特定の属性値(列)を削除し、必須のデータフィールドを削除するプロセスを指します。
- 記録抑制:特定のレコード(行)の削除、非必須データレコードの削除プロセスを指します。
(4)。仮名技術
擬似マンニングは、仮名を使用して直接識別子(またはその他の感受性識別子)を置き換える脱同意法です。仮名手法は、直接的または機密識別子ではなく、個々の情報主題ごとに一意の識別子を作成します。
- 元のIDに対応するために独立してランダム値を生成し、マッピングテーブルを保存し、マッピングテーブルへのアクセスを厳密に制御できます。
- 暗号化を使用して仮名を生成することもできますが、復号化キーを適切に保つ必要があります。
このテクノロジーは、オープンプラットフォームシナリオのOpenIDなど、多数の独立したデータユーザーの場合に広く使用されています。これは、異なる開発者が同じユーザーに対して異なるOpenIDを取得します。
(5)。一般化技術
一般化手法とは、データセット内の選択された属性の粒度を低下させ、データのより一般的かつ抽象的な説明を提供する脱同調手法を指します。一般化テクノロジーは実装が容易であり、レコードレベルのデータの信頼性を保護できます。一般的にデータ製品またはデータレポートで使用されます。
- 丸め:上向きまたは下向きのフォレンジックなど、選択した属性の丸めベースを選択することを含み、結果100、500、1K、および10Kを生成します
- 上部と下部のコーディング手法:上(または下)の値を、しきい値を上部(または下部)レベルを表すしきい値に置き換え、「上記のx」または「x以下」の結果をもたらします
(6)。ランダム化手法
一種の識別技術として、ランダム化技術とは、ランダム化による属性の値を変更することを指し、ランダム化後の値は元の実際の値とは異なります。このプロセスにより、攻撃者が同じデータレコード内の他の属性値から属性値を導出する能力が低下しますが、生産テストデータに共通する結果のデータの信頼性に影響します。
投稿時間:Sep-27-2022