1. データマスキングの概念
データ マスキングはデータ マスキングとも呼ばれます。これは、マスキング ルールやポリシーを指定した場合に、携帯電話番号、銀行カード番号、その他の情報などの機密データを変換、変更、またはカバーする技術的方法です。この手法は主に、機密データが信頼性の低い環境で直接使用されるのを防ぐために使用されます。
データ マスキングの原則: データ マスキングでは、その後の開発、テスト、データ分析がマスキングの影響を受けないようにするために、元のデータの特性、ビジネス ルール、およびデータの関連性を維持する必要があります。マスキングの前後でデータの一貫性と有効性を確保します。
2. データマスキングの分類
データ マスキングは、静的データ マスキング (SDM) と動的データ マスキング (DDM) に分類できます。
静的データマスキング (SDM): 静的データ マスキングでは、実稼働環境から分離するための新しい非実稼働環境データベースの確立が必要です。機密データは実稼働データベースから抽出され、非実稼働データベースに保管されます。このようにして、機密保護を解除されたデータは実稼働環境から分離され、ビジネス ニーズを満たし、実稼働データのセキュリティが確保されます。
3. データマスキングソリューション
一般的なデータ マスキング スキームには、無効化、ランダム値、データ置換、対称暗号化、平均値、オフセットと丸めなどが含まれます。
無効化: 無効化とは、機密データの暗号化、切り捨て、または隠蔽を指します。このスキームは通常、実データを特殊記号 (* など) に置き換えます。操作は簡単ですが、元のデータの形式が分からないため、その後のデータ適用に影響を与える可能性があります。
ランダム値: ランダム値とは、機密データのランダムな置換を指します (数字は数字、文字は文字、文字は文字と置き換えられます)。このマスキング方法により、機密データの形式がある程度保証され、その後のデータ適用が容易になります。人名や場所の名前など、意味のある単語にはマスキング辞書が必要になる場合があります。
データの置き換え: データ置換は、特殊文字やランダム値を使用する代わりに、マスキング データが特定の値に置き換えられる点を除いて、NULL およびランダム値のマスキングに似ています。
対称暗号化: 対称暗号化は、特殊な可逆マスキング方法です。暗号化キーとアルゴリズムを通じて機密データを暗号化します。暗号文の形式は、論理ルールで元のデータと一致します。
平均: 平均スキームは統計シナリオでよく使用されます。数値データの場合、最初に平均を計算し、次に感度を下げた値を平均の周囲にランダムに分散することで、データの合計を一定に保ちます。
オフセットと丸め: デジタルデータをランダムシフトで変化させる方法です。オフセット丸めにより、データのセキュリティを維持しながら範囲の大まかな信頼性が保証され、以前のスキームよりも実際のデータに近くなり、ビッグデータ分析のシナリオで大きな意味を持ちます。
おすすめモデル』ML-NPB-5660「データマスキング用」
4. 一般的に使用されるデータマスキング手法
(1)。統計的手法
データのサンプリングとデータの集約
- データ サンプリング: データ セットの代表的なサブセットを選択することによる元のデータ セットの分析と評価は、匿名化技術の有効性を向上させる重要な方法です。
- データ集約: マイクロデータの属性に適用される統計手法 (合計、カウント、平均、最大値と最小値など) の集合として、結果は元のデータ セット内のすべてのレコードを表します。
(2)。暗号化
暗号化は、感作を解除したり、感作を解除する効果を高めるための一般的な方法です。暗号化アルゴリズムの種類が異なれば、異なる感度解除効果を実現できます。
- 決定的暗号化: 非ランダムな対称暗号化。通常は ID データを処理し、必要に応じて暗号文を復号して元の ID に復元できますが、キーは適切に保護する必要があります。
- 不可逆暗号化: データの処理には、通常 ID データに使用されるハッシュ関数が使用されます。直接復号化することはできないため、マッピング関係を保存する必要があります。また、ハッシュ関数の特性上、データの衝突が発生する可能性があります。
- 準同型暗号:暗号文準同型アルゴリズムが使用されます。特徴は、暗号文操作の結果が復号後の平文操作の結果と同じになることです。したがって、数値フィールドを処理するためによく使用されますが、パフォーマンス上の理由から広く使用されていません。
(3)。システム技術
抑制テクノロジーは、プライバシー保護を満たさないデータ項目を削除またはシールドしますが、公開はしません。
- マスキング: 相手の番号、ID カードにアスタリスクが付けられている、アドレスが切り捨てられているなど、属性値をマスクする最も一般的な感度を下げる方法を指します。
- ローカル抑制: 特定の属性値 (列) を削除し、必須ではないデータ フィールドを削除するプロセスを指します。
- レコードの抑制: 特定のレコード (行) を削除し、重要でないデータ レコードを削除するプロセスを指します。
(4)。ペンネームテクノロジー
シュードマニングは、直接識別子 (またはその他の機密識別子) を偽名を使用して置き換える匿名化手法です。仮名技術は、直接的な識別子や機密識別子ではなく、個々の情報主体ごとに一意の識別子を作成します。
- 元の ID に対応するランダムな値を独自に生成し、マッピング テーブルを保存し、マッピング テーブルへのアクセスを厳密に制御できます。
- 暗号化を使用して仮名を作成することもできますが、復号化キーを適切に保管する必要があります。
このテクノロジーは、異なる開発者が同じユーザーに対して異なる OpenID を取得する、オープン プラットフォーム シナリオにおける OpenID など、多数の独立したデータ ユーザーの場合に広く使用されています。
(5)。一般化テクニック
一般化技術とは、データ セット内で選択された属性の粒度を減らし、データのより一般的で抽象的な説明を提供する匿名化技術を指します。一般化テクノロジは実装が簡単で、レコードレベルのデータの信頼性を保護できます。データ製品やデータ レポートでよく使用されます。
- 丸め: 上向きまたは下向きのフォレンジックなど、選択した属性の丸め基準の選択が含まれ、結果は 100、500、1K、10K になります。
- 上位および下位のコーディング手法: しきい値の上 (または下) の値を上位 (または下位) レベルを表すしきい値に置き換え、「X より上」または「X より下」の結果を生成します。
(6)。ランダム化手法
匿名化技術の一種であるランダム化技術とは、ランダム化によって属性の値を変更し、ランダム化後の値が元の実際の値と異なるようにすることを指します。このプロセスにより、攻撃者が同じデータ レコード内の他の属性値から属性値を導出する能力は低下しますが、実稼働テスト データによく見られる、結果のデータの信頼性に影響します。
投稿日時: 2022 年 9 月 27 日