1. データマスキングの概念
データマスキングは、データマスキングとも呼ばれます。これは、携帯電話番号、銀行カード番号などの機密データを、マスキングルールとポリシーに基づいて変換、変更、または隠蔽する技術的な手法です。この手法は主に、機密データが信頼性の低い環境で直接使用されるのを防ぐために使用されます。
データマスキングの原則:データマスキングは、元のデータ特性、ビジネスルール、データの関連性を維持し、その後の開発、テスト、データ分析がマスキングの影響を受けないようにする必要があります。マスキングの前後でデータの一貫性と妥当性を確保してください。
2. データマスキングの分類
データ マスキングは、静的データ マスキング (SDM) と動的データ マスキング (DDM) に分けられます。
静的データマスキング(SDM)静的データマスキングでは、本番環境から分離するために、新たに非本番環境データベースを構築する必要があります。機密データは本番環境データベースから抽出され、非本番環境データベースに保存されます。これにより、機密性が低減されたデータは本番環境から分離され、ビジネスニーズを満たし、本番環境データのセキュリティを確保します。
3. データマスキングソリューション
一般的なデータ マスキング スキームには、無効化、ランダム値、データ置換、対称暗号化、平均値、オフセットと丸めなどがあります。
無効化無効化とは、機密データの暗号化、切り捨て、または隠蔽を指します。この手法では通常、実際のデータが特殊記号(*など)に置き換えられます。操作は簡単ですが、ユーザーは元のデータの形式を知ることができず、後続のデータアプリケーションに影響を与える可能性があります。
ランダム値: ランダム値とは、機密データをランダムに置き換えることを指します(数字は数字に、文字は文字に、文字は文字に置き換えられます)。このマスキング方法は、機密データの形式をある程度保証し、後続のデータ適用を容易にします。人名や地名など、意味のある単語については、マスキング辞書が必要になる場合があります。
データの置換: データの置換は、特殊文字やランダム値を使用する代わりに、マスキング データが特定の値に置き換えられることを除いて、null 値やランダム値のマスキングに似ています。
対称暗号化対称暗号化は、特殊な可逆マスキング手法です。暗号鍵とアルゴリズムを用いて機密データを暗号化します。暗号文の形式は、元のデータと論理規則に基づいて整合性を保ちます。
平均平均法は統計的な場面でよく用いられます。数値データの場合、まず平均値を計算し、次に平均値の周囲に感度を下げた値をランダムに分布させることで、データの合計を一定に保ちます。
オフセットと丸めこの手法は、デジタルデータをランダムシフトによって変更します。オフセットの丸めにより、データのセキュリティを維持しながら範囲のおおよその信頼性を確保します。これは従来の手法よりも実際のデータに近くなるため、ビッグデータ分析のシナリオにおいて大きな意義を持ちます。
推奨モデルML-NPB-5660データマスキング
4. よく使われるデータマスキング手法
(1)統計手法
データサンプリングとデータ集約
- データ サンプリング: データ セットの代表的なサブセットを選択して元のデータ セットを分析および評価することは、匿名化技術の有効性を向上させる重要な方法です。
- データ集約: マイクロデータの属性に適用される統計手法 (合計、カウント、平均、最大、最小など) の集合として、結果は元のデータセット内のすべてのレコードを表します。
(2)暗号
暗号化は、感度を低下させたり、感度低下の効果を高めたりするための一般的な方法です。暗号化アルゴリズムの種類によって、感度低下の効果は異なります。
- 決定論的暗号化:ランダム性のない対称暗号化。通常はIDデータを処理し、必要に応じて暗号文を復号して元のIDに復元できますが、鍵は適切に保護されている必要があります。
- 不可逆暗号化:ハッシュ関数はデータ処理に使用され、通常はIDデータに使用されます。ハッシュ関数は直接復号することはできず、マッピング関係を保存する必要があります。また、ハッシュ関数の特性上、データ衝突が発生する可能性があります。
- 準同型暗号:暗号文準同型アルゴリズムを使用します。暗号文演算の結果が復号後の平文演算の結果と同じになるという特徴があります。そのため、数値フィールドの処理によく使用されますが、パフォーマンス上の理由から広く使用されているわけではありません。
(3)システム技術
抑制技術は、プライバシー保護の要件を満たさないデータ項目を削除または保護しますが、公開はしません。
- マスキング: 対戦相手の番号、ID カードにアスタリスクを付ける、住所を切り捨てるなど、属性値をマスクする最も一般的な感度低下方法を指します。
- ローカル抑制: 特定の属性値 (列) を削除し、不要なデータ フィールドを削除するプロセスを指します。
- レコード抑制: 特定のレコード (行) を削除し、不要なデータ レコードを削除するプロセスを指します。
(4)仮名技術
擬似名化とは、直接的な識別子(またはその他の機密性の高い識別子)を仮名で置き換える匿名化技術です。擬似名化技術は、直接的な識別子や機密性の高い識別子の代わりに、個々の情報主体に固有の識別子を作成します。
- 元の ID に対応するランダム値を独立して生成し、マッピング テーブルを保存し、マッピング テーブルへのアクセスを厳密に制御できます。
- 暗号化を使用して仮名を作成することもできますが、復号化キーを適切に保管する必要があります。
このテクノロジは、オープン プラットフォーム シナリオの OpenID など、多数の独立したデータ ユーザーが存在する場合に広く使用されています。このような場合、異なる開発者が同じユーザーに対して異なる Openid を取得します。
(5)一般化技術
一般化技術とは、データセット内の選択された属性の粒度を下げ、より一般化され抽象的なデータ記述を提供する匿名化技術を指します。一般化技術は実装が容易で、レコードレベルのデータの真正性を保護することができます。データ製品やデータレポートでよく使用されます。
- 丸め: 選択した属性の丸め基準を選択します。たとえば、上方または下方フォレンジックなどです。結果は 100、500、1K、10K になります。
- 上限と下限のコーディング手法: 閾値を超える(または下回る)値を、上限(または下回る)レベルを表す閾値に置き換え、「X を超える」または「X を下回る」という結果を生成します。
(6)ランダム化手法
匿名化技術の一種であるランダム化技術は、属性の値をランダム化によって変更し、ランダム化後の値が元の実際の値と異なるようにすることを指します。このプロセスにより、攻撃者が同じデータレコード内の他の属性値から属性値を導出する能力は低下しますが、結果として得られるデータの信頼性には影響を及ぼします。これは、本番環境のテストデータでよく見られる現象です。
投稿日時: 2022年9月27日