1. データマスキングの概念
データマスキングは、データマスキングとも呼ばれます。これは、マスキングルールやポリシーが定められている場合に、携帯電話番号、銀行カード番号などの機密データを変換、変更、または隠蔽する技術的な手法です。この技術は主に、機密データが信頼性の低い環境で直接使用されることを防ぐために用いられます。
データマスキングの原則:データマスキングは、元のデータの特性、ビジネスルール、およびデータの関連性を維持し、その後の開発、テスト、およびデータ分析がマスキングの影響を受けないようにする必要があります。マスキングの前後でデータの一貫性と妥当性を確保してください。
2. データマスキングの分類
データマスキングは、静的データマスキング(SDM)と動的データマスキング(DDM)に分類できる。
静的データマスキング(SDM)静的データマスキングでは、本番環境から隔離するために、新しい非本番環境データベースを構築する必要があります。機密データは本番データベースから抽出され、非本番データベースに保存されます。このようにして、機密性を除去したデータは本番環境から隔離され、ビジネスニーズを満たし、本番データのセキュリティを確保します。
3. データマスキングソリューション
一般的なデータマスキング方式には、無効化、乱数、データ置換、対称暗号化、平均値、オフセットと丸めなどがあります。
無効化無効化とは、機密データの暗号化、切り捨て、または隠蔽を指します。この方式では通常、実際のデータを特殊記号(*など)に置き換えます。操作は簡単ですが、ユーザーは元のデータの形式を知ることができないため、後続のデータ利用に影響を与える可能性があります。
乱数値ランダム値とは、機密データをランダムに置換することを指します(数字は数字に、文字は文字に、記号は記号に置き換えられます)。このマスキング方法により、機密データの形式が一定程度維持され、その後のデータ処理が容易になります。人名や地名など、意味のある単語については、マスキング辞書が必要になる場合があります。
データ置換データ置換は、ヌル値やランダム値のマスキングと似ていますが、特殊文字やランダム値を使用する代わりに、マスキングデータが特定の値に置き換えられます。
対称暗号化対称暗号化は、特殊な可逆マスキング方式です。暗号鍵とアルゴリズムを用いて機密データを暗号化します。暗号文の形式は、論理的な規則において元のデータと一致します。
平均平均値を用いる方法は、統計的な場面でよく用いられます。数値データの場合、まず平均値を計算し、次に感度を下げた値を平均値の周りにランダムに分布させることで、データの合計値を一定に保ちます。
オフセットと丸めこの方法は、ランダムなシフトによってデジタルデータを変更します。オフセット丸めにより、データのセキュリティを維持しながら範囲のおおよその真正性が保証され、従来の方法よりも実際のデータに近く、ビッグデータ分析のシナリオにおいて大きな意義を持ちます。
推奨モデルML-NPB-5660データマスキングについて
4. 一般的に使用されるデータマスキング技術
(1)統計的手法
データサンプリングとデータ集計
- データサンプリング:データセットの代表的なサブセットを選択することによって元のデータセットを分析および評価することは、匿名化技術の有効性を向上させるための重要な方法です。
- データ集計:マイクロデータの属性に適用される統計的手法(合計、カウント、平均、最大値、最小値など)の集合として、結果は元のデータセットのすべてのレコードを代表するものとなります。
(2)暗号技術
暗号化は、情報漏洩に対する耐性を高める、あるいは耐性を高めるための一般的な手法である。様々な種類の暗号化アルゴリズムを用いることで、異なる耐性向上効果を得ることができる。
決定論的暗号化:非ランダムな対称暗号化方式。通常はIDデータを処理し、必要に応じて暗号文を復号して元のIDに復元できますが、鍵を適切に保護する必要があります。
- 不可逆暗号化:ハッシュ関数はデータの処理に使用され、通常はIDデータに用いられます。直接復号化することはできず、マッピング関係を保存する必要があります。また、ハッシュ関数の特性上、データの衝突が発生する可能性があります。
・準同型暗号化:暗号文準同型アルゴリズムが使用されます。その特徴は、復号後の暗号文演算結果が平文演算結果と同じになることです。そのため、数値フィールドの処理によく使用されますが、パフォーマンス上の理由から広くは使用されていません。
(3)システム技術
この抑制技術は、プライバシー保護の基準を満たさないデータ項目を削除または保護するが、公開はしない。
- マスキング:これは、対戦相手の番号、IDカードにアスタリスクを付けたり、住所を切り詰めたりするなど、属性値をマスキングする最も一般的な感度低下方法を指します。
- ローカル抑制:特定の属性値(列)を削除し、不要なデータフィールドを除去するプロセスを指します。
- レコードの削除:特定のレコード(行)を削除し、不要なデータレコードを削除するプロセスを指します。
(4)匿名技術
擬似匿名化とは、直接的な識別子(またはその他の機密性の高い識別子)を擬似名に置き換える匿名化技術です。擬似名技術は、直接的な識別子や機密性の高い識別子の代わりに、情報主体ごとに固有の識別子を作成します。
- 元のIDに対応するランダムな値を独立して生成し、マッピングテーブルを保存し、マッピングテーブルへのアクセスを厳密に制御できます。
- 暗号化を使用して仮名を作成することもできますが、復号鍵を適切に保管する必要があります。
この技術は、多数の独立したデータ利用者が存在する場合に広く利用されており、例えばオープンプラットフォームのシナリオにおけるOpenIDのように、異なる開発者が同じユーザーに対して異なるOpenIDを取得する場合などが挙げられます。
(5)一般化手法
一般化技術とは、データセット内の選択された属性の粒度を下げ、より一般的で抽象的なデータ記述を提供する匿名化技術のことです。一般化技術は実装が容易で、レコードレベルのデータの真正性を保護することができます。データ製品やデータレポートで一般的に使用されています。
- 丸め:選択した属性に対して丸め基準を選択することで、例えば上方または下方フォレンジックにより、100、500、1K、10Kといった結果が得られます。
- 上限と下限のコーディング手法:しきい値を超える値(または下回る値)を、上限(または下限)を表すしきい値に置き換え、「X以上」または「X以下」という結果を得ます。
(6)ランダム化手法
匿名化技術の一種であるランダム化技術とは、属性の値をランダム化によって変更し、ランダム化後の値が元の実際の値と異なるようにする技術を指します。このプロセスにより、攻撃者が同じデータレコード内の他の属性値から属性値を推測する能力は低下しますが、結果として得られるデータの信頼性に影響を与えるため、本番環境のテストデータでよく見られる問題となります。
投稿日時:2022年9月27日



