针对传统加密算法存在的弊端,我们提出了一种GBK格式保留的加密算法。

一、数据加密算法研究

经营分析系统中包含了大量的客户隐私数据,对于这些隐私数据的保护,可以借鉴其他行业应用系统的客户隐私数据保护所使用的以下儿种技术来进行实现。

(1)基于数据匿名化的技术

根据具体情况对部分数据进行匿名化处理,再有条件地发布信息。如:不发布数据的某些域值,对这些数据进行泛化处理。是一种不可逆的处理技术。在隐私披露风险和数据精度之间进行折中,有选择地发布敏感数据及可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。目前在电信行业普遍采用了一些匿名化处理技术,将部分涉及隐私的客户数据进行了匿名化处理。

(2)基于数据加密的技术

通过数据库产品自带的加密功能或者第三方独立的加密系统,把涉及隐私的客户数据信息通过加密算法转换为不可识别的密文信息。如果需要获取信息的明文信息,1可以将其转换为明文,就是解密过程。

常用的数据加密算法有对称加密、非对称加密和HASH算法几种。目前金融系统普遍采用这种方式对客户的敏感信息进行处理。

(3)基于数据失真的技术

使敏感数据失真但同时保持某些数据或属性不变的处理方法。例如,采用添加噪声、交换等技术对原始数据进行干扰处理,但要求保证处理后的数据仍然可以保持某些统计方面的性质,以便进行数据挖掘等操作。该技术是属于一种不可逆的处理,但可在所有添加、交换信息都是记录明确的情况下进行有条件的还原。

隐私数据保护技术需要在实现保护隐私信息的同时,兼顾对应用程序的价值和系统开销。通常从以下三方面对隐私数据保护技术进行度量评估。

(1)隐私保护度:通常通过发布数据的披露风险来反映,披露风险越小,隐私保护度越高。

(2)数据缺损:是数据保护质量的度量,它反映通过隐私保护技术处理后数据的信息丢失,数据缺损越高,信息丢失越多,数据利用率越低创具体的度最有:信息缺损、重构数据与原始数据的相似度等。

(3)算法性能:—般利用时间复杂度对算法性能进行度量。

依据上述各种技术评估方法,对现有的三类已被广泛采用的隐私数据保护技术进行对比。比对主要从隐私保护度、数据缺损度、性能开销等几个方面进行分析,比对结果如表l所示。

经营分析系统中格式保留加密算法的应用

用常用的加密算法对字符串进行加密后字符串的长度会因算法的不同或是密钥长度不同增加不同的长度。笔者以RC2加密方法为例说明,数据长度变化如表2。

经营分析系统中格式保留加密算法的应用

从上面统计数据可以看出,用RC2加密方法加密后,密文若是以1 6进制编码其长度将会是原字符串长度的4~8倍。即使使用较为紧凑的base64编码依然将会是字符串长度的3~4倍。而数据库中的原表字段定义的长度可能就无法满足密文需求n在数据入库的过程中可能出现字段长度溢出问题,而对数据库字段位长进行扩展,不仅浪费存储空间,也影响经分系统的正常使用。

总体来说,目前在各行业数据库所使用的去隐私化处理技术,或是“数据缺损”太严重,不利于还原,或是“计算开销”太高,消耗生产系统的计算资源太多。影响了对数据仓库中的所有涉及客户隐私的数据进行全面、高效的隐匿保护,本方案提出一种通过映射变换的方式,将涉及隐私的数据,根据映射规则一一映射成目标值,保存在数据库,数据库存的数据不涉及客户隐私信息,从而达到保护客户隐私的目的。在需要的时候也可以根据映射规则将去隐私化后的数据还原成包含隐私信息的原始数据。

二、技术实现方案

针对传统加密算法存在的弊端,提出一种基于格式保留的数据脱敏方法。经过分析,入库的隐私数据通常是一些客户信息,包括姓名、身份证号码、电话号码、通话行为等。此方法的构思是使用一种自定义的转换方法,对隐私字符串信息进行加扰处理。使其加扰后的密文长度,字段类型和原文相同,并且无法直接从密文中获取原文信息d为了增强数据脱敏方法的安全性,在算法中引入密钥元素,由密钥和脱敏方法共同决定加密结果。

从字符编码角度去考虑对字符串中每个字符进行转换,转换成字符集中的其他字符,并且保证过程可逆。此算法基于最基础的GB2312中文字符集,所以取名为GBK等长加密算法,该算法将英文和数字统一起来组成单字符区,而汉字作为宽字符区。对单字符区和宽字符区加密都采用“三段映射”方法。将GB2312中文编码集分为A、B、C等长的三段。首先规定A段区域类的字符的主映射区为B,从映射区为C;B段区域类的字符的主映射区为G从映射区为A;C段区域类的字符的主映射区为A,从映射区为Be若待加密的汉字字符z的GBK编码值在A段中。则获取z在A段中的位置。然后将字符串长度值和密钥的asc11码值求和再对段长取模得到偏移值。最后将np+op得到新字段最终的偏移量。从A段区域的主映射区B头部开始偏移np+op位。得到新字符M所在的编码位。此字符可能在B区间,也可能影射到了C区间。

对于单字符区域(由字母和数字组成),考虑方法和汉字处理方法思路一致d英文和数字组成一个集合,将集合分为A、B、C等长的三段。下面的处理方式和中文字符一致。对于标点符号不做处理直接返回。假设m字符在A区域中的编码位置如下。则转换后的密文字符编码位置即为如图l的位置。

经营分析系统中格式保留加密算法的应用

通过采用基于格式保留的算法对用户的隐私数据进行加密梳理,不但大大提高了数据入库的效率,同时数据库字段不需要扩位,不影响现有的数据处理流程,也节约了存储空间。

小知识之文件格式

文件格式(或文件类型)是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式。