数据安全实践:能力体系、产品实现与解决方案
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.4 文本内容识别

为预防数据丢失,无论数据的存储、复制或传输位置在哪里,都必须准确地检测所有类型的敏感数据。如果无法进行准确的内容识别,数据安全系统就会生成许多误报(将并未违规的消息或文件标识为违规)以及漏报(未将违规的消息或文件标识为违规)。误报会因进一步调查和解决明显事故而耗费大量的时间和资源。漏报会掩盖安全漏洞,导致数据丢失、潜在财务损失、法律风险,并有损组织声誉。

基于内容的深度识别是数据安全最基本的识别引擎,关注数据细粒度的深度识别,支持识别数百种文件格式以及多种协议和应用,采用关键字、数据字典、正则表达式、数据标识符等基础匹配方法,并结合精确数据匹配(Exact Data Matching,EDM)、索引数据匹配(Index Data Matching,IDM)、向量机学习(Vector Machine Learning,VML)等高级比对方法,实现高质量、高性能的识别和匹配。

智能学习引擎使用自然语言处理(Natural Language Processing,NLP)和文本分类算法,采用人工智能理论和机器学习技术,构造出能够理解和识别内容的学习工具,帮助用户对关键数据进行有针对性的聚类和分类。同时支持光学字符识别(Optical Character Recognition,OCR)技术,能够提取图片中的文字信息进行敏感信息识别和分类,进而自动进行网络图片的监控和过滤。

基础匹配方法采用常规的检测技术进行内容搜索和匹配,比较常用的有正则表达式和关键字,这两种方法可以对明确的敏感信息内容进行检测。文档属性检测主要是针对文档的类型、大小、名称进行检测,其中文档类型检测是基于文件格式进行检测,不是简单的基于后缀名检测。对于修改后缀名的场景,文件类型检测可以准确地检测出被检测文件的类型,并且可以通过自定义特征识别特殊文件类型格式的文档。

高级比对方法中,EDM用于保护通常为结构化格式的数据,例如客户或员工数据库记录。IDM和VML用于保护非结构化的数据,例如Microsoft Word或PowerPoint文档。对于EDM、IDM、VML而言,敏感数据会先由企业标识出来,然后由数据防泄露(DLP)判别其特征,以进行精准的持续检测。判别特征的流程包括DLP访问和检索文本及数据,予以归一化,并使用不可逆的打乱方式进行保护。