长扬科技数盾数据湖安全防护方案:筑牢安全堤坝,护航数据流动
在当今时代,数据已成为与土地、劳动力、资本、技术并重的第五大生产要素。面对企业数据量的持续快速增长,如何高效存储海量数据并充分挖掘其价值,已成为亟需解决的核心问题。数据湖作为一种集中式存储架构,不仅为海量多模态数据提供了统一存储与管理的基础,也是实现“湖仓一体”现代化数据架构的关键支撑。正因如此,越来越多的企业正在或计划构建数据湖,以打破数据孤岛,推动跨场景的数据流通与共享,全面释放数据资产价值。
然而,集中存储也带来了新的安全挑战——数据湖在汇聚企业高价值数据的同时,也更容易成为攻击目标。数据泄露、越权访问、配置缺陷等安全风险显著增加,一旦发生安全事件,将对企业造成严重影响。因此,在推进数据湖建设的过程中,构建坚固的安全防线、保障数据在整个生命周期中的安全流动,已成为企业不可或缺的重要任务。
1. 数据湖概述
《孙子兵法》有云:“知战之地,知战之日,则可千里而会战”,又曰“不知山林、险阻、沮泽之形者,不能行军。”这些军事思想在当今社会实践中依然具有指导意义。数据湖的安全防护同样需要提前调研,明确保护对象,制定有针对性的策略。
1.1. 数据湖简介
数据湖是一种存储架构,用于存储大量结构化、半结构化和非结构化数据,数据湖通常与数据仓库配合使用,构建“湖仓一体”的现代数据架构,为企业提供全面的数据分析能力。
数据湖中的数据是原始数据,是业务数据的完整副本。数据湖中的数据保持了他们在业务系统中原来的样子。数据湖不光需要存储原始数据,还需要能够保存各类分析处理的结果。数据湖主要面向数据科学家、数据分析师、数据开发人员。为避免数据沼泽,一般会配套元数据管理、数据治理工具,同时为更好地为业务部门提供数据服务,还会基于数据湖建设BI分析的系统,数据湖、数据治理平台、数据BI系统共同构建了数据中台环境。
数据湖核心组件有存储层(Hadoop HDFS)、处理引擎(Spark、Flink)、元数据管理(记录数据的来源、格式和其他特征)、安全与访问控制(确保数据安全和合规性)等。
数据中台环境数据流转图
1.2 数据湖的业务价值
数据湖核心价值在于打破数据孤岛,支持多模态数据分析,赋能企业数据驱动决策,加速数据洞察与业务决策。
统一数据存储,打破数据孤岛
集中存储,将企业分散的结构化(数据库表)、半结构化(JSON、日志)和非结构化数据(文档、图片、视频)统一存储,将企业不同业务系统的数据集中存储,打破数据孤岛,便于业务数据关联分析。
低成本存储,可弹性扩展
数据湖通常基于HDFS或云存储,比传统数据仓库更经济,能够处理PB级或EB级数据,规模可横向弹性扩展,可适应企业数据增长需求。
支持多样化数据分析场景
支持SQL查询、大数据分析(Spark、Hadoop)、机器学习(TensorFlow、PyTorch)和实时流处理(Flink、Kafka),原始数据保留完整信息,适合AI/ML学习模型,提升预测分析能力。
2. 数据湖面临的安全挑战
数据湖作为集中存储各类业务数据的存储库,数据量大,业务价值高,面临着巨大的安全挑战:
2019年,美国领先的金融控股公司Capital One(第一资本)因AWS S3存储桶配置错误,被漏洞利用导致1.06亿美国用户和600万加拿大用户数据泄露,公司股价当日下跌6%,公司支付了8000万美元和解金;
2017年,美国电信巨头Verizon(威瑞森)因第三方供应商管理的AWS S3数据湖未设置访问控制,数据以明文的形式存储,导致Verizon 1400万客户记录(客户姓名、地址、账户PIN码)被泄露;
2017年,Deep Root Analytics(深根分析公司)因Amazon S3数据湖数据未保护,导致1.98亿美国选民数据(1.1TB)被泄露,造成“史上最大政治数据泄露”事件。
数据湖对接了很多系统的业务数据,其中很多数据为高敏感数据,如人事薪资数据、业务经营财务数据等,海量数据集中存储,数据业务价值高,很容易成为不法分子的窃取目标,数据一旦泄露后果非常严重。当下企业数据湖安全主要存在如下问题:
数据湖安全分级分类不清: 业务人员往往不了解数据湖的安全要求,无法识别所接触数据是否涉密;
数据湖安全管控体系缺失: 企业缺乏统一的数据资产管控机制,跨部门数据获取困难;
数据湖缺少统一的安全管控技术措施: 企业未对数据湖的使用、查询数据等操作行为进行技术管控、行为监测及操作审计;
数据湖核心数据的未加密存储、开发环境下的数据副本缺少脱敏手段: 未对拖库、DBA越权、开发人员使用数据等场景实施有效保护。
在数字化建设过程中,不同领域业务数据将逐步汇聚到数据湖中,如何兼顾合规性及可用性,确保数据安全有序流通共享成为企业亟待解决的难题。除需满足《数据安全法》等合规监管要求外,更重要的是要建立一套面向数据湖的安全分类分级标准规范、数据安全配套管理制度以及数据湖安全防护工具。
3. 长扬科技数盾数据湖安全防护方案
长扬科技数盾数据湖安全防护方案遵循"规划先行、分步实施、持续运营"原则,通过系统的前期调研、目标制定与技术落地,为企业客户构建覆盖数据全生命周期的纵深防护体系。该方案高度统筹技术措施与管理流程,能够有效确保客户安全防护与业务发展相互促进,最终形成其可持续演进的数据安全保护能力。
3.1 前期调研与风险评估
数据湖安全防护的前期调研与风险评估是一个系统性工程,其核心在于全面摸底。在该阶段,长扬科技从业务、数据、管理、技术四个维度切入,深入调研企业客户业务场景、数据流、核心系统、现有管理制度及IT网络环境,并基于数据全生命周期进行分析。通过系统性地识别安全现状与理想目标之间的技术及管理差距,评估各项措施的实际可落地性,为制定科学、合规、可执行的安全建设方案提供坚实依据。
数据安全业务场景调研图
3.2 安全目标与建设规划
基于前期调研结果,长扬科技帮助客户制定分层级的安全建设目标体系。基础防护目标着重实现统一访问控制、敏感数据加密和基本操作审计等核心能力;增强防护目标则致力于建立完善的数据分类分级体系、动态访问控制和异常行为监测机制;先进防护目标着眼于形成智能风险预警、自动化响应和数据安全运营体系。这些目标需要根据企业的实际业务需求和风险承受能力,制定合理的实施优先级和推进计划。
3.3 技术防护体系部署
在技术部署层面,长扬科技数盾数据湖安全防护方案有效形成了“监测-预警-处置-审计”的闭环机制,实现从数据接入、存储到使用全程的可控可溯:
数据安全建设方案图
数据湖只对数盾数据安全管控平台开放,不向互联网或内网开放,收敛了数据资产暴露面。所有进出数据湖的行为都需经过数据安全管控平台,执行强管控与全面审计监测,审计粒度可到SQL及字段级别。长扬科技数据盾数据安全管控平台构筑了数据湖安全堤坝,有效降低了数据滥用、泄露的风险。
湖仓一体的大数据仓库及传统数据库都通过数盾数据加密系统进行加密存储,通过加解密任务对数据进行最后一层的安全防护,有效降低了数据被拖库、勒索的风险。
通过长扬科技数盾数据安全综合审计系统,可实现数据资产访问行为全面审计与溯源,支持对数据治理平台所发布的数据产品或者FineReport发布的报表数据的访问行为的审计,为业务责任人和业务责任部门提供数据资产管理技术工具。
表:长扬科技数盾数据安全产品价值表
这种体系化作战模式不仅提升了防护的实时性和主动性,更通过动态策略调整与持续运营优化,为企业数据湖构建起纵深防御体系,确保数据安全与业务发展协同并进。
3.4 全生命周期数据安全服务
长扬科技依据国内外标准和行业监管要求,针对企业数字化转型中的数据要素发展需求,为行业客户提供涵盖数据安全体系咨询规划、数据安全分类分级咨询、数据安全风险评估等全方位服务。通过“认识数据,了解数据,保护数据”的递进式方法,帮助企业建立数据分类分级保护基础制度。
依托完整的数据安全产品线及专业的数据安全技术研发团队,公司不仅可满足企业客户针对数据访问控制、数据脱敏、数据加密存储、数据安全审计、数据流转监测等的单一场景需求,更融合零信任等前沿理念与技术,为客户提供创新、综合的数据安全解决方案,实现从咨询到技术落地的全程护航。
3.5 方案价值
实现数据资产可视可控
帮助企业全面掌握数据分布与使用状况,建立敏感数据资产目录,实现数据分类分级管理与精细化权限控制,为数据安全使用奠定基础。
构建纵深安全防御体系
通过多层技术措施与协同联防,有效抵御内部越权、外部攻击、数据滥用及勒索窃取等多种安全威胁,显著降低数据泄露风险。
全面满足合规监管要求
依据《数据安全法》《个人信息保护法》等法律法规,提供完备的技术与管理措施,支撑安全审计与合规检查,助力企业合规经营。
保障数据安全有序流动
在安全可控的前提下,促进数据在内部及外部合作中的高效共享与利用,赋能数据分析、业务协同与创新,释放数据要素价值。
提升安全运营能力成熟度
建立可持续改进的数据安全运营机制,实现常态化监测、预警、响应和优化,形成与业务发展相适应的主动防御能力。
夯实业务创新发展安全基础
筑牢安全可信的数据环境,减少安全事件对业务连续性和企业声誉的负面影响,为数字化业务拓展提供坚实的安全保障。
4. 结语
在数字经济时代,数据安全保障正向实战化、体系化和常态化方向发展。工信部发布的《工业领域数据安全能力提升实施方案(2024—2026年)》明确提出,要“以构建完善工业领域数据安全保障体系为主线,以落实企业主体责任为核心,以保护重要数据、提升监管能力、强化产业支撑等为重点,提高数据安全治理能力,促进数据要素安全有序流动和价值释放”。
未来,数据湖安全将朝着更加智能化、一体化的方向演进,长扬科技将持续聚焦数据安全技术前沿以及数据湖防护的创新应用,推动智能风控与自动化防护技术的演进升级。通过构建更加智能、可信、一体化的数据安全防护体系,助力工业企业实现数据全生命周期的智能化安全管理,为数字化业务创新提供前瞻性安全保障,护航数据要素价值安全释放。