在云中启用数据和分析可以让企业拥有无限的规模和可能性,以更快地获得洞察,并利用数据做出更优的决策。数据湖仓愈发受到欢迎,其为所有的企业数据提供了一个统一平台,可以灵活运行任何分析和机器学习(ML)用例。数据湖仓兼具了数据湖的灵活性和经济效益,以及数据仓库的性能和可靠性。
云数据湖仓将多种处理引擎(SQL、Spark等)和现代分析工具(ML、数据工程化和商业智能)整合到一个统一的分析环境中,使用户能够快速采集数据,并运行自助分析和机器学习。与本地数据湖相比,云数据湖仓在扩展性、敏捷性和成本方面具有明显的优势,但迁移上云并非没有安全之忧。
数据湖仓的架构设计包含一个复杂的组件生态系统,其中每个组件都是一条可以使用数据的潜在路径。从规避风险的角度而言,有的企业可能不愿将生态系统迁移到云端,但经过多年的发展,云数据湖仓已经变得更加安全、合理,相比本地数据湖仓具有明显的优势。
以下十项基本的云数据湖仓安全实践可以帮助企业确保安全、降低风险并提供持续可见性。
1.安全功能隔离
安全功能隔离是云安全框架最重要的功能和基础。其目标是通过最小权限原则,将安全与非安全功能分区。在云上采取这一做法是为了将云平台的功能严格限制在预定范围内。数据湖仓的作用应仅限于管理数据湖仓平台。企业应将云安全功能分配给经验丰富的安全管理员,避免让数据湖仓用户将该环境暴露在重大风险中。DivvyCloud近期的一项研究显示,云端部署的主要风险之一是因配置错误和用户缺乏经验而导致的违规行为。通过将安全功能隔离和最小权限原则纳入云安全计划,企业可以显著减少外部暴露和数据泄露风险。
2.云平台加固
隔离和加固云数据湖仓平台的第一步是建立唯一的云帐户。通过限制平台功能,让管理员仅拥有管理数据湖仓平台的权限。在云平台上隔离逻辑型数据的最有效方法是使用唯一帐户进行部署。
在拥有运行数据湖仓服务的唯一云帐户后,企业就可以使用网络安全中心(CIS)提到的加固技术。使用唯一帐户策略和加固技术,可以将企业的数据湖仓服务功能与其他云服务进行安全隔离。
3.网络边界
在加固云帐户后,企业还需要为该环境设计网络路径。这是整个安全体系的关键组成部分之一,也是企业的第一道防线。有很多方法可以解决云部署带来的网络边界安全问题,企业可能会因为带宽和合规方面的要求而选择其中一些方法,这些方法必须使用专用连接,或使用云提供的虚拟专用网络(VPN)服务,并通过隧道将流量回传到企业。
如果企业准备在云帐户中存储任何类型的敏感数据,并且不使用私人链路连接到云,那么流量控制和可视性将至关重要。云平台市场提供了许多企业防火墙,它们具有更高级的功能且价格合理,能够补充本地云安全工具。企业可以在中心辐射型结构中部署虚拟防火墙,通过一个或一对普遍可用的防火墙来保护所有的云网络。防火墙应成为云基础设施中唯一拥有公共IP地址的组件。企业还应创建明确的进出政策和入侵防御配置文件以降低非法访问和数据渗漏风险。
4.主机端安全系统
在云部署中,主机端安全系统是一个经常被忽视却非常重要的安全层。与确保网络安全的防火墙功能一样,主机端安全系统可以保护主机免受攻击。在大多数情况下,它就是最后一道防线。主机端安全的范围相当广泛,并且根据服务和功能而异。
- 主机入侵检测:这项在主机端运行的代理技术通过各种检测系统来发现并警告攻击和可疑活动。目前业界有两种主流的入侵检测技术:最常见的是检测已知威胁特征的特征检测技术;另一种是异常检测技术,这种技术使用行为分析来检测特征检测技术无法发现的可疑活动。一些服务在提供机器学习功能的同时,也提供这两种检测。它们都能提供主机活动的可见性,帮助企业检测和应对潜在的威胁和攻击。
- 文件完整性监视(FIM):这项功能能够监视和追踪环境中的文件变化,有效检测和追踪网络攻击。它是许多监管合规框架的关键要求之一。由于多数漏洞一般需要获得某项高权限来运行进程,因此它们会利用已经拥有这些权限的服务或文件,例如抓住服务缺陷将错误参数覆盖系统文件并插入有害代码。FIM能够发现并提醒企业文件的变化甚至添加。有些FIM还提供高级功能,比如将文件恢复到已知的良好状态或通过分析文件模式识别恶意文件。
- 日志管理:分析云数据湖仓中的活动是识别安全突发事件的关键,同时也是合规控制手段的基石。日志记录必须能够防止欺诈活动对事件进行更改或删除。为了遵守法律法规,企业往往需要制定日志存储、留存和销毁政策。
- 执行日志管理政策最常见的方法是将日志实时复制到集中存储库,以备未来分析所需时访问。目前有许多商业和开源日志管理工具可供选择。
5.身份管理和认证
身份是重要的审核依据,可以为云数据湖仓提供强有力的访问控制。在使用云服务时,企业首先要将身份提供程序(如活动目录)与云提供商整合。 对于某些基础设施服务而言这就足够了。但如果企业自行管理第三方应用或部署包含多项服务的数据湖仓,则可能需要整合零散的认证服务,包括SAML客户端和提供商,如Auth0、OpenLDAP、Kerberos和Apache Knox等。如果想扩展到Hue、Presto或Jupyter等服务,则可以参考关于Knox和Auth0集成的第三方文档。
6.授权
授权通过数据和资源访问控制、以及列级过滤来确保敏感数据的安全。云提供商通过基于资源的身份和访问管理(IAM)策略与基于角色的访问控制(RBAC),将强大的访问控制策略整合到其PaaS解决方案中,其中RBAC可以利用最小权限原则管理访问控制策略,此举的最终目的是集中定义行和列级访问控制。 一些云提供商已经开始扩展IAM,提供数据湖构建等数据和工作负载引擎访问控制策略,并增加服务与帐户之间共享数据的能力。根据云数据湖仓中运行的服务数量,企业可能需要使用其他开源或第三方项目(如Apache Ranger)扩展这种方法,对所有服务进行精细授权。
7.加密
加密是保障集群和数据安全的基础。一般情况下,企业可以在云提供商所提供的指南中找到最佳的加密方法。正确掌握这些细节非常重要,而这需要企业对IAM、密钥轮换策略和具体的应用配置有深入的了解。对于 存储桶、日志、秘密和卷以及所有数据存储,企业需要熟悉KMS CMK最佳实践,并对动态和静态数据进行加密。如果企业整合的不是由云提供商所提供的服务,那么就需要提供自己的证书。无论是哪种情况,企业都有必要制定证书轮换的方法,例如每90天轮换一次。
8.漏洞管理
无论企业使用什么样的分析堆栈和云提供商,都要确保数据湖仓基础设施中的全部实例都安装了最新的安全补丁。落实定期操作系统和软件包补丁策略,包括定期对基础设施中的各部分进行安全扫描。企业可以关注云提供商的安全公告更新,并根据自身的安全补丁管理计划安装补丁。如果已经制定了漏洞管理解决方案,则应根据既定方案扫描数据湖仓环境。
9.合规监控和突发事件响应
合规监控与突发事件响应能提供早期检测、调查和响应,是所有安全框架的基石。如果企业有现有的本地安全信息和事件管理(SIEM)基础设施,可将其用于云监控。领先的SIEM系统都能获取并分析所有重大的云平台事件。事件监控系统会触发威胁和违规行为警报,帮助提高云基础设施的合规性。此类系统还可用于确认失陷指标(IOC)。
10.数据损失预防
为确保数据的完整性和可用性,云数据湖仓应将数据持久存储在拥有安全经济的冗余存储、持续的吞吐量和高可用性的云对象存储上(如Amazon S3)。其他功能中,内置留存生命周期的对象版本管理功能可对意外删除和对象更换进行修复。所有管理和存储数据的服务都要经过评估,防止数据丢失。为了最大程度地减少终端用户的数据丢失威胁,限制删除与更新权限的强大授权实践至关重要。总之,企业应当创建符合预算、审计和架构需求的备份与留存计划,将数据放在可用性与冗余度较高的存储库中,减少用户出错的机会。
综合全面的数据湖仓安全至关重要
云数据湖仓是一个超越存储的复杂分析环境,需要专业的知识、计划和规定来进行有效保障。作为自身数据的最终责任人,企业需要考虑如何将云数据湖仓转换成在公有云上运行的“专用数据湖仓”。
Cloudera的客户可以通过Cloudera Data Platform(CDP)公有云来运行云数据湖仓,其具有世界级的独家安全性。Cloudera非常重视商业资产保护,深知安全对客户声誉的重要性,并以此作为为企业提供最佳安全实践的驱动力。