其实未来数据中心的建设与科技演进的问题并不复杂,但是又很多的朋友都不太了解,因此呢,今天小编就来为大家分享未来数据中心的建设与科技演进的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!
围绕图形处理单元(GPU) 计算的生态系统正在快速发展,以提高GPU 工作负载的效率和可扩展性。然而,有一些技巧可以最大限度地提高GPU 利用率,同时避免存储和网络方面的潜在瓶颈。
人工智能、机器学习和深度学习应用程序的强烈需求对数据中心的性能、可靠性和可扩展性提出了挑战,特别是当IT 架构师模仿公共云的设计以轻松过渡到混合云和本地部署时。
[[345143]]
Excelero 首席技术官Sven Breuner 和首席架构师Kirill Shoikhet 分享了为人工智能、机器学习和深度学习准备数据中心的9 个最佳实践。
数据点1:了解目标系统性能、投资回报率和可扩展性计划。随着人工智能成为核心业务的重要组成部分,大多数组织都从较小的初始预算和较小的训练数据集开始,为无缝和快速的系统增长准备基础设施。需要构建选定的硬件和软件基础设施,以实现灵活的横向扩展,以避免在每个新的增长阶段发生颠覆性变化。数据科学家和系统管理员之间的密切合作对于了解性能要求并了解基础设施可能需要随着时间的推移而发展至关重要。
数据点2:现在或将来评估集群多个GPU系统。在服务器中使用多个GPU可以实现系统内高效的数据共享和通信,并且具有成本效益。该参考设计假设未来使用集群,并在单个服务器中支持多达16 个GPU。多个GPU 服务器需要准备好以非常高的速率读取传入数据,以便GPU 高效运行,这意味着它需要超快的网络连接以及用于训练数据库的存储系统。但在某些时候,单个服务器将不再足以在合理的时间内处理不断增长的训练数据库,因此在设计中构建共享存储基础设施将使添加GPU 服务器变得更加容易。
数据点3:评估人工智能工作流程各个阶段的瓶颈。数据中心基础设施需要能够同时处理AI工作流程的所有阶段。对于一个具有成本效益的数据中心,拥有可靠的资源调度和共享理念至关重要。因此,当数据科学家获得需要摄取和准备的新数据时,其他人将根据他们可用的数据进行训练,而其他人则使用之前生成的模型来进行生产训练。 Kubernetes 成为解决这一问题的主要解决方案,使云计算技术易于在本地使用,并使混合部署变得可行。
数据点4:查看用于优化GPU利用率和性能的策略。许多人工智能、机器学习和深度学习应用程序的计算密集型特性使得基于GPU 的服务器成为常见选择。然而,虽然GPU 可以有效地从内存加载数据,但训练数据集通常远远超出内存,并且涉及的大量文件变得更难以摄取。在GPU 服务器和存储基础设施之间实现GPU 数量与可用CPU 功率、内存和网络带宽之间的良好平衡至关重要。
数据点5:支持训练和推理阶段的需求。在训练系统“看猫”的经典示例中,计算机执行一个数字游戏,需要观察大量不同颜色的猫。由于访问的性质涉及大量并行文件读取,NVMe 闪存通过提供超低访问延迟和每秒大量读取操作,很好地满足了这些要求。在推理阶段,挑战是相似的,因为对象识别通常是实时发生的。 —— NVMe 闪存还提供延迟优势的另一个用例。
数据点6:考虑并行文件系统和替代方案。IBM 的SpectrumScale 或BeeGFS 等并行文件系统可以帮助高效处理大量小文件的元数据,并通过网络每秒传输数万个小文件来实现机器学习数据集的分析。速度提高3至4倍。考虑到训练数据的只读性质,当将数据量直接传送到GPU 服务器并通过Kubernetes 等框架以共享方式共享时,也可以完全避免使用并行文件系统。
数据点7:选择正确的网络主干。人工智能、机器学习和深度学习往往是新的工作负载,将它们重新安装到现有网络基础设施中往往无法支持复杂计算和快速高效的数据传输所需的低延迟、高带宽。高消息率和智能卸载。基于RDMA的网络传输RoCE(RDMA over Converged Ethernet)和InfiniBand已经成为满足这些新需求的标准。
数据点8:考虑四个存储系统的性价比杠杆。(1) 高读取吞吐量和低延迟,不限制混合部署,可以运行在云平台或本地资源上。
(2)数据保护。人工智能、机器学习、深度学习存储系统通常比数据中心中的其他系统快得多,因此在发生故障后从备份进行恢复可能需要很长时间并会中断正在进行的操作。深度学习训练的只读性质使其非常适合分布式纠删码,其中最大容错能力已内置于主存储系统中,并且原始容量和可用容量之间的差异很小。
(3) 容量弹性可适应任何大小或类型的驱动器,因此随着闪存介质的发展和闪存驱动器功能的扩展,数据中心可以在最重要的时候最大限度地提高性价比。
(4)性能。由于人工智能数据集需要随着时间的推移而增长,以进一步提高模型的准确性,因此存储基础设施应该实现近线性的缩放因子,其中每个额外的存储都会带来同等的增长。定量表现。这使得组织能够从小规模起步,并根据业务需求不断发展,而不会造成中断。
数据点9:设置基准和性能指标以帮助实现可扩展性。例如,对于深度学习存储,一个重要的指标可能是每个GPU 每秒处理X 个文件(通常是数千或数万个),其中每个文件的平均大小为数千kB。预先建立适当的基线和性能指标有助于从一开始就确定架构方法和解决方案并指导后续扩展。
文章到此结束,如果本次分享的未来数据中心的建设与科技演进和的问题解决了您的问题,那么我们由衷的感到高兴!
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.iotsj.com//kuaixun/7355.html
用户评论
这篇文章肯定聊得是建一个能处理AI、机器学习和深度学习任务的数据中心吧!
有18位网友表示赞同!
越来越多人提倡数据中心要跟上时代的步伐,才能更好地支持这些新技术的应用。
有10位网友表示赞同!
以前的数据中心可能只用来存储文件和运行普通的软件,现在需要更强大更灵活的架构了。
有14位网友表示赞同!
51CTO.COM 的文章总是很有用的,期待这篇关于数据中心的深度解读!
有13位网友表示赞同!
搭建一个支持AI等技术的データセンター要考虑哪些关键因素呢?
有16位网友表示赞同!
这种新的数据中心应该能快速处理海量的数据,对吗?
有17位网友表示赞同!
感觉未来人工智能的发展离不开这样的专业数据中心支持。
有19位网友表示赞同!
希望这篇文章能够详细介绍如何设计和构建这样的数据中心架构。
有11位网友表示赞同!
我还在学习人工智能相关知识,读读这篇文章希望能了解更多关于数据中心的实用信息!
有16位网友表示赞同!
要准备处理各种复杂计算任务的硬件配置是必须的吧?
有16位网友表示赞同!
这种数据中心的安全性也很重要吧,毕竟存储的数据很关键。
有15位网友表示赞同!
搭建这类数据中心投入多少成本呢?经济效益如何?
有20位网友表示赞同!
这篇文章会介绍具体的案例吗?看看哪些公司已经成功构建了类似的数据中心?
有5位网友表示赞同!
智能化调度和管理系统也会是这种数据中心的必要部分吧?
有7位网友表示赞同!
未来人工智能的发展趋势是什么?怎样才能更好地适应?
有10位网友表示赞同!
个人觉得,这样专门针对人工智能的數據センター将成为未来科技发展的重要基础设施。
有17位网友表示赞同!
对AI技术的应用越来越广泛,这种数据中心的建设需求将会越来越大!
有12位网友表示赞同!
希望这篇文章能够让我更深入地了解数据中心在AI时代的发展方向。
有9位网友表示赞同!
学习一下这些新兴技术相关的知识总是很有益处的!
有6位网友表示赞同!
看来要跟上时代的脚步,就得关注人工智能以及相关技术的最新发展了!
有20位网友表示赞同!