各位老铁们,大家好,今天由我来为大家分享数据中心建设,迎接人工智能新时代,以及的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!
GPU(图形处理单元)服务器如今很常见,围绕GPU 计算的生态系统正在快速发展,使GPU 工作负载更加高效和可扩展。然而,有一些技术可以极大地提高GPU 利用率,同时避免存储和网络方面的潜在瓶颈。
[[340700]]
Excelero 首席技术官Sven Breuner 和首席架构师Kirill Shoikhet 提供了9 个更好的实践,为人工智能、机器学习和深度学习做好准备。
数据点1:了解目标系统性能、投资回报率和可扩展性计划。这样,他们就可以与数据中心目标保持一致。随着人工智能成为核心业务的重要组成部分,大多数组织都从较小的初始预算和较小的训练数据集开始,并为无缝和快速的系统增长准备基础设施。需要构建选定的硬件和软件基础设施,以实现灵活的横向扩展,以避免在每个新的增长阶段发生颠覆性变化。数据科学家和系统管理员之间的密切合作对于了解性能要求并了解基础设施可能需要随着时间的推移而发展至关重要。
数据点2:评估集群多个GPU系统。可在具有多个GPU 的服务器中实现系统内高效且经济高效的数据共享和通信,而参考设计假设未来在集群中使用,并在单个服务器中支持多达16 个GPU。多GPU 服务器需要准备好以非常高的速率读取传入数据,以保持GPU 满负荷运行,这意味着它需要一个超快的网络连接一直到训练数据库的存储系统。但在某些时候,单个服务器不足以在合理的时间内处理不断增长的训练数据库,因此在设计中构建共享存储基础设施将使人工智能、机器学习、深度学习使用变得更容易可扩展且更容易添加GPU 服务器。
数据点3:评估人工智能工作流程各个阶段的瓶颈。数据中心基础设施需要能够同时处理AI工作流程的所有阶段。对于具有成本效益的数据中心来说,拥有可靠的资源调度和共享概念至关重要,因此,当一组数据科学家获得需要摄取和准备的新数据时,其他人将利用可用数据进行训练,而其他地方则使用之前的数据进行训练。生成的模型将用于生产。 Kubernetes 已成为该问题的主要解决方案,使云计算技术可以在本地轻松使用,并使混合部署变得可行。
数据点4:查看用于优化GPU利用率和性能的策略。许多人工智能、机器学习和深度学习应用程序的计算密集型特性使得基于GPU 的服务器成为常见选择。然而,尽管GPU 可以有效地从内存加载数据,但训练数据集通常远远超出内存容量,并且涉及的大量文件变得更难以摄取。在GPU 数量与可用CPU 功率、内存以及GPU 服务器之间以及存储基础设施之间的网络带宽之间实现最佳平衡至关重要。
数据点5:支持训练和推理阶段的需求。在训练系统“看到猫”的经典示例中,执行数字游戏的计算机(或更确切地说GPU)需要看到许多不同颜色的猫。由于访问的性质涉及大量并行文件读取,NVMe 闪存通过提供超低访问延迟和每秒大量读取操作,很好地满足了这些要求。在推理阶段,挑战是相似的,因为对象识别通常是实时发生的,这是NVMe 闪存还提供延迟优势的另一个用例。
数据点6:考虑并行文件系统和替代方案。IBM 的SpectrumScale 或BeeGFS 等并行文件系统可以帮助高效处理大量小文件的元数据,并通过网络每秒传输数万个小文件来实现机器学习数据集的分析。速度提高3至4倍。鉴于训练数据的只读性质,当将数据量直接提供给GPU 服务器并通过Kubernetes 等框架以共享方式共享数据时,也可以完全避免并行文件系统。
数据点7:选择正确的网络主干。人工智能、机器学习和深度学习往往是重新安装到现有网络基础设施中的新工作负载,往往无法支持复杂计算所需的低延迟、高性能和快速高效的数据传输。带宽、高消息速率和智能卸载。基于RDMA的网络传输RoCE(RDMA over Converged Ethernet)和InfiniBand已经成为满足这些新需求的标准。
数据点8:考虑四个存储系统的性价比杠杆。(1)高读取吞吐量与低延迟结合在一起,不限制混合部署,可以在云平台或本地资源上运行。
(2)数据保护。人工智能、机器学习、深度学习存储系统通常比数据中心中的其他系统快得多,因此在完全故障后从备份进行恢复可能需要很长时间并会中断正在进行的操作。深度学习训练的只读性质使其成为分布式纠删码的理想选择,其中最大容错能力已内置于主存储系统中,并且原始容量和可用容量之间的差异很小。
(3) 容量弹性可适应任何大小或类型的驱动器,因此随着闪存介质的发展和闪存驱动器功能的扩展,数据中心可以在最重要的时候大规模地提高性价比。
(4)性能弹性。由于AI数据集需要随着时间的推移而增长,以进一步提高模型精度,因此存储基础设施应该实现近线性的缩放因子,在这种情况下,每个额外的存储都会带来等效的增量性能。这使得组织能够从小规模起步,并根据业务需求不断发展,而不会造成中断。
数据点9:设置基准和性能指标以帮助实现可扩展性。例如,对于深度学习存储,一个指标可能是每个GPU 每秒X 个文件(通常是数千或数万),其中每个文件的平均大小为Y(范围从数十到数千)KB。预先建立适当的指标有助于从一开始就确定架构方法和解决方案,并指导后续的扩展。
OK,本文到此结束,希望对大家有所帮助。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.iotsj.com//kuaixun/7745.html
用户评论
这篇文章讨论了如何让数据中心更能适应人工智能等新兴技术的需要?
有7位网友表示赞同!
感觉现在越来越多人关注人工智能这些方面了,数据中心也要跟上步调。
有8位网友表示赞同!
深度学习需要的算力真的很大啊,是不是数据中心也要进行升级改造才能满足需求?
有13位网友表示赞同!
51CTO的文章总是很有干货,期待这篇文章能详细介绍一些实践方法。
有6位网友表示赞同!
机器学习和自动化越来越深入生活了,数据中心肯定要变的更智能化吧?
有16位网友表示赞同!
想了解一下数据中心在人工智能应用中的具体作用是什么?
有12位网友表示赞同!
文章里提到哪些技术可以帮助数据中心支持人工智能?我很想知道。
有19位网友表示赞同!
最近对人工智能也很感兴趣,希望这篇文章能给我一些启发。
有13位网友表示赞同!
数据中心现在是干什么的?和人工智能有什么关系呢?
有7位网友表示赞同!
我觉得将来会越来越多的行业需要用到人工智能和深度学习吧。
有20位网友表示赞同!
为数据中心做好准备,才能更好地迎接未来科技的发展吧?
有18位网友表示赞同!
这篇文章能帮我们了解到数据中心的未来发展趋势吗?
有16位网友表示赞同!
想看一些具体的案例,看看哪些数据中心已经实现了人工智能的应用?
有19位网友表示赞同!
人工智能和机器学习对于数据中心来说是一个机遇还是挑战呢?
有12位网友表示赞同!
这篇文章里肯定会有很多专业名词,需要我好好学习一下。
有17位网友表示赞同!
51CTO的文章质量都很高,相信这篇文章也不会让人失望!
有11位网友表示赞同!
很期待看看这份文章对数据中心的建设和管理有什么样的建议?
有7位网友表示赞同!
人工智能的发展离不开数据的支持,数据中心在这个过程中的作用非常关键。
有13位网友表示赞同!
学习一下这方面的知识可以帮助我们在未来的职场更加竞争力吧。
有6位网友表示赞同!