分类
外汇交易心得

输入职位的基础是低间隔

Keji Xu 是 AWS 的解决方案架构师,现居旧金山。他帮助客户理解云端高级解决方案,以及如何将现有的工作负载迁移到云,以实现客户的业务目标。他在闲暇时喜欢聆听音乐,以及为他的新英格兰运动队加油呐喊。

利用 Amazon CloudWatch 监控 GPU 利用率

您可以在 Amazon CloudWatch 输入职位的基础是低间隔 中创建自定义控制面板来查看您的资源。您还可以为您的指标创建警报。还有许多可以与 CloudWatch 结合使用的功能和服务。如果您希望访问并存储 Amazon EC2 实例生成的日志,可以使用 Amazon CloudWatch Logs。此外,Amazon CloudWatch Events 可以为您提供描述 AWS 资源变化的数据流,例如,如果有人试图在模型训练完成之前终止您的实例,您可以收到提醒。

默认情况下,已对您的实例启用基本监控。我们会启用详细监控,Amazon EC2 控制台将以 1 分钟为间隔显示实例的监控状态。

注意:基本监控是免费的,但详细监控会收取费用。新客户和现有客户每月可免费获得 10 个指标、10 个警报,以及 100 万个 API 请求 (包括 PutMetricData)。

鉴于您的实例已运行在 Deep Learning AMI 之上,我们需要创建一个 IAM 角色,为您的实例授权,使其能够向 Amazon CloudWatch 推送指标。我们需要根据文档中的描述创建一个 EC2 服务角色。请确保您的角色允许以下策略。

接下来在您的实例上下载 Python 代码。我们将使用此脚本,将 GPU 使用情况、内存使用情况、温度和电源使用情况作为自定义 CloudWatch 指标进行推送。

请确保根据您的工作负载更改命名空间和间隔。您还可以选择更改 store_reso,使用间隔缩短至 1 秒的高精度指标,从而更精确地了解 GPU 的使用情况。

训练完成后按 ctrl-zctrl-c 停止脚本。

以下是一个正在运行的训练的 Amazon CloudWatch 视图示例。请观察在计算过程中所有指标是如何互相关联的。

在这篇博文中,我将提供一种简便的方法,它不仅可以监控 GPU 利用率,还可以监控您的 NVIDIA GPU 设备的内存、温度和电源使用情况。如果您要添加其他自定义指标或删除自定义指标,可以修改我提供的代码。接下来,就像我们在介绍时提到的,要尝试为您的指标创建 CloudWatch 警报。例如,您可以设置 Amazon SNS 通知,在模型训练期间,GPU 利用率低于 20% 即向您发送电子邮件。

Keji Xu 是 AWS 的解决方案架构师,现居旧金山。他帮助客户理解云端高级解决方案,以及如何将现有的工作负载迁移到云,以实现客户的业务目标。他在闲暇时喜欢聆听音乐,以及为他的新英格兰运动队加油呐喊。

输入职位的基础是低间隔

站点地图关注我们 联系我们

鸿源建材鸿源建材

鸿源建材

定尺生产咨询:
130707964921307079649213070796492 130536038451305360384513053603845
工程安装咨询:
130707624261307076242613070762426

韦乐平指明全光传送网六大扩容路径

据韦乐平介绍,公用电信网在网络边缘也开启向400G的过渡——流量驱动方面,400G是未来5年光模块的主要增长点,复合增长率44%;标准驱动方面,OIF的4000ZR、Open ZR+和OpenRoadm MSA的400ZR+;技术驱动方面,硅、硅光和DSP进展催生了通用光模块—数字相干可插拔光模块,突破尺寸、成本、功能障碍,适用多系统、多拓扑、多场景;速率驱动方面,CTC区域/长途网多个段落容量超30T,最高超110T,用单波400G WDM替代单波100G WDM可节约大量昂贵的转发器和光纤。