Pycharm
 
获取 PyCharm

火花监测

最后修改时间:2023 年 12 月 6 日

使用Spark插件,您可以直接在 IDE 中监控Spark集群和提交的作业。

在这一章当中:

  1. 从头开始建立与 Spark 服务器的连接

    笔记

    除了手动创建连接之外,如果您在 AWS EMR 集群上运行 Spark,您还可以快速创建连接。

  2. 从 Zeppelin 笔记本建立与 Spark 的连接

  3. 查看工作图表

  4. 过滤掉监控数据

建立与 Spark 服务器的连接后,将出现Spark 监控工具窗口。

Spark 监控:作业

您可以随时通过以下方式之一打开连接设置:

  • 转到工具| 大数据工具设置页面的IDE设置 。CtrlAlt0S

  • 打开大数据工具工具窗口(视图 | 工具窗口 | 大数据工具),选择 Spark 连接,然后单击连接设置

  • 单击Spark 监控连接设置工具窗口任意选项卡中的。

当您在Spark监控工具窗口中选择某个应用程序时,您可以使用以下选项卡来监控数据:

  • Info:有关已提交应用程序的高级信息,例如 App id 或 Attempt id。

  • 职位:申请职位的摘要。单击某个职位可查看其更多详细信息。使用“可视化”选项卡查看作业 DAG

  • 阶段:每个阶段的详细信息。

  • 环境:环境和配置变量的值。

  • 执行器:为应用程序启动的进程,用于运行任务并将数据保存在内存或磁盘存储中。使用“日志”选项卡查看执行程序 stdout 和 stderr 日志。

  • 存储:持久化 RDD 和 DataFrame。

  • SQL:有关 SQL 查询执行的详细信息(如果应用程序使用)。

您还可以预览有关任务的信息,即发送给一个执行者的工作单元。

有关数据类型的更多信息,请参阅Spark 文档

您随时可以刷新Spark监控工具窗口中单击 ,手动刷新监控数据。或者,您可以使用“刷新”按钮旁边的列表配置在特定时间间隔内自动更新。