您的位置：58编程 > spark graphx实战 Spark GraphX构造者

spark graphx实战 Spark GraphX构造者

2023-05-30 05:33 Spark编程指南

spark graphx实战

Spark GraphX图构造者

GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图。默认情况下，没有哪个图构造者为图的边重新分区，而是把边保留在默认的分区中（例如HDFS中它们的原始块）。Graph.groupEdges:Graph[VD,ED])需要重新分区图，因为它假定相同的边将会被分配到同一个分区，所以你必须在调用groupEdges之前调用Graph.partitionBy

object GraphLoader {
  def edgeListFile(
      sc: SparkContext,
      path: String,
      canonicalOrientation: Boolean = false,
      minEdgePartitions: Int = 1)
    : Graph[Int, Int]
}

GraphLoader.edgeListFile提供了一个方式从磁盘上的边列表中加载一个图。它解析如下形式（源顶点ID，目标顶点ID）的连接表，跳过以#开头的注释行。

# This is a comment
2 1
4 1
1 2

它从指定的边创建一个图，自动地创建边提及的所有顶点。所有的顶点和边的属性默认都是1。canonicalOrientation参数允许重定向正方向(srcId < dstId)的边。这在connected components算法中需要用到。minEdgePartitions参数指定生成的边分区的最少数量。边分区可能比指定的分区更多，例如，一个HDFS文件包含更多的块。

object Graph {
  def apply[VD, ED](
      vertices: RDD[(VertexId, VD)],
      edges: RDD[Edge[ED]],
      defaultVertexAttr: VD = null)
    : Graph[VD, ED]
  def fromEdges[VD, ED](
      edges: RDD[Edge[ED]],
      defaultValue: VD): Graph[VD, ED]
  def fromEdgeTuples[VD](
      rawEdges: RDD[(VertexId, VertexId)],
      defaultValue: VD,
      uniqueEdges: Option[PartitionStrategy] = None): Graph[VD, Int]
}

Graph.apply(ClassTag[VD],ClassTag[ED]):Graph[VD,ED])允许从顶点和边的RDD上创建一个图。重复的顶点可以任意的选择其中一个，在边RDD中而不是在顶点RDD中发现的顶点分配默认的属性。

Graph.fromEdges允许仅仅从一个边RDD上创建一个图，它自动地创建边提及的顶点，并分配这些顶点默认的值。

Graph.fromEdgeTuples(ClassTag[VD]):Graph[VD,Int])允许仅仅从一个边元组组成的RDD上创建一个图。分配给边的值为1。它自动地创建边提及的顶点，并分配这些顶点默认的值。它还支持删除边。为了删除边，需要传递一个PartitionStrategy为值的Some作为uniqueEdges参数（如uniqueEdges = Some(PartitionStrategy.RandomVertexCut)）。分配相同的边到同一个分区从而使它们可以被删除，一个分区策略是必须的。

阅读全文

以上是58编程为你收集整理的spark graphx实战 Spark GraphX构造者全部内容。

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。

全部标签 标签详情

spark streaming应用场景 Spark Streaming部署应用程序

Spark编程指南

Spark Streaming部署应用程序Requirements运行一个Spark Streaming应用程序，有下面一些步骤有管理器的集群-这是任何Spark应用程...
spark 外部表 Spark 外部数据集

Spark编程指南

外部数据集Spark 可以从任何一个 Hadoop 支持的存储源创建分布式数据集，包括你的本地文件系统，HDFS，Cassandra，HBase，Amazon...
Storm 事务性拓扑

Storm入门教程

事务性拓扑正如书中之前所提到的，使用 Storm 编程，可以通过调用 ack 和 fail 方法来确保一条消息的处理成功或失败。不过当元组...
access组合框在哪 MS Access组合框

MSAccess教程

当您以任何形式输入数据时，从列表中选择一个值比记住要输入的值更快更容易。选择列表还有助于确保在字段中输入的值适当。列表控...
sqlite3.dll SQLite Union 子句

SQLite教程

SQLite的 UNION 子句/运算符用于合并两个或多个 SELECT 语句的结果，不返回任何重复的行。为了使用 UNION，每个 SE...
mariadb连接数据库 MariaDB 建立连接

MariaDB教程

与MariaDB建立连接的一种方法是在命令提示符下使用mysql二进制文件。MySQL脚本查看下面给出的示例。 [root@host]# mysql -u root...
mariadb mysql 版本对照 MariaDB 10.1.26 发布，完整更新公告：MySQL 分支版本

MariaDB教程

北京时间2017年8月11日MariaDB 10.1.26 发布了。MariaDB 数据库管理系统是 MySQL 的一个分支，主要由开源社区在维护，采用 GPL ...
PostgreSQL 样式指导

05-18

J.5.1. 参考页 J.5.1.参考页参考页应该遵循一种标准布局。这允许用户更快找到想要的信息，并且它也鼓励作者记录一个命令的所有相...
oracle的convert函数 Oracle Convert()函数

Oracle教程

在 Oracle 中，Convert() 函数可以将字符串从一个字符集转换为另一个字符集。本文要为大家带来的就是 Convert() 函数的使用方法...
mysql导入数据库命令 MySQL 导入数据

MySQL教程

MySQL中可以使用两种简单的方式来导入MySQL导出的数据。使用 LOAD DATA 导入数据 MySQL 中提供了LOAD DATA INFILE语句来插入数据...