NodeXL手册

更新时间:2024-07-03 06:07:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

社交媒体网络分析:NodeXL实践与学习

社交媒体工具,如电子邮件、论坛、博客、微博和维基,被数十亿全世界的人们。他们通过这些媒体沟通,通过桌面和基于web的应用在固定或移动设备上,结果创建了多个复杂的社会网络结构。这个活泼的互动与网络的关系创造了通过这些技术是因为个人、组织、社会团体的不断的增长。了解这些社交媒体网络的发展,变化,失败或成功是一个越来越受到研究人员和专业人士的关注。现在社会网络分析提供了一组概念和指标系统地研究这些动态流程。信息可视化的方法也变得有价值,帮助用户在在复杂的社会网络中发现模式、趋势、集群和离群值。

丰富的软件工具对社会网络分析和可视化展示了力量的兴趣,但许多这些工具使用困难,特别是对于那些缺乏经验编程语言。开源软件工具,NodeXL设计尤其方便学习的概念和方法的社会网络分析与可视化作为一个关键组件(更多信息见史密斯,Shneiderman,et al . 2009)。

Microsoft Excel 2007的NodeXL模板是一个免费和开源扩展到广泛使用的电子表格应用程序,提供了一系列的基本网络分析和可视化功能。

NodeXL使用高度结构化的工作簿包含多个工作表来存储所有的模板代表一个网络图所需的信息。网络关系(如图的边)表示为一个Edges列表,所有成对的顶点相连构成了网络图。其他工作表包含关于每个顶点的信息和集群信息。可视化功能允许用户显示一定范围的网络图,数据属性映射到的视觉属性包括形状、颜色、大小、透明度和位置。

NodeXL支持学生学习社会网络分析和专业人士网络分析应用到感兴趣的业务问题上。它建立在熟悉的Excel电子表格范式基础上,为非程序员提供一个易于使用的工具。NodeXL集成Excel的内部分析函数,常用的网络指标和可视化这三个方面。它支持不同视觉网络布局、强大的过滤、聚类和映射的顶点和edge-level数据到高度可定制的视觉属性和标签。中等规模网络的工具支持工作几千顶点,尽管一些用户已经成功地处理成千上万的顶点。

NodeXL主要由微软研究院Marc Smith团队及众多研究机构的热心人士完成,其参与人员如下图所示:

图1 NodeXL参研人员

主要功能特色如下图所示:

图2 NodeXL功能

几个NodeXL绘制的关系图展示

第1章 启动NodeXL

开始通过打开NodeXL平常的基本层展示了Excel在顶部菜单栏,左边一个空白工作簿,图右侧窗格(图1)。NodeXL允许用户在Edges列填写或粘贴边列表数据,组成的顶点对彼此相关的。

1.1 数据录入

开始使用NodeXL的一个方法是输入你自己的列表。例如,您可能在每一行输入朋友的名字作为顶点1和顶点2列(见图2)。

1.2 展示图

单击Show Graph按钮(图的正上方窗格)来显示网络友谊的例子(图3)。假设无向的关系,也就是说,Ann是Bob的朋友,Bob也是Ann的朋友。

图3 无向图示例 1.3 强调显示边

点击其中的一个工作簿行强调显示对应的边的两个顶点图。例如,单击第5行强调了边缘连接Ann和Carod(参见图4)。你甚至可以点击多个行和所有相关的边缘和顶点将其强调显示。

图4 强调显示边

(2)中介中心性(Betweenness Centrality):

在路径上能够到达其它节点的度量。在TC中,Bill的中介中心性是17,Joseph是14,远高于其它节点,因为如果没有Joseph,Willian和Tom就会与其他人断开关系,同样,Mark必须通过Bill与其他人建立关系。而James、Mark、Henry和Tom的中介中心性为0,因为他们不在其他关系的路径上。

(3)接近中心性(Closeness Centrality):

有能力在最短路径到达其它节点的度量。接近中心性的值越小说明节点更容易到达其它节点,即平均路径最短。

(4)特征向量中心性(Eigenvector Centrality):不仅考虑链接总数,还考虑与谁连接。即\把那些与特定行动者相联结的其他行动者的中心性考虑进来而量度一个行动者中心性指标\。在图2中,William和James的度中心性都是3,但James的特征向量中心性比William的高,因为James与第二受欢迎的Charles连接,而William与处于边缘的Tom连接(他们各自的另一个联系人具有相同的度中心性)。

(4)聚类系数(Clustering Coefficient):

有时候,一个人的朋友之间也是朋友,形成一个小团体(派系)。例如,Henry的三个朋友Gary、Bill和Charles之间也直接相互连接。有时候,一个人的朋友之间没有连接,像William的朋友Tom和Joseph就没有关系。聚类系数用来衡量节点的邻点之间的关系。准确的计算是,邻点之间实际的连接数/邻点之间可能的连接数。辟如说,Joseph有三个朋友,他们之间最多可以有三个连接,而实际上只有一个(Bill和Gary之间),因此,聚类系数是1/3。

第6章 数据准备:融合边和排序标签数据

迄今为止,上面的示例使用小型、简单网络只有少量的顶点。大多数社交媒体网络都大得多,经常会造成杂乱的图是很难解释的。NodeXL包含强大的策略使得能在更大的网络上发现数据的重要特征,但利用这些常常需要准备初始数据。

6.1 SeriousEats分析

本节分析产生于一个网络论坛文章和博客评论的SeriousEats在线社区食品爱好者(http://www. seriouseats.com)。是由Emily Mason从SeriousEats网站手动收集的2009-3-8数据。下载的数据文件名为“Serious_Eats.xlsx(http://casci.umd.edu/NodeXL_Teaching)。文件只包含一个Edges列表。Vertex1为社区成员的用户名,Vertex2为论坛或社区成员发布的博客文章缩写的名字。博客以“B_”开头,论坛帖子以“F_”开头。例如,第一行显示用户gastronomeg发布简短的博客条目标题Misosoup(图21)。这种类型的数据集与Vertex1代表Person,Vertex2代表一些事件(即张贴在论坛或博客内容)是一个典型的“关系数据例子”。更一般的是,Vertex1列和Vertex2列表示两个不同的实体,称为“双模网络”。

图21 SeriousEats分析 6.2 合并重复的边

您可能会注意到,图21有些重复的行(行16、18和20)。这不是一个错误,因为一些社区成员多次发布相同的论坛或博客。例如,用户cucumberpandan粘贴到博客GroceryNinja 3次。 然而,图21所示的红色高亮显示,只显示边的重复的行。NodeXL允许您删除重复的边缘,但保留重复次数信息是重复的。在数据组Prepare Data下拉菜单,单击Merge Duplicate Edges按钮,然后刷新图。

现在,您将看到一个新列Edge Weight,其数量表示边的重复数。如图22所示,现在只有一行连接cucumberpandan B_GroceryNinja显示权重为3,因为3行合并成1行。总的来说,由最初的417条边现在浓缩到362条边。

图22 边合并后的结果

图22所示的图易解释,很大程度上是因为它包含太多的顶点和边。它也不能明确的表示不同顶点代表不同的对象。为了解决这个问题,可以为每个不同类型的顶点设置独特的形状和颜色。

NodeXL可以利用Excel的支持的列排序功能,有效地帮助注释数据和识别重要的顶点。这可以通过点击Vertices工作表Lable列倒三角形下拉菜单的“排序A到Z”选项来完成(图23)。这将按字母顺序排序的所有顶点,所有的博客文章(从“B_”)和论坛帖子(从“F_”)相邻,便于为每个组设置独特的颜色和形状属性。

图23 顶点排序

第7章 过滤:减少杂乱透露重要特性

在处理大型凌乱图表时,过滤掉顶点或边或只关注部分通常很有用。NodeXL提供了多种方式来过滤掉边和顶点,将在本节中使用Serious Eats数据集。

7.1 动态过滤器

过滤掉某些边或顶点,这样它们就不会出现在图中,这是一个很好的方式,以减少混乱。使用动态过滤特性的一种方法通过分析组Dynamic Filters按钮或可视化区域(点击右上角>>按钮,下拉菜单的Dynamic Filters选项)。这将打开一个新对话框(图26)。对话框提供了大量的双框范围内滑块来帮助你过滤。左边数是工作簿中的最小值,而右边的是最大值。顶部的边滑块过滤掉,留下的顶点。第二组滑块过滤顶点和顶点的所有边。

图26 动态过滤器

当计算了额外的指标或添加新列数据时,新的过滤器将被添加到图5中。首先计算指标“Degree”(在下面介绍),然后在图26中点击Read Workbook按钮。现在,您将看到一个新的名为“Degree”的滑块过滤器(图27)。尝试过滤边的权重滑块向右滑动,更改数量从1到2。图应该动态地更新,此时只有权重为2的边被高浪显示。只显示发布到论坛主题(或博客帖子)2次以上的用户。

图27 增加新的过滤器

第8章 聚类

聚类有助于确定顶点在一起形成一个小团体。有时你会知道哪些人应该分为不同的集群(如,共和党和民主党人),而其他时候,你可能想要识别的集群不知道的情况下(如。在大型社交网络)友谊派系。手动聚类允许您创建自己的集群。它还可以帮助自动识别你感兴趣的集群。一旦确认了顶点的颜色和形状,NodeXL便以定制的方式直观地显示集群。为了演示集群是如何工作的,我们分析2007年美国参议员的投票模式。特别感谢克里斯·威尔逊Slate杂志提供的数据集,可以从下载:http://casci.umd.edu/NodeXL_Teaching名为Senate_Raw.xlsx。http://www.arkansasredistricting.org/maps/Pages/default.aspx#data

8.1 2007年参议院投票分析

Vertices工作表包含关于每个参议员,及他们的政党,他们所代表的州,投票的总人数。Edges工作表包含的每一个无向边连接一个参议员到其它参议员。图36增加的列,Vertex1(Vertex1_Total)和Vertex2(Vertex2_Total)是选票总数,Percent_Agreement是赞成百分比。最后两列(图36的K列和L列)用作分母,在计算Percent_Agreement时帮助不在场的人(比如竞选者)。

图43

8.5 显示和隐藏聚类

你不需要展示图上的集群信息。在NodeXL选项卡Show/Hiden部分取消勾选,可以从图中隐藏这些信息。Cluster工作表上的集群信息将被保留,但视觉显示将由Vertices工作表是什么来决定的。在这种情况下,它将回到图38。

你可能想要用数据集实验一些NodeXL特性。例如,您可以通过计算度量,在Betweeness Centrality找到最高的个体或其他感兴趣的指标。你也可以调整边可见性选择一个不同的数字(例如,50%)或使用动态过滤器,看看网络变化变量被修改。

第9章 结论

上面介绍的社交媒体网络分析仅仅是开始。现在,您已经了解了NodeXL的主要特点。然而,知道如何有效地应用它们解决实际问题需要进行大量的练习。当你解决日益复杂的数据集和挑战性的问题,你将会引起对社会网络分析的兴趣并不断增长的知识。

功能

特点

灵活的输入输出:输入和输出图表格式包括GraphML,Pajek,UCINet,和矩阵格式。

与社交媒体直接连接:直接从Twitter、YouTube、Flickr和电子邮件导入社交网络,或用一个多功能插件从Facebook、Exchange和万维网超链接中获取网络数据。

缩放:缩放到感兴趣的区域,调整顶点大小以减少混乱。 灵活的布局:使用“力量导向“算法进行布局,或用鼠标拖动。

很容易地调整显示属性: 通过填写工作表的单元格来设置颜色、形状、大小、标签和透明度,或选择根据度中心性、中介中心性等度量自动填写。

动态筛选: 使用滑动条就能立刻隐藏一些节点和边,例如,隐藏所有度中心性小于5的节点。

强大的节点分组功能:根据节点的共同属性将它们分组,或让NodeXL分析它们的连通性并自动分组。为不同组的节点设置不同的颜色、形状,以便于区分。 图度量计算: 轻松计算度中心性、中介中心性和接近中心性等。 任务自动化 : 点击一次完成多个重复的任务。

操作界面

工具视频

NodeXL介绍

怎样从多个社交网络导入数据到NodeXL

应用案例

CHI2012

这是NodeXL的Gallery中的案例之一。展示的是1000位最近的Twitter中包含“CHI2012”的Twitter用户的网络图,数据在2012年5月4日21:14分(UTC)抓取。 参数

图形类型:有向的(directed)

布局算法:the Harel-Koren Fast Multiscale layout algorithm 边的颜色:关系值( relationship values)

节点大小:跟随者值(followers values)

本文来源:https://www.bwwdw.com/article/ims.html

Top