用户行为分析系统技术建议书

更新时间:2023-08-25 11:07:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

宽带用户行为分析系统

信利SensitiView宽带用户行为分析系统

技术建议书

西安信利软件科技有限公司(版权所有)

宽带用户行为分析系统

目 录

1、简介 ........................................................................................................................................... 3 1.1. 开发背景 ......................................................................................................................... 3 1.2. 术语: ............................................................................................................................. 3 2. 项目概述 .................................................................................................................................... 4 2.1. 产品简介 ......................................................................................................................... 4 2.2. 商业机会 ......................................................................................................................... 4 2.3. 系统组成 ......................................................................................................................... 4 2.4. 子系统功能描述 ............................................................................................................. 5 2.5. 运行环境 ......................................................................................................................... 8 3. 系统总体架构 ............................................................................................................................ 9 3.1. 系统目标 ......................................................................................................................... 9 3.2. 技术方案说明 ................................................................................................................. 9 3.3. 网络拓扑图 ................................................................................................................... 10 3.4. 网络拓扑说明 ............................................................................................................... 11 3.5. 系统整体结构图 ........................................................................................................... 11 3.6. 系统中各服务器介绍.................................................................................................... 12 3.7. 模块清单 ....................................................................................................................... 13 4. 各模块说明 .............................................................................................................................. 14 4.1. 数据采集模块 ............................................................................................................... 14

4.1.1 功能概述 ............................................................................................................... 14 4.1.2 模块设计要素说明 ............................................................................................... 15 4.1.3 结构 ....................................................................................................................... 15 4.1.4 详细功能说明 ....................................................................................................... 16

4.2. 数据汇总存储模块........................................................................................................ 17

4.2.1 模块功能概述 ..................................................................................................... 17 4.2.2 模块设计要素说明 ............................................................................................. 17 4.2.3 结构 ..................................................................................................................... 17 4.2.4 详细功能说明 ..................................................................................................... 18

4.3. 数据分析处理模块........................................................................................................ 18

4.3.1 模块功能概述 ..................................................................................................... 18 4.3.2 模块设计要素说明 ............................................................................................. 18 4.3.3 详细功能说明 ..................................................................................................... 18 4.3.4 程序逻辑流程 ..................................................................................................... 19

4.4. 数据展示模块 ............................................................................................................... 19

4.4.1 功能描述 ............................................................................................................. 19 4.4.2 模块设计要素说明 ............................................................................................. 21 4.4.3 结构 ..................................................................................................................... 21 用户信息管理:对用户信息进行查询、统计等。 ..................................................... 22 4.4.4 程序逻辑 ............................................................................................................. 22 4.4.5 系统页面设计 ..................................................................................................... 22

5. 其他接口说明 .......................................................................................................................... 24

宽带用户行为分析系统

1、简介

1.1. 开发背景

互联网应用纷呈,市场空间快速扩张。电信运营商在获取宽带接入收入之外,需要进一步参与互联网市场价值分配,不断开发出能够发挥电信运营商优势的互联网业务。而这需要电信运营商及时掌握互联网用户的需求特点。

面对庞大的互联网用户群体、广泛多样的用户需求,针对性营销成为提升营销效率、改善营销效果,达成营销制胜的必选手段。而为了能够有效的实现针对性营销,需要首先获得目标用户的范围。

1.2. 术语:

HOST:特指HTTP协议中的HOST信息,如访问某一页面 http://www.77cn.com.cn/z/2008qglh/index.shtml 则对应的HOST信息为 :http://www.77cn.com.cn

URL:特指访问WEB站点的地址信息,如访问某一页面 http://www.77cn.com.cn/z/2008qglh/index.shtml

则对应的URL信息为: http://www.77cn.com.cn/z/2008qglh/index.shtml

一级域名:特指访问WEB站点的一级域名信息,如访问某一页面 http://www.77cn.com.cn/z/2008qglh/index.shtml 则对应的一级域名信息为: http://www.77cn.com.cn

应用分类:指按照预先建立好的分类模型,将用户的行为信息进行分类,例如访问http://www.77cn.com.cn,进行应用分类则为 新闻 类。

用户分类:根据用户的网络行为信息及信息对应的应用分类的结果,将用户进行分类,每个用户可以在多个分类中,如新闻类用户等。

宽带用户行为分析系统

用户聚类:根据用户的网络行为及分类结果进行数据挖掘和各类关联,从而可以获得用户的相关聚类信息。例如喜欢新闻类的用户一般也喜欢某类。

2.

项目概述

2.1. 产品简介

该产品通过对用户的网络相关行为进行有效分析,根据提取出的应用特征对用户进行有效分群,细致把握用户互联网应用需求,为实现基于分群的针对化营销提供有效支持。

2.2. 商业机会

目前电信拥有大量的宽带用户,使用的大多是简单包月+物理带宽为基础的粗放型业务发展模式;然而该模式无法真实的反应用户的潜在需求,网络消耗率日益增长,随之扩容的频率也越来越高,不符合集约化,精细化的发展趋势,无法给电信带来更大的收益。

另外电信在向信息超市的提供者与管理者的角色转型过程中,缺少“叫好又叫座”的SP/CP业务,同时电信本身所推出的绿色上网、在线服务等增值业务对用户也缺少足够的吸引力。为了实现宽带业务的精耕细作,推进SP/CP业务以及多样增值业务的快速、健康发展,目前电信急需对宽带用户的上网行为进行了解,从而能够及时获知整体用户的网络行为或倾向、从而推出相关的业务,更好的吸引用户,进而提高自身的收益,促进宽带业务的健康发展。

同时面对庞大的互联网用户群体、广泛多样的用户需求,针对性营销成为提升营销效率、改善营销效果,达成营销制胜的必选手段。而为了能够有效的实现针对性营销,需要首先获得目标用户的范围。

2.3. 系统组成

用户行为分析系统由四大模块组成:信息采集,信息汇总存储,信息挖掘统计,系统展现、输出:

宽带用户行为分析系统

2.4. 子系统功能描述

各个模块对应的子系统功能如下:

宽带用户行为分析系统

信利宽带用户行为分析系统技术建议书

信息

行为

用URL, 过滤掉 图片等无用信 息, 并能够支持 进行过滤, 同时 可以进行信息 简单统计, 上传 指定数量信息 (TOP N 机 制)

TOP N值 可支持动 态给定

采集用户 搜索关键 字信息

08PN03-SRS-BHCOLL ECT-F04

1.0

可以获知 用户所关 心信息

获得用户使用 baidu

、google, 先仅记录 yahoo等主要搜 页面搜索 索引擎进行搜 信息, 其他 索的关键字信 分类搜索 息, 并且需要进 暂不考虑 行相关字符的 解码处理 获得用户机器 中启动的进程 名称和使用时 长 过滤掉系 统相关的 进程

采集用户 使用进程 信息

08PN03-SRS-BHCOLL ECT-F05

1.0

可以获知 用户日常 使用程序 的信息 可以获知 用户喜 爱,同时 可验证用 户分类正 确性 为针对性 营销提供 目的地

采集用户 收藏夹信 息

08PN03-SRS-BHCOLL ECT-F06

1.0

获取用户收藏 夹相关信息

采集用户 对应的邮 箱地址信 息

08PN03-SRS-BHCOLL ECT-F07

1.0

采集获取用户 WEB 邮箱 所对应的软件、 可以仅选 WEB 等邮箱地 常用邮箱 址信息 例如用户访问 网站是否收费, 访问流量较多 可以逐步 的前多少 IP, 添加细化 P2P\VOIP 信息 等 上传过程 需要进行 将用户信息上 加密, 防止 传,进行汇总、 采集行为 分析 被用户感 知, 同时尽6 西安信利软件科技有限公司

其他采集 信息

08PN03-SRS-BHCOLL ECT-F08

1.0

其他反映 用户行为 信息

采集信息 上传

08PN03-SRS-BHCOLL ECT-F09

1.0

将用户信 息上传, 进行汇 总、分析

宽带用户行为分析系统

信利宽带用户行为分析系统技术建议书

量做到压 缩上传, 减 少通讯数 据量 如果上传 前压缩, 则 接收到数 据之后需 要解析。

信息 汇总 存储

采集信息 接收

08PN03-SRS -BHSTORE-F01

1.0

接收采集 信息

获得采集插件 上传信息

采集行为 信息入库

08PN03-SRS -BHSTORE-F02

1.0

保存行为 信息

将接收到的采 集信息进行保 存 根据行为特征 划分不同的类 别 参见附录 中的用户 行为分析 模型设计 文档

分类模型 建立

08PN03-SRS -BHANALYSIS-F01

1.0

为分类提 供前提

分类相关 特征库形 成

08PN03-SRS -BHANALYSIS-F02

1.0

为用户分 类、行为 统计等提 供数据依 据

根据分类模型, 形成 URL,搜 特征库需 索关键字, 进程 要长时间 等各类的特征 逐步完善。 库, 为进行自动 分类提供依据。 根据已过滤库、 网页标题等信 息将原始行为 数据进行过滤, 并以特定的格 式进行保存。 依据分类特征 库, 对用户行为 数据进行分类 并保存分类结 果 根据用户的行 为数据及其分 类, 将用户进行 分类并保存分 类结果 根据用户行为 信息和类别, 挖 掘用户其他感 兴趣类别7 西安信利软件科技有限公司

信息 挖掘 统计

数据清洗 转换

08PN03-SRS -BHANALYSIS-F03

1.0

丢弃无用 信息数据

应用分类

08PN03-SRS -BHANALYSIS-F04

1.0

对用户行 为进行分 类

用户分类

08PN03-SRS -BHANALYSIS-F05

1.0

对用户进 行分类

用户聚类 分析

08PN03-SRS -BHANALYSIS-F06

1.0

判定用户 类别

宽带用户行为分析系统

2.5. 运行环境

操作系统

采集插件 Windows XP及以上中文简体操作系统 服务器 WINDOWS2003 或linux系统 数据库 DB2或ORACLE

系统支持语言 中文

宽带用户行为分析系统

3.

系统总体架构

3.1. 系统目标

本系统的主要目标是,通过分析用户的计算机行为(主要是上网行为),来确定用户的

类型(喜好、兴趣等),从而实现对用户进行群分,并可将具有相同喜好的用户进行聚类,对不同类型的用户进行定向的营销和广告推送等商业活动。

用户的行为主要包括用户计算机安装软件、访问的URL、搜索的关键词、经常使用的软

件等等,系统的采集模块采集到这些数据后,由分析处理模块进行聚类、分类等的处理后,再将用户划分为不同的群体,并由系统的展示模块展示分群结果。

3.2. 技术方案说明

本系统的特点是以数据为中心,进行相关的采集、分析处理工作。因此数据采集、数据

存储以及数据的分析处理,都是要重点考虑的技术问题。下图为相关的数据流图:

用户基本信息

插件采集以太网以太网报文报文

计算机配置信息WEB访问信息VOIP信息P2P信息

XMLXML

形式形式组织组织上传统计分析数据汇总存储存储

数据数据

仓库仓库

数据挖掘统计统计

结果结果

进行进行

展现展现

系统主要由信息采集、信息汇总存储、信息挖掘统计、系统展现输出几大部分组成,各

部分相关描述为:

数据采集:

以插件(动态链接库)的方式内嵌到星空极速拨号客户端中,在用户上网过程中采集用户相关的行为数据。

宽带用户行为分析系统

上网行为数据采集基于网络嗅探的方式进行实现,利用WinpCap抓取用户的上网数据,如访问URL,搜索关键字等信息

用户其他行为信息,如包括进程快照,硬件、软件配置等信息,则利用Windows相关的API进行获取。

信息汇总存储:

借助TCP/IP协议,信息采集插件在用户每次上线后,将上次上网的相关行为信息以XML的形式组织上传;信息汇总存储部分,将采集插件上传的信息进行解析,并按照内容存储在数据仓库中的不同表中,供后续的统计挖掘使用。

同时出于系统容量的考虑,系统会定期的清理无用的历史数据,从而减少整体数据量,提供系统的分析、处理性能。

系统展现输出

该部分的主要目的是将系统相关的统计分析数据简单直观的展现给用户,展现方式有WEB、报表等形式,展现相关数据主要从数据仓库中提取。

3.3. 网络拓扑图

宽带用户行为分析系统

3.4. 网络拓扑说明

装有采集插件的客户端在使用过程中进行信息采集,并会在适当时间将采集的信息上报给后台业务服务器,业务服务器接收到采集信息之后,会进行简单处理,然后将行为数据放入到数据仓库中。

统计服务器根据数据仓库和行为特征库定期将用户的行为数据进行分类,并根据应用分类的结果对用户进行分类,同时进行一定的热门统计、数据挖掘等工作。

发布服务器以web、报表、接口等多种方式将用户分群、汇总统计、模型输出等相关数据信息进行呈现。

3.5. 系统整体结构图

宽带用户行为分析系统

该结构图中信息采集包括了旁路分光采集、客户端插件采集和其他来源,在现阶段,仅仅考虑客户端插件采集的方式。

3.6. 系统中各服务器介绍

系统中的服务器主要有信息汇总服务器,数据仓库服务器,信息统计分析服务器,信息发布服务器等服务器组成。各服务器介绍如下:

信息汇总服务器

宽带用户行为分析系统

该服务器主要作用是将插件采集的信息进行汇总、保存。 数据仓库服务器

该服务器主要作用是运行数据仓库,由于数据量很大,因此数据库选择是DB2或ORACLE。

信息统计分析服务器

该服务器主要作用是定期对汇总之后的数据进行数据清洗、应用分类、用户分群、数据挖掘、保存到数据仓库等操作。

信息发布服务器

该服务器主要作用是以web等方式呈现用户分群、汇总统计、模型输出等相关数据信息。 各服务器间的关系如下:

3.7. 模块清单

宽带用户行为分析系统

4.

各模块说明

以下从各个子模块的功能、结构、与其他模块的接口等方面对各个子模块进行较详尽说明介绍:

4.1. 数据采集模块 4.1.1 功能概述

宽带用户行为分析系统

该模块的主要功能是采集并保存用户上网过程中的相关行为信息,并在用户每次上线之后,将上次上线的行为数据信息进行组织合并,以XML的方式上传给信息汇总存储模块。

4.1.2 模块设计要素说明

由于该模块是以插件(DLL)的方式内嵌在星空极速拨号客户端中,并在用户拨号上网过程中,对用户的相关行为信息进行采集、上传,整个过程对用户隐蔽,不希望被用户发觉该模块的存在,因此模块设计、开发、测试等过程中需要充分考虑以下因素。

稳定、可靠性

由于插件是DLL方式内嵌,因此如果采集插件出现问题(崩溃、资源占用较大等),会导致星空极速客户端也受到影响,对用户造成不良影响,因此需要特别保证采集插件模块的开发质量。 隐蔽性

由于采集插件在数据采集过程中,对用户不可见,因此需要在配置信息保存、数据采集、采集数据临时保存、采集信息上传等各个阶段,进行加密等相关操作,从而实现对用户的不可见。 小流量上传

由于该模块仅采集用户的行为数据,并在用户上网过程中上传该信息,出于隐蔽性,以及尽量减少资源消耗的考虑,需要在上传数据前对数据进行简单的汇总,以及压缩处理,从而缩小上传的信息量。

可扩展性

随着模型的不断完善,采集部分后续可能会不断添加新的功能,为了尽量减少采集插件的升级过程,同时降低开发的复杂度和工作量,需要系统设计、开发过程中尽量考虑可扩展性。

为了满足上诉的各个要素,需要相关的开发人员在开发过程中,更加合理的设计软件,提高代码质量、强化开发过程中的单元测试力度;同时相关测试人员需要对上述各个因素进行着重测试,争取更早的发现问题。

4.1.3 结构

宽带用户行为分析系统

输入:输出:

该模块可以划分为数据采集、数据记录、数据上报和采集管理几个部分,具体说明如下:

数据采集:

采集用户上网行为信息和计算机配置等信息; 数据记录:

将采集到的信息临时保存在文件中,在用户下次上线之后进行上传。 数据上报:

将采集到的信息进行组织、压缩、加密等处理,上传给汇总存储模块; 采集管理:

负责相关采集配置等信息的接收。

4.1.4 详细功能说明

宽带用户行为分析系统

4.2.

数据汇总存储模块 4.2.1

模块功能概述

该模块主要负责接收数据采集模块上传的行为数据,并对该信息进行解密、解压等操作,然后将操作之后的数据根据内容存入到原始数据库中的不同表中。

4.2.2 模块设计要素说明

由于该模块需要同时接收多个客户端上传的采集信息、并需要对该信息进行解密、解压、入库存储等操作,因此该模块的设计、开发等过程需要考虑以下因素:

效率

随着进行采集用户的增多,服务器需要处理的上传量会不断增大,为了能够有效处理并存储所有的行为数据,服务器需要较高的效率,必要时可以增加硬件设备的投入 稳定性

作为一个接收、处理服务器,为了保证数据的完整性,需要充分考虑模块的稳定性。

4.2.3 结构

输入:

输出:

宽带用户行为分析系统

信利宽带用户行为分析系统技术建议书

4.2.4 详细功能说明

4.3. 数据分析处理模块 4.3.1 模块功能概述

数据分析处理模块:系统的核心模块,分析数据仓库中的数据。对汇总的数据做统计、挖掘和分析。包括简单的排名统计、用户行为分类、用户分类、用户聚类等;分析结果输出到统计数据库中。

4.3.2 模块设计要素说明

由于该模块设计到对行为数据进行分类,以及用户分类等过程,因此在设计、编码过程中需要考虑以下几个要素:

准确性

为了能够保证分类结果的准确性,需要在分类特征库建立、分类方法等过程中,保证分类的准确性,准确率应该在80%以上。

效率

由于随着用户数的增长,和时间的延长,系统的数据会较大,从而导致分类过程时间较长,因此设计、开发等过程需要考虑效率问题。

4.3.3 详细功能说明

该模块详细功能列表为:

宽带用户行为分析系统

4.3.4 程序逻辑流程

4.4. 数据展示模块 4.4.1 功能描述

提供预定义用户行为分析价值数据展现功能,可自定义统计、汇总、分群条件,从基础数据以列表、统计图、报表等形式提供自定义结果。主要包括 分群信息管理,定制分群,自定义分群, 数据汇总信息 ,用户信息查询, 系统管理,宣传支撑,竞争,分析模块,合作选

本文来源:https://www.bwwdw.com/article/7xqi.html

Top