谁说菜鸟不会数据分析(一)
更新时间:2024-07-08 20:42:01 阅读量: 综合文库 文档下载
一、数据分析六步曲: 1. 明确分析目的和内容 2. 数据收集 3. 数据处理 4. 数据分析
5. 数据展现:能用图说明问题的,就不用表格,能用表格说明问题的,就不用文 字。 6. 报告撰写
几个常用指标或术语:
1. 平均数:我们在日常生活中提到的平均数,一般是指算术平均数,就是一组数据的算术平均值,即全部数据累加后除以数据个数。它的特点是将总体内各单位的数量差异抽象化。 2. 绝对数与相对数:绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标,也可以表现为在一定时间、地点条件下数量的增减变化。相对数是指由两个有联系的指标对比计算而得到的数值,它是用以反映客观现象之间数量联系程度的综合性指标。
相对数=比较数值(比数)/基础数值(基数)
分母是用做对比标准的指标数值,简称基数;分子是用做与基数对比的指标数值,简称比数。
3. 百分比与百分点:百分比是相对数中的一种,它表示一个数是另一个数的百分之几,也称百分率或百分数。百分点是指不同时期以百分数的形式表示的相对指标的变动幅度。
4. 频数与频率:频数是指一组数据中个别数据重复出现的次数。频率是每组类别次数与总次数的比值,它代表某类别在总体中出现的频繁程度,一般采用百分数表示,所有组的频率加总等于100%。所以频数是绝对数,频率是相对数。
5. 比例与比率:比例与比率都属于相对数。比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。
6. 倍数与番数:倍数与番数同样属于相对数,但使用时容易混淆。倍数是一个数除以另一个数所得的商。需要注意的是,倍数一般是表示数量的增长或上升幅度,而不适用于表示数量的减少或下降。番数是指原来数量的2的N次方倍。
7. 同比与环比:同比是指与历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况,例如2010年12月与2009年12月相比。环比是指与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况,例如2010年12月与2010年11月相比。 二、
数据准备
2.1理解数据
2.1.1字段与记录
字段:字段是事物或现象的某种特征。比如成绩表中的“学号”“姓名”“总分”等都是字段,在统计学中称为变量。
记录:记录是事物或现象某种特征的具体表现。比如成绩表中的“性别”可以是男或女,“总分”可以是273或者230等,记录也称为数据或变量值。
2.1.2数据类型
在Excel中用单元格格式查看所有的数据类型,操作步骤如下:
选择Excel中的任意一个单元格,单击鼠标右键,在弹出的菜单中选择“设置单元格格式”,会出现“设置单元格格式”对话框,在这个对话框中,可以看到各种不同的数据类型,比如:数值、文本、日期、货币、会计专用、时间、百分比、分数、科学计数、特殊等。 Excel中虽然有这么多数据类型,但最终都可以归结为以下两大类。 字符型数据:字符型数据是不具计算能力的文字数据类型。
数值型数据:数值型数据是直接使用自然数或度量单位进行计量的数值数据。
2.1.3数据表
数据分析所需要的数据表(由字段、记录和数据类型构成),也是有一定要求的,具体如下: 序号 1 2 3
要求
数据表由标题行和数据部分组成
第一行是表的列标题(字段后),列标题不能重复
第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许空白
行和空白列
4 5 6
数据表中不能有合并单元格存在
数据表与其他数据之间应该留出至少一个空白行和一个空白列
数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式
存在的,此时应将二维表转化为一维表的形式储存数据
注:一维表的列标签是字段,二维表的列标签是数据,这里的“维”指的是分析数据的角度。 怎样操作才可以将二维表转化为一维表?介绍如何使用数据分析工具时会讲到。
2.1.4问卷录入
数值题:数值题一般要求被调查者填入相应的数值,或者打分。录入人员只需输入被调查者十几天入的数值即可。
单选题:单选题的特征就是答案只能有一个选项,所以编码时,只需要定义一个变量,即给该题留一列进行数据的录入。
多选题:多选题的特征是答案可以有多个选项,其中又分为项数不定多选和项数限定多选。多选题的录入有两种方式:二分法和多重分类法。
二分法:把每一个相应选项定义为一个变量,每一个变量值均做如下定义:“0”代表未选,“1”代表已选;
多重分类法:事先定义录入的数值,比如1、2、3、4、5、6、7分别代表选项A、B、C、D、E、F、G,并且根据限选的项数确定应录入的变量个数。例如示例问卷第25题限选3项,那么需要设立3个变量,被调查者在该题选ACF,则这3个变量的值分别为1、3、6。
排序题:对于排序题我们需要对选项重要性进行排序。排序题的录入与多重分类法类似,先定义录入的数值,1、2、3、4、5、6分别代表选项A、B、C、D、E、F,然后按照被调查者填写的顺序录入选项。
开放性文字题:开放性文字题一般都放在问卷的结尾,需要被调查者自己填写一些文字表述观点或建议,对于开放性文字题,如果可能的话可以按照含义相似的答案进行归类编码,转换成为多选题进行分析。如果答案内容较为丰富、不容易归类,就应对这类问题直接做定性分析。
2.2初识Excel 2.2.1菜单操作
8个主选项卡及其功能:
1.文件 打开或保存针对整个文件设置的内容 2.开始 Excel常用功能,例如设置文字颜色大小等
3.插入 需要插入对象的使用,如插入图片、图形、链接、符号等时候使用 4.页面布局 主要是设置主题、打印等相关功能 5.公式 顾名思义,就是要用到公式的时候使用 6.数据 主要针对数据筛选、查找等数据处理的功能 7.审阅 在对文档进行检查、修改或者设置权限的时候适用 8.视图 为读者阅读文档时提供各种人性化的设置
自动调整列宽:方法一:我们可以用鼠标选中A列至D列,在菜单栏里选择“开始”主选项卡→“格式”→“自动调整列宽”
方法二:选中A列至D列,鼠标移动到A、B、C、D任意列标之间,直到光标变成左右带箭头的十字图形,然后双击,选中的所有列即自动调整为最合适的列宽了。这种方法还可以用于调整合适的行距。 怎样添加功能或者添加选项卡:
1.单击“文件”主选项卡,再单击“选项”按钮,接着就会弹出对话框;
2.在“自定义功能区”选择“所有命令”,找到要添加的命令,再选择你要放入的选项卡。在这里还可以新建选项卡或者新建组,我们在“数据”主选项卡下单击“新建组”,选中“百分号”,再单击“添加”按钮即可。
将功能添加到“快速访问工具栏”里,操作大同小异。
2.2.2函数
函数的作用是将指定的数据按照一定的规则转化为需要的结果。 关于函数的几点说明:
1.每个函数都会有一个函数名,都有一对括号将参数包围住,参数间用逗号分隔,参数可以是公式、函数、值。
2.在单元格内等号作为函数的开始,函数可以嵌套。
3.掌握函数的关键在于了解其基本功能和使用方法,并多用,不需要死记硬背函数名,但最好是有个大概了解,需要用时可方便查找。 怎样插入函数:
在菜单栏里,选择“公式”主选项卡,然后找到“插入函数”菜单,单击,这时会弹出插入函数的对话框,对照“插入函数”对话框,可以先在“或选择类别”下拉列表中选择函数的分类,然后在“选择函数”列表框中找到我们所需的函数。
注意:当选定一个函数时,对话框中也会出现相应的函数解释供我们参考。如果仍不确定该函数的含义及使用方式,可单击“有关该函数的帮助”,就能在线搜寻到该函数更详细的信息。
函数自助工具:
1. 怎样快速找到需要的函数?选择“公式”主选项卡→“插入函数”,打开“插入函数”对话框,在对话框的“搜索函数”文本框中直接输入所要的函数功能。比如输入“排序”,在下面的“选择函数”列表框中就会列出用于排序的函数。单击选择某个函数,对话框底部会给出关于该函数的简单说明。
2. 在编辑栏中显示函数工具提示:如果记得函数的大致拼写样子,可直接在编辑栏里输入头几个字母,编辑栏下方就会出现以这些字母开头的函数,并会显示相应的解释,若我们选择某一个函数,双击它,将会出现函数提示,里面有函数的参数信息。
2.2.3图表
作图表的主要目的是为了表现数据、传递信息。所以每一幅图表都必须有中心思想,即你要传递的主要信息。作一幅好图是数据分析师一项非常重要的必修技能。
图表的基本操作:先用鼠标选择数据区域,再在“插入”选项卡的“图表”功能区任意单击一个图表类型,即可生成该类型的图表。 三种编辑图表的方式:
方法一:用鼠标单击图形中的任意地方,接着你就会发现Excel的功能区里多了一个“图表工具”的功能组,其中包含了“设计”、“布局”和“格式”选项卡,你可以根据自己的需求编辑该图表。
方法二:鼠标双击该图表的任意区域,即可弹出对应的格式对话框,这个操作最简单。
方法三:按“Ctrl+1”快捷键,同样可以弹出对应的格式对话框,再进行编辑。 2.2.4宏
宏:宏是一个指令集,用来告诉Excel完成用户指定的动作。宏类似于计算机程序,但它是完全运行于Excel之中的,我们可以使用宏来完成枯燥的、频繁的重复性工作。
如何录制宏:录制宏是创建宏的最简单、最常用的操作,使用录制的宏就能将操作过程保存下来用于以后进行同样的操作。“录制宏”可以理解为“录制过程”,就像你用录音机录音一样,从按下“录音”键直到按下“停止键”,这期间的所有声音都被录了下来,以后再按“播放”键就能反复听这段录音了。
1.打开“视图”选项卡,单击“宏”的下拉菜单,先选中“使用相对引用”选项,再单击“录制宏”选项。
2.此时,会弹出一个“录制新宏”对话框,在里面可以命名宏名,你可以根据宏实现的功能来命名。注意设置快捷键不要与Excel本身内置的快捷键重复。 3.在工作表中执行你的操作。
4.再单击“视图”选项卡→“宏”→“停止录制”。
5.选择任意其他单元格或者区域,这里我们选择A1单元格的邻居A2,再单击“视图”选项卡→“宏”→“查看宏”,此时会弹出一个宏窗口,选择刚才的“红色加粗”的宏,并单击“执行”按钮。使用快捷键也会达到同样的效果。
2.2.5快捷键 常用的快捷键: 类别
快捷键 说明
工作簿操作 Ctrl+O 打开工作薄
Ctrl+N 新建工作薄 Ctrl+S 保存工作薄 Ctrl+W 关闭工作薄 Shift+Fll插入新工作表
单元格选定 Ctrl+A 全选
Ctrl+Shift+* 选择当前单元格周围区域
单元格操作 Ctrl+C 复制
Ctrl+X 剪切 Ctrl+V 粘贴
Ctrl+Y 重复上一步操作 Ctrl+Z 撤销
Enter
下移一个单元格
单元格输入与编辑
Tab 右移一个单元格 Ctrl+F 查找
万能快捷键——按键提示 操作步骤:
1.按Alt键,显示按键提示,Excel界面上的选项卡和按钮即刻出现了带方框的按键提示。 2.在键盘上按下对应选项卡的按键,即刻就能在功能区上打开该选项卡。打开的选项卡将继续显示其包含的所有功能的按键提示。
2.3数据来源
2.3.1导入外部数据
导入的外部数据最常见的来源有两种:文本和网站数据 导入文本数据:
1.单击“数据”选项卡,选择“自文本”选项,Excel会自动弹出相对应的对话框。 2.找到保存的“*.txt”文件,打开。(还有一种方式是,在“文件”选项卡中,选择“打开”选项,Excel会自动弹出对话框,在“文件类型”中选择“文本文件”,然后,从要打开的文本文件所在位置打开“*.txt”文件。)此时,将会弹出“文本导入向导”对话框。 3.在对话框中有两个选项“分隔符号”和“固定宽度”。如果文本文件中的列标签以制表符、冒号、分号、空格或其他字符分隔,则选择“分隔符号”,如果你想自己设定每列分隔的具体位置,则选择“固定宽度”。这里选择“分隔符号”,单击“下一步”,得到对话框。 4.在对话框中列出了Tab键、分号、逗号、空格的分隔符以供选择。如果分隔符是其他字符,则选中“其他”复选框,然后在后面的文本框中输入字符。在这里我们选择“Tab键”,单击“下一步”按钮,弹出文本导入向导第3步的对话框。
5.如果不需要将某列导入Excel中,可以在“数据预览”中选择此列,然后勾选“不导入此列(跳过)”,则该列不会输出至Excel文件。在这里,我们不需要删除某列,故选择“常规”即可,单击“完成”按钮。
6.弹出“导入数据”对话框,在其中选择存放数据的位置,单击按钮拖动或者缩放单元格区域,再次单击按钮恢复对话框,最后单击“确定”按钮。
7.返回工作表,文本文件中的数据就会按所设置的格式自动导入到其中。 自动导入网络数据:
1.单击“数据”选项卡,选择“自网站”选项,Excel会弹出“新建Web查询”对话框。
4.Excel将显示一条消息,指出有多少重复值被删除,有多少唯一值被保留,或是否没有删除重复值。单击“确定”按钮,完成操作。 (2)通过排序删除重复项
我们采用函数识别重复值的方法得到了COUNTIF辅助列,可以利用该辅助列采用排序和筛选的方法删除重复数据。
1.选中“第二次重复项”中任意一个有数据的单元格。
2.选择“开始”主选项卡→“编辑部分”功能组→“排序和筛选”→“降序”,于是得到了重新排序的数据,其中前三项是重复项(因为数值大于1)。 3.删除前三项所在的行,就OK了! (3)通过筛选删除重复项
同样,可以利用COUNTIF辅助列。
选中“第二次重复项”中任意一个有数据的单元格,然后选择“数据”主选项卡→“排序和筛选”功能区→“筛选”,在列标签中会出现下拉菜单,单击下拉菜单,挑出不等于1的数值,单击“确定”按钮就得到重复项了。最后,删除筛选出来的行。
3.2.3处理缺失数据
缺失的值过多,说明数据收集过程中存在着严重的问题。可以接受的标准是,缺失的值在10%以下。
缺失值是指数据集中某个或某些属性的值是不完全的。 缺失值产生的原因主要分为:机械原因和人为原因。
机械原因是由于数据收集或保存失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集等。
人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失。 在数据表里,缺失值最常见的表现形式就是空值或者错误标识符。 怎样在数据表里查找出所有缺失值:
定位输入:如果缺失值是以空白单元格形式出现在数据表中,一步将所有的空白单元格查找出来最快捷的方式是采用定位功能。
在Excel“开始”主选卡的“编辑”功能区,单击下拉菜单里的“定位条件”选项,或者直接使用快捷键“Ctrl+G”,会弹出“定位”对话框。再选择“定位条件”→“空值”→“确定”,则所有的空值都被一次性选中了。 (1)处理缺失值的四种方法:
1.用一个样本统计量的值代替缺失值。最典型的做法就是使用该变量的样本平均值代替缺失值。
2.用一个统计模型计算出来的值去代替缺失值。
3.将有缺失值的记录删除,不过可能会导致样本量的减少。
4.将有缺失值的个案保留,仅在相应的分析中做必要的排除。当调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度相关的情况下,采用这种方式处理比较可行。
注:在实际操作中,采用样本平均值替代缺失值是比较常见的实用的方法。当样本数量较大时,我们可以采用定位查找一次,选出样本里的所有空值,再利用“Ctrl+Enter”快捷键在所有选中单元格中一次性输入样本平均值。(如果只是想将某一列中的空格找出来,可以先选中该列,再定位。)
(2)“Ctrl+Enter”快捷键:在不连续的区域中同时输入同一个数据或公式时很好用。例子如下:
1.选择一个单元格或区域,然后按住Ctrl键不放,再选择第二个、第三个……单元格或区域,直到选中所有要输入数据的区域才松开Ctrl键。
2.松开Ctrl键后,输入要录入的数据,在这里我们以输入“小白”为例,因为最后一个选中的单元格是C4,则C4出现了我们录入的“小白”。
3.别急着按Enter键,这里改成按“Ctrl+Enter”组合键,则所有选中的单元格都变成“小白”了。
查找替换:当缺失值是以错误标识符形式出现的时候采用。 (1)常用的查找与替换方法
查找与替换,查找出所有出现同一错误标识符的单元格,在“开始”选项卡的“编辑”组中,单击“查找和选择”按钮。同样可以用快捷键,查找功能的快捷键为“Ctrl+F”,替换功能的快捷键为“Ctrl+H”,在“查找内容”文本框中输入要查找的文本或数字,在“替换为”中,输入要替换的文本或数字,单击“替换”按钮即可。
例:我们查找错误标识符“#DIV/0!”并将其全部替换成“0”,操作如下: 1.选中所有数据区域。
2.按“Ctrl+H”快捷键,弹出“查找和替换”对话框。
3.在“查找内容”中输入要搜索的文本或数字,这里我们输入“#DIV/0!”,在“替换为”右栏内输入“0”,再单击“全部替换”按钮,则所有“#DIV/0!”都替换为“0”了。 (2)用通配符模糊查找
如果要查找的内容不一定这么精确,例如我们要查找以××开头的字符串,以××结尾的字符串,或者包含××的字符串,××排在第几位的字符串,都可以使用通配符实现模糊查找。 搜索目标
搜索关键词的写法
a*
以a开头的字符串
以b结尾的字符串 包含a的字符串 *a*
*b
A排在第二位的字符串 ?a* (3)利用查找替换实现更多功能
在“查找和替换”对话框里,还可以单击“选项”进一步定义搜索。 其中内置了许多查找选项,如图: 需要达到的目的 相关操作
在工作表或整个工作薄中搜索数据 在“范围”框中选择“工作表”或“工作薄” 在行或列中搜索数据 在“搜索”框中单击“按行”或“按列”
搜索带有特定详细信息的数据 在“范围”框中单击“公式”、“值”或“批注” 搜索区分大小写的数据
选中“区分大小写”复选框
选中“单元格匹配”复选框
搜索只包含“查找内容”框中的字符 搜索具有特定格式的文本或数字
3.2.4检查数据逻辑错误 数据一般会有两种错误形式: 1.被调查者输入的答案不符合要求。 2.录入错误。
单击“格式”,然后在“查找格式”对话框中进行选择
一般情况下IF函数能解决大部分问题,再巧妙地搭配条件格式。 利用IF函数检查错误:检查第一类错误
IF函数:IF即判断语句,判断逻辑值是真还是假。所以IF函数有三个组成部分:需要判断的表达式,表达式为真时的显示值,表达式为假时的显示值。
注:a.条件表达式是用比较运算符(<、=、>)建立的式子,无比较就无判断。 b.两个值若是数值数据可直接书写,若是文本数据则要用双引号标记。 c.参数里所有用到的标点符号都是英文状态下的标点符号。 d.IF函数可进行嵌套,最多可以有七层。 利用条件格式标记错误:检查第二类错误
选择数据区域B3:H6,再选择“开始”主选项卡→“条件格式”→“突出显示单元格规则”→“其它规则”→“使用公式确定要设置格式的单元格”,在“为符合此公式的值设置格式”文本框中输入“=OR(B3=1,B3=0)=FALSE”,最后单击“格式”按钮将格式调整为红色加粗倾斜字体,完成设置。OR函数与AND函数的使用方法: OR(logical1,[logical2],…):至少一个参数为真,就返回TRUE AND(logical1,[logical2],…):所有参数全部为真,才返回TRUE 嵌套函数:
IF函数是嵌套函数,Excel97—2003版本最多可进行7层得嵌套,而Excel2007—2010版本对函数嵌套可达64层。
嵌套函数,就是指在某些情况下需要将某函数作为另一个函数的参数使用,这种函数就是嵌套函数。
原则上不建议使用太多嵌套函数,原因: 其一,公式复杂时,很容易出错。
其二,使用很复杂的函数会降低Excel的反应速度。
有时候非得用到很复杂的嵌套公式,怎么检验这种复杂公式的计算结果呢?
一是把大公式的每一部分(每一步)拆分到多个单元格中,再用一个最终的公式将所有单元格合并起来,这样子就能检验公式中每一步返回的结果是否正确。
二是利用Excel里的分步查看公式功能检验每一步的公式计算结果。
分步查看公式计算值:以单元格公式“=IF(COUNTIF(B3:H3,”<>0”)>3,”错误”,”正确”)”为例,分步查看公式计算结果的操作步骤如下: 1.选择要求值的单元格。注意,一次只能对一个单元格求值。
2.在“公式”选项卡的“公式审核”功能区中,单击“公式求值”按钮。
3.在弹出的“公式求值”对话框中单击“求值”以检查带下画线的引用值。求值结果将以斜体显示。如果公式的下画线部分是对其他公式的引用,单击“步入”按钮可以在“求值”框中显示其他公式,单击“步出”按钮将返回到以前的单元格和公式。继续操作,直到公式的每一部分都求值完毕。
4.若要再次查看计算过程,单击“重新启动”按钮,若要结束求值,单击“关闭”按钮即可。 更简洁的方法:
在编辑栏里选中公式中的“COUNTIF(B3:H3,”<>0”)>3”,该部分将以黑色背景显示,然后按下F9键即可在编辑栏显示该部分的计算结果。
(注:在用F9键对每一段的公式进行计算时,注意要选定整个函数名称、左圆括号、参数和右圆括号。)
检验完公式后,可以按Esc键退出,如果要用F9键计算的结果替换原公式选定的部分,可以按Enter键或者“Ctrl+Shift+Enter”组合键返回普通公式或数组公式。 在公式中查错:
错误标识符(当公式无法正确计算结果,Excel就会显示这些符号)的错误原因: 错误符号 ####
错误原因
数值或公式太长,单元格容纳不下
#DIV/0! 0为除数
#N/A 函数或公式中没有可用的数值
在公式中使用了Excel不能识别的文本
#NAME?
#NULL! 使用了不正确的区域运算符或引用的单元格区域的交集为空 #NUM! 公式或函数中某些数字有问题 #REF! 单元格引用无效 #VALUE!
在公式中使用了错误的数据类型
在出现了这些错误符号时,我们可以单击“公式审核”工具栏中的“错误检查”按钮,Excel会逐个显示出错单元格供检查。如果一个公式的错误是由它引用的单元格的错误所引起的,在“错误检查”对话框中会出现“追踪错误”按钮,单击它可以标识Excel工作表中公式引用时所包含错误的单元格及其引用单元格,用蓝色箭头表示错误的引用指向。
3.3数据加工
为什么要对数据进行加工?因为原来的数据字段不满足我们的需求,所以需要对原字段进行抽取、计算或者转换,形成我们需要的新数据列。 如何插入新数据列:
方法一:例如,要在C列前面增加一列,则可以选择C列,右击鼠标,选择“插入”,或者在“开始”选项卡的“单元格”功能区中选择“插入”→“插入工作表列”。 (注:这种方式插入的新列默认格式与该列的前一列一样。)
方法二:更快捷的方法是,如果想在“姓名”和“性别”中间插入一列数据,先用鼠标选中姓名右边所有列,再把光标移到选择范围的边缘,当光标变成四向箭头,拖动鼠标右移一格即可。
(注:这种方式等于是将所选区域往右移动了一列,所以新列是空白的、无格式的。)
3.3.1数据抽取
数据抽取,是指保留原数据表中某些字段的部分信息,组合成一个新字段。可以是字段分列、字段合并和字段匹配。
字段分列:截取某一字段的部分信息 (1)菜单法:当有特定的分隔符时
1.选择要转换的数据区域,在“数据”选项卡上的“数据工具”组中,单击“分列”按钮。 2.在“文本分列向导—第1步”对话框中,单击“分隔符号”,然后单击“下一步”按钮。 3.在“文本分列向导—第2步”对话框中,根据需要选择分隔符号。在此列中,姓和名是以空格的形式分开的,所以选中“空格”复选框,单击“完成”按钮,字段分列就完成了。 (2)函数法:当有特定的分隔符时,采用分列法非常方便快捷。但是有时候,我们需要提取特定的几个字符,或者是第几个字符,并且没有特定的分隔符。
LEFT和RIGHT函数的用法:(text包含要提取的字符的文本字符串,[num_char]指定要由LEFT或RIGHT提取的字符的数量。
LEFT(text,[num_char]):得到字符串左部指定个数的字符 RIGHT(text,[num_char]):得到字符串右部指定个数的字符 字段合并:将某几个字段合并为一个新字段。
合并文本和数字有两种方式,利用COUNCATENATE函数和“&”(逻辑与)运算符。 函数TEXT的作用是,在使用连接运算符连接数字与文本字符串时,控制数字的显示方式。如果不用TEXT,则默认显示引用单元格中的基本数据,使用TEXT可恢复原数字格式。 COUNCATENATE(text1,text2,…):将几个文本字符串合并为一个文本字符串。 注:COUNCATENATE函数在将数字和文本合并到一个单元格中时,数字将成为文本,而不再用作数字,也就是说,无法再对其执行任何数学运算。
字段匹配:将原数据表没有的,但其他数据表中有的字段,有效地匹配过来。 1.打开“员工职位表”和“员工个人信息(销售部)”两张表格。
2.在“员工个人信息(销售部)”表格的F2单元格中输入公式“=VLOOKUP(B2,[员工职位表.xlsx]Sheet1!$B$1:$D$11,3,0)”,按Enter键。注意,输入VLOOKUP函数的第二个参数时,不需要手动录入,直接选中“员工职位表”中B1:D11的区域,参数将自动录入成“[员工职位表.xlsx]Sheet1!$B$1:$D$11”。
3.复制F2单元格,并粘贴至F3:F7,即完成数据提取。
VLOOKUP匹配函数:在表格的首列查找指定的数据,并返回指定的数据所在行中的指定列处的单元格内容。
VLOOKUP(lookup_value,table_array,col_index_num,range_lookup) 注:lookup_value要在表格或区域的第一列中查找的值,其参数可以是值或引用。 table_array包含数据的单元格区域,可以使用绝对区域(如A2:D8)或区域名称的引用。(table_array第一列的值必须是要搜索的值(lookup_value),否则就会出现错误标识符“#N/A”。)
另外还有两种情况会出现错误标识符“#N/A”:数据存在空格,此时可以嵌套使用TRIM函数将空格去除;还有可能是数据类型或格式不一致,此时将类型或格式转为一致即可。 col_index_num希望返回的匹配值的序列号,其数值为1时,返回table_array第一列中的值;数值为2时,返回table_array第二列中的值,依此类推。 range_lookup近似匹配(1)还是精确匹配(0),一般情况选0。
3.3.2数据计算
简单计算:就是字段通过加、减、乘、除等简单算术运算就能计算出来。在Excel中加、减、乘、除对应的运算符就是键盘中的“+、-、*、/”符号。 1.在D2中输入“B2*C2”,然后按Enter键完成输入。
2.将鼠标移动到D2单元格的右下角,直到出现填充柄,再双击填充柄,则D3:D6自动填充了D2的公式,D6的公式就是“B6*C6”。
3.选中D7单元格,再选择“开始”主选项卡→“编辑”功能组→“自动求和”→“求和”,按“Enter”键,完成输入。
函数计算:有简单计算,也就有复杂计算,所谓的复杂计算就是指运用到函数的计算。 (1)计算平均值与总和
求平均值函数为AVERAGE()函数,求和函数为SUM()函数
括号内是需要计算的参数,参数可以为数字、单元格引用、区域或者定义的名称,参数与参数之间用逗号隔开。
(2)利用MAX、MIN函数计算工时 MAX(number1,number2,…):求最大值。 MIN(number1,number2,…):求最小值。 参数可为数字、单元格引用、区域或定义的名称。 具体方法:
1.在D2单元格中输入“=MIN(C2,”18:00”)-MAX(B2,”9:00”)-$D$12”,按Enter键。 2.将鼠标指针置于单元格D2右下角,待指针变为十字形后双击鼠标,可看到D2:D11填充了数据。
(3)在状态栏查看计算结果 方法:
1.选中需要求和的数据区域,即可看到状态栏右边有平均值、计数和求和结果。
2.把鼠标移到状态栏,再单击右键,可在最大值和最小值前面打“√”,也就看到所选数据区域中的最大值和最小值了。 (4)日期的加减法 显示
公式
快捷键
=TODAY() Ctrl+;
2010—11—5 11:31
Ctrl+Shift+;
“Ctrl+;”(分号),再按空格键,接着按”Ctrl+Shift+;”
2010—11—5 11:31 =NOW()
注:表中公式插入的是动态的日期或时间,快捷键插入的是静态的日期或时间。 如果要为日期添加“年月日”组合的时候,我们可以用DATE函数。 DATE(year,month,day):返回表示特定日期 YEAR(serial_number):返回某日期对应的年份
MONTH(serial_number):返回以序列号表示的日期中的月份。用整数1~12表示 DAY(serial_number):返回以序列号表示的日期的天数,用整数1~31表示 (5)利用函数DATEIF计算工龄
DATEIF函数就是计算两个日期之间年/月/日的间隔数
DATEIF(start_date,end_date,unit):返回两个日期之间的年/月/日间隔数。 start_date时间段内的起始日期 end_date时间段内的结束日期
unit有Y/M/D/MD/YM/YD六种形式:
“Y”指时间段中的整年数,”M”为整月数,”D”为天数。
“MD”为start_date与end_date日期中天数的差,忽略日期中的月和年。
“YM”为start_date与end_date日期中月数的差,忽略日期中的日和年。 “YD”为start_date与end_date日期中天数的差,忽略日期中的年。
3.3.3数据分组
Excel中主要用VLOOKUP函数来实现数据分组。
1.准备一个分组对应表,用来确定分组的范围和标准。其中,“阈(yu)值”是指每组覆盖的数值范围中的最低值,“分组”记录的是每一组的组名,“备注”记录如何分组,目的是为了方便读者理解和识别。
2.在B2单元格中输入“=VLOOKUP(A2,$D$2:$E$12,2)”,并将公式复制到B2:B21的数据区域,即可。
这里VLOOKUP函数的应用与“数据提取”中有所不同,省略了VLOOKUP函数的最后一个参数range_lookup(逻辑值),即在此处默认的是近似匹配。
3.3.4数据转换 数据表的行列互换:
1.选择性粘贴:选择性粘贴不仅可以解决转置的问题,还可以选择性地粘贴格式、公式等,甚至还能选择数值将它们批量变成负数,或者加/减/乘/除一个固定值。 复制好数据区域后,有三种方式可用来进行选择性粘贴。
第一种,在“开始”选项卡上的“剪贴板”组中,单击“粘贴”按钮,然后单击“选择性粘贴”选项。
第二种,你也可以使用键盘快捷方式,按“Ctrl+Alt+V”快捷键会弹出“选择性粘贴”对话框,再勾上“转置”复选框,即可实现转置粘贴。
第三种,可以直接将数据粘贴在其他区域,这时在粘贴区域的右下角会显示“粘贴”的下拉菜单,单击下拉菜单,选择“转置”可实现转置粘贴。 其他常用的选择性粘贴功能: 项目 数值 公式 格式
功能
可以去除公式、格式等
只粘贴公式,使用时需注意绝对地址的应用
不用重新设置格式,对复杂格式较为适用,相当于格式刷
将复制区域的内容与粘贴区域的内容进行算术结合
运算区域
2.不用复制的粘贴
在单元格里输入“小白”,我要再复制粘贴一个显示“小白”的单元格出来,可直接用鼠标选中要复制的单元格,把光标移到选择范围的边缘,当光标变成四向箭头时,按住鼠标右键拖至其他空白单元格,松开右键,选“复制单元格”选项即可。 多选题录入数据方式之间的转换 (注意二分法和多重分类法的优缺点)
将多重分类法录入的数据转为二分法录入的数据的方法:
HLOOKUP函数:在表格的首行查找指定的数据,并返回指定的数据所在列中的指定行处得单元格内容。
lookup_value要在表格或区域的第一行中查找的值,其参数可以是值或引用。
table_array包含数据的单元格区域,可以使用绝对区域或区域名称的引用。第一行中的值是由lookup_value搜索的值。这些值可以是文本、数字或逻辑值。
col_index_num希望返回的匹配值的行序号,其值为1时,返回table_array第一行中的值;值为2时,返回table_array第二行中的值;依此类推。
range_lookup近似匹配(1)还是精确匹配(0) ISNUMBER函数
SEARCH(find_text,within_text,start_num):返回指定的字符串在原始字符串中首次出现的位置。
find_text要查找的文本字符串 within_text要在哪一个字符串查找
start_num从within_text的第几个字符开始查找
在find_text中,可以使用通配符,例如:问号“?”和星号“*”。其中问号“?”代表任何一个字符,而星号“*”可代表任何字符串。如果要查找的字符串就是问号或星号,则必须在这两个符号前加上“~”符号。
3.4数据抽样
我们最常见的调查方式主要有两种,普查和抽样调查。普查是指对总体中的对象——进行观察、访问与记录,确定资料。抽样调查是指从调查对象总体中按照随机原则选取一部分对象作为样本进行调查分析,以此推论总体状况的一种调查方式。
RAND()函数:返回[0,1]的均匀分布随机数,而且每次计算工作表时都将返回一个新的数值。
四、数据分析
4.1.1数据分析方法论与数据分析法的区别
数据分析方法论好比服装设计图,它为我们数据分析工作指引方向,数据分析法好比服装制作的工具及技术,它为完成各个数据的分析提供技术保障与支持。
4.1.2PEST分析法
PEST分析法:用于对宏观环境的分析,宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。对宏观环境因素作分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治(Political)、经济(Economic)、技术(Technological)和社会(Social)这四类影响企业的主要外部环境因素进行分析,这种方法简称为PEST分析法。 政治环境
构成政治环境的关键指标有:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、专利数量、国防开支水平、政府补贴水平、民众对政治的参与度等。 经济环境
构成经济环境的关键指标有:GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。 社会文化环境
构成社会环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市、宗教信仰状况等。 技术环境
构成技术环境的关键指标有:新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等。
4.1.3 5W2H分析法
5W2H分析法是以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索,即何因(why)、何事(what)、何人(who)、何时(when)、何地(where)、如何做(how)、何价(how much),这就构成了5W2H分析法的总框架。
4.1.4逻辑树分析法
把一个已知问题当成树干,然后考虑这个问题和哪些问题有关。
逻辑树能保证解决问题的过程的完整性,能将工作细分为利于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人。 逻辑树的使用必须遵循以下三个原则: 要素化:把相同问题总结归纳成要素。
框架化:将各个要素组织成框架,遵守不重不漏的原则。 关联化:框架内的各要素保持必要的相互关系,简单而不孤立。
不过逻辑树分析法也有它的缺点,就是涉及的相关问题可能有遗漏,虽然可以用头脑风暴法把涉及的问题总结归纳出来,但还是难以避免存在考虑不周全的地方。所以在使用逻辑树的时候,尽量把涉及的问题或要素考虑周全。
头脑风暴法又可分为直接头脑风暴法(通常简称为头脑风暴法)和质疑头脑风暴法(也称反头脑风暴法)。前者是在专家群体决策尽可能激发创造性,产生尽可能多的设想的方法,后者则是对前者提出的设想、方案逐一质疑,分析其现实可行性的方法。
4.1.5 4P营销理论
营销组合实际上有几十个要素,这些要素可以概括为4类:产品(Product)、价格(Price)、渠道(Price)、促销(Promotion)。
产品(Product):从市场营销的角度来看,产品是指能够提供给市场,被人们使用和消费并满足人们某种需要的任何东西,包括有形产品、服务、人员、组织、观念或它们的组合。 价格(Price):是指顾客购买产品时的价格,包括基本价格、折扣价格、支付期限等。价格或价格决策关系到企业的利润、成本补偿,以及是否有利于产品销售、促销等问题。 渠道(Price):是指在产品从生产企业流转到用户手上的全过程中所经历的各个环节。 促销(Promotion):是指企业通过销售行为的改变来刺激用户消费,以短期的行为促成消费的增长,吸引其他品牌的用户或导致提前消费来促进销售的增长。
如果需要了解公司的整体运营情况,就可以采用4P营销理论对数据分析进行指导,这样可以较为全面地了解到公司的整体运营情况。
4.1.6用户行为理论
网站分析的发展已经较为成熟,有一套成熟的分析指标。比如,IP、PV、页面停留时间、跳出率、回访者、新回访者、回访次数、回访相隔天数、流失率、关键字搜索、转化率、登录率等等。遇到这么多指标,我们需要梳理它们之间的逻辑关系,比如利用用户使用行为理论进行梳理。
用户使用行为是指用户为获取、使用物品或服务所采取的各种行为,用户对产品首先需要有一个认知、熟悉的过程,然后使用,再决定是否继续消费使用,最后成为忠诚用户。
PEST分析理论主要用于行业分析。
4P分析理论主要用于公司整体经营情况分析。
逻辑树分析理论可用于业务问题专题分析。
用户使用行为的用途较单一,就是用于用户行为研究分析。
5W2H分析理论,用途相对广泛,可用于用户行为分析,也可用于业务问题专题分析等等。 当然,这几种方法论也可以相互嵌套使用。
4.2数据分析方法 4.2.1对比分析法
对比分析法:是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。
对比分析法的特点:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。 对比分析法分类:静态比较和动态比较
静态比较是在同一时间条件下对不同总体指标的比较。 动态比较是在同一总体条件下对不同时期指标数值的比较。 实践运用: 1.与目标对比 2.不同时期对比
3.同级部门、单位、地区对比 4.行业内对比 5.活动效果对比
4.2.2分组分析法
做数据分析不仅要对总体的数量特征和数量关系进行分析,还要深入总体的内部进行分组分析。分组分析法是一种重要的数据分析方法,这种方法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。
分组分析法的关键在于确定组数与组距。 采用组距分组的步骤: 1.确定组数。 2.确定各组的组距。
3.根据组距大小,对数据进行分组整理,划归至相应组内。
4.2.3结构分析法
结构分析法:是指被分析研究总体内各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。一般某部分的比例越大,说明其重要程度越高,对总体的影响越大。
结构相对指标(比例)的计算公式为:
结构相对指标(比例)=总体某部分的数值/总体总量×100%
结构分析法的优点是简单实用,在实际的企业运营分析中,市场占有率就是一个非常经典的应用。
市场占有率=(某种商品销售量/该种商品市场销售总量)×100%
所以评价一个企业运营状况是否良好,不仅需要了解客户数、收入等绝对数值指标是否增长,而且还要了解其在行业中的比重是否维持稳定或者也在增长。
4.2.4平均分析法
平均分析法:就是运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。平均指标可用于同一现象在不同地区、不同部门或单位间的对比,还可用于同一现象在不同时间的对比。 平均分析法的主要作用:
1.利用平均指标对比同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,比用总量指标对比更具有说服力。
2.利用平均指标对比某些现象在不同历史时期的变化,更能说明其发展趋势和规律。
正在阅读:
谁说菜鸟不会数据分析(一)07-08
利用空客飞机的\\"AIDS\\"系统排除飞机故障 - 图文03-21
2018-2024年中国有机硅市场调查与市场年度调研报告(目录) - 图04-30
明末遗臣后裔在韩国10-08
2019年济南市九年级语文学业水平考试模拟试题及解析11-24
2011年注册安全工程师考试大纲10-03
这一课,令我成长无限作文400字07-07
历年托福听力疑难词组整理04-15
藕粉作文500字06-20
乡村一角作文800字06-18
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 菜鸟
- 数据分析
- 不会
- 高考中的非谓语动词的复合结构
- 亚洲开发银行贷款甘肃白银城市综合发展项目刘川工业园基础设施建
- 汉语写作_习题集(含答案)
- 6、《沿海港口建设工程概算预算编制规定》及配套定额介绍
- 江苏省南京市 高一地理下学期期中试题
- 佛门开坛启白科仪
- 心脑血管事件登记报告工作计划
- 2010-2011学年二学期机械设计期末考试试卷(B卷)1
- 国家电网公司网、省调电网调度自动化专业知识题库
- 2018中考数学试题分类汇编考点24 平行四边形(含解析)
- 房地产总部项目拓展风险管理制度(doc)
- 《管理学概论》期末考试
- 结构件成本核算操作指南
- (数控车床)一体化教学备课教案 - 图文
- 2005级-离散数学(1)教案-李占山,于海鸿,卢欣华 - 图文
- 2018版中国光敏树脂行业产销需求预测报告目录
- 设施园艺 复习 整理 知识
- 2世界地理 - 南亚中亚练习题 - 图文
- 2016年江苏省公务员面试试题真题
- 好的农村留守儿童文明礼仪、行为习惯养成教育研究研究报告