基于神经网络的中国人口预测算法研究毕业论文

更新时间:2024-06-11 21:23:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

(此文档为word格式,下载后您可任意编辑修改!)

毕 业 论 文(设 计)

题 目 基于神经网络的中国人口预测算法研究 所在院(系) 数学与计算机科学学院 专业班级 信息与计算科学1102班 指导教师 赵 晖 完成地点 陕西理工学院

2015年 5 月25日

基于神经网络的中国人口预测算法研究

作 者:宋 波

(陕理工学院数学与计算机科学学院信息与计算科学专业1102班,陕西 汉中 723000)

指导教师:赵 晖

[摘要]我国现正处于全面建成小康社会时期,人口发展面临着巨大的挑战,经济社会发展与资源环境的矛盾日

益尖锐。我国是个人口大国、资源小国,这对矛盾将长期制约我国经济社会的发展。准确地预测未来人口的发展趋势,制定合理的人口规划和人口布局方案具有重大的理论意义和实用意义。本文介绍了人口预测的概念及发展规律等。

首先,本文考虑到人口预测具有大量冗余、流动范围和数量扩大的特性,又为提高人口预测的效果,因此,使用归一化对人口数据进行了处理,该方法不需要离散化原数据,这样就保证了人口预测的准确性和原始数据的信息完整性。其次,本文提出了一种基于神经网络预测的优化算法,该算法避免了人们在预测中参数选择的主观性而带来的精度的风险,增强了人口预测的准确性。同时,为说明该算法的有效性,又设计了几种人们通常所用的人口模型和灰色预测模型算法,并用相同的数据进行实验,得到了良好的效果,即本文算法的人口预测最为准确,其预测性能明显优于其他算法,而这主要是参数的选择对于增强预测性方面的影响,最终导致人口预测精确度。同时,在算法的稳定性和扩展性方面,该算法也明显优于其他算法。

考虑出生率、死亡率、人口增长率等因素的影响,重建神经网络模型预测人口数量。

[关键词] 神经网络人口模型灰色预测模型软件

Population projections based on neural networks

Author: Song Bo

(Grade11,Class 2, Major in Information and computing science, Mathematics and computer science Dept.

Tutor:Zhao Hui

Abstract:Our country is now in the period of building a moderately prosperous society, demographic development is

faced with great challenges, the contradiction between economic and social development and environmental protection increasingly sharp. Our country is populous country, resources small country, this contradiction will have long hindered the development of economy and society. Accurately predict the future demographic trends, population planning and development of rational population distribution program has great theoretical and practical significance. This paper introduces the concept of population projections and development law and so on.

Firstly, taking into account the population predicted to have a lot of redundancy, to expand the scope and volume of flow characteristics, but also to improve the population projections of the effect, therefore, the use of normalized data were processed on the population, which does not require discrete raw data, this ensures that the population forecast accuracy and completeness of information the original data. Secondly, this paper presents an optimization algorithm based on neural network prediction, the algorithm avoids the people in the forecast parameters and risks subjectivity accuracy, and enhance the accuracy of population projections. Meanwhile, in order to show the effectiveness of the algorithm, and designed several people population model is usually used and the gray prediction model and algorithm, and tested using the same data, obtained good results, that population is the most accurate prediction algorithm, which forecast outperforms other algorithms, which mainly affect the selection parameters for enhanced predictability, eventually leading to population forecasting accuracy. Meanwhile, in the stability and scalability algorithm, the algorithm is also significantly better than the other algorithms.

Consider the impact of fertility, mortality, population growth and other factors, rebuild the neural network model to predict population.

Key words:Neural network population model grey prediction model software

目录

1. 绪论 ................................................... 1

1.1 引言 .................................................... 1 1.2 研究的背景及意义 ........................................ 1 1.2.1研究背景 ........................................... 1 1.2.2研究意义 ........................................... 2 1.3 人口预测发展及研究现状 .................................. 2 1.4 基本目标及主要内容 ...................................... 2 1.5 组织结构 ................................................ 3

2.三种模型基本概念和原理 .................................. 3

2.1阻滞增长模型(模型) .................................... 3 2.2灰色系统预测模型 ........................................ 4 2.2.1 研究领域及理论 ..................................... 3 2.2.2灰色模型发展 ....................................... 5 2.3 神经网络预测模型研究概述 ................................ 5

2.3.1神经网络模型概念 ................................... 5 2.3.2研究的发展 ......................................... 5 2.3.3研究领域 ........................................... 6 2.3.4神经网络学习过程 ................................... 6

3.本文算法描述 ............................................ 6

3.1阻滞增长模型的算法: .................................... 6 3.2算法 .................................................... 7 3.3神经网络算法实验 ........................................ 8

4.数据处理 ................................................ 8

4.1模型预测 ................................................ 8 4.2模型的求解 ............................................. 11 4.3 BP神经网络人口预测模型 ................................ 12

5.仿真实验及分析 ......................................... 15

5.1 数据来源说明 ........................................... 15 5.2 实验步骤 ............................................... 15 5.3 实验结论及分析 ......................................... 15 5.4 实验结论 ............................................... 16

致谢 ..................................................... 18 参考文献 ................................................. 18 附录 ..................................................... 19

1. 绪论

1.1 引言

中国是一个人口大国,人口的增长影响和制约着国家各个方面的发展,有效的预测人口数量,制定合理政策,将有利于国家的综合发展。人口预测是一个重要的理论和实际问题。传统的人口预测方法主要有生物增长模型、灰色预测、回归分析等方法,这些方法在人口预测领域起到一定的作用,但是在建立模型时都要对模型进行假设。由于真实模型往往是非线性的。如果在一些简单的模

[5-7]

型下进行数据模拟。结果往往不能达到较好的效果。文献中提出的模型,虽有预测功能,其预测精度不高,误差较大,且复相关系数作为评价指标处于失真状态。神经网络的出现,提供了解决这类问题的一种有效办法。

中国自古以来是一个人口大国。新中国成立后, 我国人口进入飞速发展阶段。1949年到1957年8年时间,人口增长了1亿;1964年总人口超过7亿,1969年总人口超过8亿,1974年总人口超过9亿。这一时期每增长1亿人时间间隔为5年。中国人口净增长率波动比较剧烈。80年代以后, 由于我国实行了计划生育,人口膨胀得到了有效的控制。实行近30年来,使我国少生了4亿多人,为中国现代化建设,全面实现小康社会打下了坚实的基础,同时也为世界人口控制做出了杰出贡献。但是由于中国人口基数大,人口增长问题依然十分严峻。

在我国现代化进程中必须实现人口与经济、社会、资源、环境协调发展和可持续发展,而人口问题始终是制约我国发展的关键因素之一。要发展,必须进一步控制人口数量,提高人口质量,改善人口结构。对中国未来人口的准确预测,能够为中国经济和社会发展的重大决策提供科学依据,这对加速推进我国现代化建设有着极为重要的现实意义。因此,根据已有数据运用数学建模的方法,对中国人口做出分析和预测是一个重要问题。 1.2 研究的背景及意义 1.2.1研究背景

人口问题始终是经济和社会发展的核心问题,中国作为一个发展中国家,占据着世界19%的人口比重,居于首位。所以处理好中国的人口问题对促进中国的经济社会发展至关重要。当前的计划生育人口政策是我国的一项基本国策,实施于1976年,它主要是针对当时我国人口大量增加、人口发展与经济社会发展水平极不相应等现象提出来的。实施30多年来,取得了相应的成效,在中国人口基数很大的情况下,有效地遏制了人口过快增长,提高了全民族的人口质量,同时为国家积聚了财富,优化了人均资源水平,开辟了一条具有中国特色的人口可持续发展道路,但是任何违背人口自然规律的措施都是有两面性的,在取得目标成绩的同时,当前人口政策所带来的另一方面的负面影响逐渐显现出来,进入21世纪以来,中国的人口、社会经济、环境形势发生了很大变化。出现了诸如人口出生性别比例失调,劳动力市场供给不足,老龄化趋势愈演愈烈等现象,这些都影响着中国经济社会发展的进程,成为目前亟待解决的问题。据统计,20世纪与21世纪之交,我国的人口年龄结构率先步入老年型,2000年,我国65岁及以上的老年人口比例达到了6.96%,而第六次人口普查结果显示这个比例已高达8.87%,中国城市老年家庭空巢率也增至49.7%,农村已达38%。这些对经济和社会的发展都提出了新的挑战,中国的人口问题也面临着新的研究环境。

人口数量、质量和年龄分布等因素直接影响一个国家或地区的经济发展、资源分配、社会保障、社会稳定和城市活力。对此,单纯的人口数量控制(如已实施多年的计划生育)不能体现人口规划的科学性。政府决策部门需要更详细、更系统的人口分析技术,为人口发展策略的制定提供指导和依据。

随着对人口规划精准度要求的提高,通过数学方法来定量计算各种人口指数的方法日益受到重视,这就是人口控制与人口预测。准确的人口预测为制定合理的社会经济发展规划提供了科学依据。例如,要制定生育计划,就必须知道未来妇女的生育率;要制定社会保障体系,就必须知道未来老年人口动态变化量。这些都离不开人口预测。政府可以根据这些未来人口信息状况,结合社会经济发展,在制定国民经济发展决策时,通过调控人口的方法对未来社会经济发展中的产业结构进行相

应的调整,使劳动力资源得到充分地开发和利用,社会资源得到合理分配,并采取措施提前应对由老龄化,低生育率等人口因素而可能产生的社会经济问题,从而使社会经济协调发展。

中国是一个人口大国,人口问题始终是制约我国发展的关键因素之一。我国人口发展经历了多个阶段,近年来中国的人口发展出现了一些新的特点,例如,老龄化进程加速、出生人口性别比持续升高,以及乡村人口城镇化等因素,这些都影响着中国人口的增长。全面建成小康社会时期是我国社会快速转型期,人口发展面临着前所未有的复杂局面,人口安全面临的风险依然存在。 1.2.2研究意义

从历史的角度看,本论文研究具有深刻的历史意义(人口预测与人口控制历来是人口研究中的重要课题,实施准确的人口控制可为制定合理的社会经济发展规划提供了科学依据,而进行人口预测的研究是实施人口控制的基础)。中国人口的主要特点是人口基数大、人口增长快,由此所衍生的诸多问题都不利于更多地增加社会积累和提高人均消费水平,将导致国内劳动适龄人口的过速增长,就业压力将加大,也不利于改变现有的人口结构及提高全民族的人口素质。目前,中国的自然资源总量在世界各国排名中仍位居前列,堪称资源大国,但人口的过快增长消耗了过多的自然资源,降低了人均资源占有率,导致了社会资源的过度开发,表现在国内许多地区的生态平衡已经打破,如植被破坏、水土流失、风沙侵蚀、灾害频繁和环境污染等现象。最终的后果是对国家的可持续发展造成严威胁,此与中国正致力于发展经济的宏伟目标相悖(中国政府的目标是力争在2050年左右达到中等发达国家水平,而基于此发展目标,必然要求控制中国人口数量,减缓中国人口的增长速度,这是今后时期中国人口政策的主要目标之一)。 1.3 人口预测发展及研究现状

人口是一个国家经济社会发展的重要因素,是反映国家基本情况的重要指标,也是引导国家发展的关键。人口预测是指在一定范围内,根据人口现状和对相关参数做出的假定,采用某种方法(预测模型),对未来某个时间段的人口现状、结构和趋势的预测。人口预测可以科学地把握人口发展态势,是人口研究领域中的重要课题,中国是一个人口大国,准确的预测结果可以为下一步我国人口发展规划提供理论与实证依据。人口预测研究的方法始于国外,早在1697年,英国就幵始了进行人口预测的相关研究,社会学家、人口学家GKing教授利用一种比较简单的数学理论模型,基于纯手工计算,对英国的人口发展状况进行了未来600年的宏观预测。虽然其预算方法比较粗糖,时间跨度也太长,预算结果可参考性不大,但是这种预测人口的思想对后人研究人口预测领域有着很大的启迪作用,为以后人口预测模型的发展奠定了基础。

国内的人口预测模型研究发展较晚,直到1949年新中国成立后,国内专家相继对国外的相关研究进行了梳理与扩展,同时取得了丰硕的研究成果,有继承也有创新。在前期研究中多采用定性方法分析,之后才引入数学理论模型,比如人口总量趋势外推模型、人口增长率预测模型、灰色预测模型、BP神经网络模型、人口发展方程、多区域人口预测模型、回归方程等。

人口预测,作为经济、社会研究的一种方法,应用越来越广泛,也越来越受到人们的重视。在描绘未来小康社会的蓝图时,首先应要考虑的是未来中国的人口数量、结构、分布、劳动力、负担系数等等,而这又必须通过人口预测来一一显示。人口预测研究是国家制定未来人口发展目标和生育政策等有关人口政策的基础,对于国民经济计划的制定和社会战略目标的决策具有重要参考价值。 因此,可以说人口预测的整个研究仍处于一个不断完善、不断发展的过程当中。 1.4 基本目标及主要内容

以1990年、2000年、2001年、2002年等为人口数据基准预测年,通过仿真软件对中国历年人口数据资料进行样本点采集,以逐次编码仿真实验对人口数据进行实测,通过多项式及傅立叶级数来动态建立及改进和等单种群人口预测模型,对采集的人口数据资料按年龄分组,构造矩阵,建立相应的模型,对人口分布结构进行预测,修正人口预测误差,优化模型的预测结果,将所构造的人口预测模型的准确度提高到实用化程度,其中由仿真的长期预测模型的曲线拟合,其可决系数将不低于0.99。

本论文主要是通过数学建模和计算机仿真技术相结合的手段,来研究实用化的中国人口预测动态建模问题。人口预测模型参数的科学认定,是人口预测实践中的重要环节,采用进行仿真计算,通过实测来设计高准确度的人口预测改进模型和适于相应修正的优化参数,以反演的方式建立长期预测,进而得出符合中国人口增长特点的人口预测实用化模型。

领域确定的发展思路之一,即是控制人口出生数量,提高出生人口质量。重点发展生育监测、生殖健康等关键技术,开发系列生殖医药、器械和保健产品,为人口数量控制在十五亿以内、出生缺陷率低于百分之三提供有效科技保障。本文分析了当前人口预测系统中分类算法的不足,尝试不断不改进算法,以期望达到良好的效果。针对这些问题,本文做了如下工作: 1.介绍了普通算法(人口模型、灰色模型)的原理分析;

2.通过分析相关算法来指出它们的缺点和不足,并指出引入本文所采用的神经网络算法后所达到的改善的效果;

3.用软件对数据进行仿真实验,验证改进后算法的有效性。 1.5 论文组织结构

本论文研究内容与安排:

第一章,绪论,介绍了人口预测的研究背景、意义和人口预测的主要内容,并给出了文章的结构安排。

第二章,介绍模型、灰色模型及神经网络预测模型的基本概念和原理。 第三章,介绍模型、灰色模型及神经网络预测模型的算法实现。 第四章,主要介绍三种预测模型在人口预测方面的数据处理。 第五章,预测结果的比较和模型的最优化选择。

第六章,结论,对全文做了总结,并对以后需要进行的工作进行了展望;参考文献和致谢。

2.三种模型基本概念和原理

2.1阻滞增长模型(模型)

模型是种群生态学的核心理论之一。100多年来,它几乎是描述种群型增长的唯一数学模型。利用它可以表征种群的数量动态;如鱼类种群的增长,收获与时间关系的确定。描述某一研究对象的增长过程如生态旅游区环境容量的确定,森林资源的管理以及耐用消费品社会拥有量的预测、国民生产总值的预测等;也可作为其它复杂模型的理论基础如Lo次a一Volterra两种群竞争模型;以上的大多数的工作都是拿逻辑斯蒂模型来用,但也由此可看出逻辑斯蒂方程不管在自然科学领域还是在社会科学中都具有非常广泛的用途。因此对其的产生、发展、演变及其类型给以系统的阐述显得非常有必要。

方程最早是由比利时数学家Verhu于1838年推导出来, 由于其能较好地描述某些有界增长现象 (型曲线增长) , 现已广泛地应用于预测学、信息科学、生物学、农业学和经济学等多个领域。曲线模型是描述因变量随时间变动趋势的模型, 因其计算简单, 经济含义明显,在产品市场扩展分析方面也备受青睐。美国Ed -winMansfield关于新产品市场扩张的模型的一微分方程为:

(1)

其中

为时刻市场上存在的可以使用的新产品的数量, 即市场保有量, 由第期的保有量加上当期销售量减去当期报废量即可得到。为市场最大容量, 即市场的最大保有量;为某一时刻新产品市场保有量与最

大市场保有量之比;为常数。由分离变量法求解式 ( 1) , 得

(2) 其中,为常数。则时刻产品的保有量, 增长量最大的时刻。

2.2灰色系统预测模型 2.2.1 研究领域及理论

在自然界和思维领域,不确定性问题普遍存在,大样本多数据的不确定性问题,可以用概率论和数理统计解决;认识不确定性问题,可以用模糊数学解决。然而,还有另外一类不确定性问题,即少数据、小样本、信息不完全和经验缺乏的不确定问题,少数据不确定性亦称灰性,即灰性问题,利用前述理论难以解决。按照系统与信息之间的关系,人们将系统分成三类,信息完全明确的叫做白色系统,信息完全不明确的叫做黑色系统。信息部分明确,部分不明确的系统叫做灰色系统。人体是灰色系统,因为尽管人体的部分外部参数,如身高、体重??以及部分内部参数,如体温、血压??是已知的,但有更多的参数是未知的。除人体之外,工业、农业、社会经济等领域,由于运行机制不清晰、环境变化、条件复杂、处理手段有限等,有许多的系统呈现灰性,需要创立一种新的理论对其进行研究解决[12]。

灰色系统理论就是解决灰性问题的理论,它是由华中理工大学的邓聚龙教授于1982年创立的,目前在我国已经成为社会、经济、科教、技术等很多领域进行预测、决策、评估、规划、控制、系统分析与建模的重要方法之一,成功地解决了很多实际问题。特别是它对时间序列短、统计数据少、信息不完全系统的建模与分析,具有独特的功效,得到了广泛的应用。

灰色系统提供了充分利用已知信息且尽量考虑未知信息来处理灰色问题的理论和应用的手段。灰色系统研究的是部分信息明确、部分信息未知的小样本、贫信息不确定性系统,它通过对已知部分信息的生成去开发、了解、认识现实世界,着重研究外延明确,内涵不明确的对象。灰色系统理论的实质是将无规律的原始数据进行累加生成,得到规律性较强的生成数列后再重新建模,由生成模型得到的数据再通过累加生成的逆运算累减生成得到还原模型,由还原模型作为预测模型。

灰色系统[4]:所谓灰色系统是指既含有已知信息, 又含有未知信息的系统, 是由邓聚龙教授在1986年提出的。灰色理论自诞生以来, 发展很快, 由于它所需因素少, 模型简单, 特别是对于因素空间难以穷尽, 运行机制尚不明确, 又缺乏建立确定关系的信息系统, 灰色系统理论及方法为解决此类问题提供了新的思路和有益的尝试。灰色预测方法是根据过去及现在已知的或非确知的信息, 建立一个从过去引申到将来的模型, 从而确定系统在未来发展变化的趋势, 为规划决策提供依据。在灰色预测模型中, 对时间序列进行数量大小的预测, 随机性被弱化了, 确定性增强了。此时在生成层次上求解得到生成函数, 据此建立被求序列的数列预测, 其预测模型为一阶微分方程, 即只有一个变量的灰色模型, 记为模型。灰色预测模型在计算过程中主要是以矩阵为主, 它和的结合可以有效的解决了灰色系统理论在矩阵计算中的问题, 为灰色系统理论的应用提供了一种新的方法。

预测模型的基本原理:模型是灰色预测的核心, 它是一个单个变量预测的一阶微分方程模型, 其离散时间响应函数近似呈指数规律. 建立模型的方法是:

设X(0)?X0(1),X0(2),?X0(n)为原始非负时间序列,为累加生成序列, 即

??X(t)??X(0)(m),t?1,2,?,n ( 1)

(1)m?1iGM(1,1)模型的白化微分方程为:

( 2)

式( 2) 中,为待辨识参数, 亦称发展系数;为待辨识内生变量,亦称灰作用量。设待辨识向量, 按最小二乘法求得式中

1?(X(1)(1)?X(1)(2))121?(X(1)(2)?X(1)(3))1B?2???1?(X(1)(n?1)?X(1)(n))12

于是可得到灰色预测的离散时间响应函数为:

u?u?X(1)(t?1)??X(0)(1)??e?at?a?a ( 3) ?为所得的累加的预测值,将预测值还原即为:

?(0)(t?1)?X?(1)(t?1)?X?(1)(t),(t?1,2,3?n) (4) X2.2.2灰色模型发展

基于灰色系统建立的预测模型被称为灰色模型(Grey Model),简称为模型。发展至今,模型之所以被广泛应用与研究,主要基于它的五个优点:

1)不需要大量的样本;

2)样本不需要有规律性分布; 3)计算工作量小;

4)定量分析结果与定性分析结果不会不一致; 5)可用于近期、短期和中长期预测。

灰色系统模型通俗地,被表示为,其中表示微分方程的阶数,表示不微分方程的变量数。虽然由一般灰色模型可以派生出很多类型的灰色模型,但是在预测中,研究人员以及实际工作者都将目光聚焦在计算效率较高的1阶、1个变量的微分方程模型。在实际应用性能上,计算负担被认为是最主要的评价指标[10]。简易地,只需要仅仅四个输入数据就可以实现一个预测[13],尤其对成指数发展的指标数据非常有效。在预测科学中,我们所研究的社会、经济、军事、气象、水文、农业、工业等统计数据,有时候并非以海量的形式出现,例如年工业生产总值、年度GDP数据,自统计部门诞生之日起也就三、四十年的数据,于是模型对于研究这类数据、帮助决策者做出合理科学地决策十分必要。有三个基础操作:累加生成操作(AGO),逆累加生成操作(IAGO),和预测模型。为了减少数据随机性和混乱带来的影响,累加生成操作将离散的、无规律的时间序列数据转换成严格单调递增的平滑时间序列。 2.3 神经网络预测模型研究概述 2.3.1神经网络模型概念

人工神经网络(Artificial Neural Network, ANN)简称神经网络,它是用大量简单的处理单元广泛连接组成的复杂网络,主要采用并行和自适应的信息处理方式,是对人脑神经网络的某种简化、抽象和模拟。在经济建模领域,神经网络模型灵活的映射关系是由数据驱动的,不需要像传统的计量经济模型那样对参数进行预先的限制近年来,学者对神经网络在经济建模中的应用研究也越来越多,特别是在模式识别、数据分类和经济预测方面的应用研究。 2.3.2研究的发展

1943年,Mc Culloch和Pitts从数理逻辑的角度,提出了神经元和神经网络最早的数学模型 MP 模

型,标志着神经网络研究的开始\此后,开始有学习算法的提出和新的网络模型的不断出现\例如,1949年Hebb提出的改变神经元连接强度的学习规则(Hebb 规则);1958年,Rosenblatt 提出的感知机(Perceptron)模型;1960年,Widrow和Hoff提出了自适应线性元件(Adaline)网络;1972 年,Kohnone和Anderson分别提出具有联想记忆功能的新神经网络;1976年,Grossberg和Carpenter提出了自适应共振理论(Adaptive Resonance Theory, ART),并进一步发展了ART1,ART2和ART3这三种神经网络模型;Grossberg 在自组织网络方面也有相关研究[13]。1970年到1986年间,神经网络领域的研究取得了突破性的重要成果,两个新概念的引入对神经网络的复兴具有极其重要的意义,一是John Hopfield提出的著名的Hopfield模型;另一个是Rumelhart和McClelland 提出的用于训练多层感知机的反向传播算法。另外,1983年Fukushima 等提出了神经认知机网络理论;1985 年,Ackley, Hinton和Sejnowski 将模拟退火概念移植到Boltzmann机模型的学习之中;1986年,Rumelhart和Mc Celland等发展了多层网络的BP(Back Propagation)算法,使BP 网络成为目前应用最广的网络等研究[13]。1987年开始,尤其是1990年代后,神经网络的研究进入了高潮(迄今为止提出的神经网络模型有几百个,在基础理论模型、算法实现和应用诸多方面都有了长足的进展)目前神经网络己经被应用到航空、汽车、银行、国防、金融、保险、机器人、医疗等等诸多领域,特别是在模式识别、预测评估、优化控制等方面的应用研究尤为突出。 2.3.3研究领域

神经网络模型的一个主要的应用领域是对时间序列进行预测[14]。(将人工神经网络技术应用于时间序列预测领域的研究最早可追溯至1964年,Hu在研究中利用Widrow提出的自适应线性网络进行天气情况的预测,但由于当时缺少多层网络的通用学习算法,这方面的研究受到了很大的限制[15],直到 1986年向后传播算法产生以后,神经网络预测领域的研究得到了很大的发展。 2.3.4神经网络学习过程

在神经网络模型的构建中要防止模型出现过拟合现象的发生。我们的研究初步是使用原有的数据建模,而后回代全部数据验证模型的结果,这种方式必定发生过拟合现象,因此我们并不选择拟合最佳的神经网络模型,而是选择相对较好的模型;而后通过后期的随机抽样将数据分为训练集和验证集,重新建模评价模型的可靠性以及实现3种模型的结果比较,尽可能的减低数据的过拟合。

学习过程中由信号的正向传播与误差的逆向传播两个过程组成. 正向传播时, 模式作用于输入层, 经隐层处理后, 传入误差的逆向传播阶段, 将输出误差按某种子形式, 通过隐层向输入层逐层返回, 并“分摊”给各层的所有单元, 从而获得各层单元的参考误差或称误差信号, 以作为修改各单元权值的依据. 权值不断修改的过程, 也就是网络学习过程,此过程一直进行到网络输出的误差准逐渐减少到可接受的程度或达到设定的学习次数为止。 BP网络模型包括其输入输出模型, 作用函数模型, 误差计算模型和自学习模型。

神经网络由输入层, 输出层以及一个或多个隐层节点互连而成的一种多层网, 这种结构使多层前馈网络可在输入和输出间建立合适的线性或非线性关系, 又不致使网络输出限制在-1和1之间。 见图2.1 。

3.算法描述

3.1阻滞增长模型的算法:

阻滞增长模型是考虑到自然资源、环境条件等因素对人口增长的阻滞作用,对指数增长模型的基本假设进行修改后得到的。阻滞作用体现在对人口增长率的影响上,使得随着人口数量的增加而下降。若将表示为的函数。则它应是减函数。于是有:

dx?r(x)x,x(0)?x0dt (1)

对的一个最简单的假定是,设为的线性函数,即

r(x)?r?sx(r?0,s?0) (2)

设自然资源和环境条件所能容纳的最大人口数量,当时人口不再增长,即增长率,代入(2)式得,于是(2)式为

(3)

将(3)代入方程(1)得:

(4)

解方程(4)可得:

(5)

3.2算法

由于统计数据偏少,数据信息的不完整,故用曲线拟合法、多元回归模型可能得到的结果误差较大,所以我们考虑用对信息质量要求不高的灰色系统分析法进行预测,建立灰色模型。 记其中表示第年数值。

1.令为建模序列,表示灰导数

x(0)?(x(0)(1),x(0)(2),...,x(0)(n)), (1)

其中

2.令为的AGO序列,

x(1)?(x(1)(1),x(1)(2),...,x(1)(n)),

(2)

3.令为的均值(MEAN)序列,表示白化背景值

z(1)(k)?0.5x(1)(k)?0.5x(1)(k?1), (3) z(1)?(z(1)(2),z(1)(3),...,z(1)(n)),

则得到的灰微分方程模型为

(4)

其中,

nnna??zk?2n(1)(k)?x(k)?(n?1)?z(1)(k)x(0)(k)(0)k?2(n?1)?z(1)(k)2?(?z(1)(k))2k?2k?2nk?2n;b??zk?2(1)(k)?z(1)(k)2??z(1)(k)?z(1)(k)x(0)(k)k?2k?22k?2nnn

(n?1)?z(k)?(?z(1)(k))2(1)k?2k?2nn

经变换后得到

(5)

3.3神经网络算法实验

神经网络是由大量处理单元组成自适应动力系统。它是对人脑或生物神经网络的抽象和建模,是一种模拟人的大脑神经元网络处理、记忆信息等工作方式的数学模型,具有从环境学习的能力,类似于生物的交互方式适应环境。神经网络由大量的神经元节点和节点间的相互连接构成。每个节点代表一种特定的输出函数,称为连接函数或激励函数(Activation Function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称为权重(Weight),这相当于神经网络的记忆。如果按神经网络信号传递的方向,可将神经网络粗分为2类:前馈型网络和反馈型网络。而在生物医学中,通常我们使用的神经网络模型为感知器模型,它是前馈型网络的一种。这种模型通过对网络权重的训练,可以对一组输入向量的响应达到0或1的目标输出,从而实现预测的目的。感知器一般分为单层感知器和多层感知器。单层感知器是仅有输入层和输出层组成的前馈型网络,每层可有多个节点构成。但是它的最大缺点是只能解决线性可分的分类模式问题,要增强网络的分类能力唯一的方法就是采用多层网络结构,即在输入层和输出层之间加一个(或若干个)隐含层,从而构成多层神经网络模型(Mutilayer Perceptron, MLP) 。同样,MLP是一种前馈型神经网络(如下图所示),它的结构即分为三层:输入层、输出层、隐含层(可有多个隐含层),每一层可包含一个或多个节点,其中每一层的每个节点和前一层相连接,同一层之间没有连接,网络的输出则依网络的连接方式、权重值和激励函数的不同而不同。其表达式如下列公式所示。

g0(E(y))?w0?w1H1?w2H2 H1?tanh(w01?w11x1?w21x2?w31x3) H1?tanh(w02?w12x1?w22x2?w32x3)

图3.1 前馈型神经网络示意图

?1其中是指目标变量(结果变量)的期望变换,即为输出激活函数的反函数,为激活函数的线性合并。其中,指权重。分别代表隐单元。指原因变量。指输出激活函数。主要有3种:

(1)线性函数

(2) Logistic函数:

z?A(u)?(3) 函数:

1?(0,1)1?exp(?u)

z?A(u)?1?2?(?1,1)1?exp(2u)

4.数据处理

4.1模型预测

为了对以后一定时期内的人口数做出预测,我们首先从中国统计年鉴数据库()上查到我国从

1960年到2013年全国总人口的数据如表4.1。

表4.1 各年份全国总人口数(单位:千万)

年份

1960

1961

1962

1963

1964

1965

1966

1967

1968

66.2

65.9

67.3

总人口 69.1 70.4 72.5 74.5 76.3 78.5

年份 总人口

1969 80.7

1970 83

1971 85.2

1972 87.1

1973 89.2

1974 90.9

1975 92.4

1976 93.7

1977 95

年份 总人口

1978 96.259

1979 97.5

1980 98.705

1981 100.1

1982

1983

1984 104.357

1985 105.851

1986 107.5

101.654 103.008

年份 总人口

1987 109.3

1988

1989

1990

1991

1992

1993 118.517

1994 119.85

1995 121.121

111.026 112.704 114.333 115.823 117.171

年份 总人口

1996

1997

1998

1999

2000

2001

2002 128.453

2003 129.227

2004 129.988

122.389 123.626 124.761 125.786 126.743 127.627

年份 总人口

2005

2006

2007

2008

2009 133.45

2010 134.091

2011 134.735

2012 135.404

2013 136.072

130.756 131.448 132.129 132.802

1、将1960年看成初始时刻即,则1961年为(作为初始年份),以次类推,以2013年为(作为最终年份)。用函数3.1-(5)对表4.1中的数据进行非线性拟合,运用Matlab编程(程序见附录1)得到相关的参数,可以算出可决系数(可决系数是判别曲线拟合效果的一个指标):

R2?1??(yi?15i?15i?i)2?y?0.9959 ?y)2?(yi由可决系数来看拟合的效果比较理想。所以得到中国各年份人口变化趋势的拟合曲线: x(t)?180.9871180.98711?(?1)e?0.0.0336t60.2 (1)

根据曲线(1)我们可以对2015年()、2025年()、及2038年() 进行预测得(单位:千万):

x(56)?138.6161,x(66)?148.5400,x(79)?158.6028

结果分析:从附录1所给信息可知从1960年至1968年为我国第一次出生人口高峰,形成了中

国人口规模“由缓到快”的增长基础;因此这段时期人口波动较大,可能影响模型结果的准确性。1959、1960、1961年为三年自然灾害时期,这段时期人口的增长受到很大影响,1962年处于这种影正态分布。

由于上面的曲线拟合是用最小二乘法,所以很难保证拟合的准确性。因此我们再选择1963年作为初始年份对表1中的数据进行拟合。

2、将1969年看成初始时刻即(初始年份),以2010年为(作为最终年份)。运用Matlab编程(程序见附录2)得到相关的参数,可以算出可决系数得到中国各年份人口变化趋势的另一拟合曲线:

x(t)?151.4513151.45131?(?1)e?0.0484t69.1 (2)

根据曲线(2)我们可以对2015年()、2025年()、及2038年() 进行预测得(单位:千万):

x(47)? 134.9190,x(57)?140.8168,x(70)? 145.5908结果分析:1969年-1981年其间,人口的增长基本上是按照自然的规律增长,特别是在农村是

这样,城市受到收入的影响,生育率较低,但都有规律可寻。总的来说,人口增长的外界大的干扰的增长受到国家计划生育政策的控制,但计划生育的政策是基本稳定的,这一阶段随机误差也应服从正态分布(当然均值与方差可能不同)因此用最小二乘法拟合所得到的结果应有较大的可信度。

家计划生育政策的控制,人口的增长方式与上述的两个阶段都不同。因此我们进一步选择1986年作为初始年份,2015年作为最终年份进行拟合。运用编程(程序见附录)得到相关的参数,可以算出可决系数得到中国各年份人口变化趋势的第三条拟合曲线:

x(t)?153.5351153.53511?(?1)e?0.0477t98.705 (3)

根据曲线(2)我们可以对2015年()、2025年()、及2038年() 进行预测得(单位:千万):

x(30)? 135.5357,x(40)? 141.8440,x(53)? 147.0172

结果分析:这一时期,国家虽然对人口大增长进行了干预,但国家的计划生育的政策是基本稳

定的,在此其间没有其他大的干扰,所以人口增长的随机误差应服从正态分布。所以我们的结果应是比较可信的。

我们根据拟合曲线(1)对各年份中国总人口进行预测得到结果如表4.2:

表4.2 各年份全国总人口用不同拟合曲线预测数(单位:千万)

年份 预测总人口

2000 126.7649

2003 130.5141

2006 134.1

年份 预测总人口

2018 146.7117

2021 149.4251

2024 151.9662

年份 预测总人口

2036 160.5063

2039 162.267

2042 163.8924

2045 165.3903

2048 166.7683

2050 167.4627

2027 154.3392

2030 156.5494

2033 158.6028

2009 137.516

2012 140.7577

2015 143.8231

由上表可以看出:在2024年总人口就已经超过了151.9662千万,而且一直以比较快的速度增长到2048年达到了166.7683千万。我们选取2000年-2013年人口数据与我国人口实际总数相比较:

绘制下表:

表4.3各年份预测人口和实际人口数(单位:千万)

年份

2000

2001 127.627

2002 128.453 128.742

2003 129.227 130.514

年份

2007

2008

2009

2010

2011

2012

2013

2004 129.988 132.426

2005 130.756 133.251

2006 131.448 134.1

实际人口 126.743

预测人口 126.7649 127.728

实际人口 132.129 预测人口 135.427

132.802 136.825

133.45 137.516

134.091 138.324

134.735 135.404 136.072 141.8231

139.487 140.7577

由上表可绘制折线统计图观察人口增长趋势:

图4.1 对各年份全国总人口数的预测

由此我们得到模型在2000年-2005年人口预测数值想接近,2005年以后预测效果较差。 4.2模型的求解

在3.2-(4)两端同时乘以得,

eakeakx(0)(k)?eakaz(1)(k)?eakb

将代入上式中,可得

于是得出时间函数的估计值

(4)

我们把上式4.2-(4)作为预测方程。利用软件编程求解出各年份的预测值。

表4.4各年份人口预测值

年份

1996

1997 124.028

1998 125.461

1999 126.911

年份

2003

2004 130.250

2005 131.167

2006 132.091

年份

2010

2011 136.807

2012 138.696

2013 139.893

2014 141.101

2015 142.318

2020 148.566

2007 133.021

2008 133.957

2009 134.901

2000 128.3781

2001 129.8616

2002 131.362

人口数(千万) 122.611

人口数(千万) 132.880

人口数(千万) 135.851

年份 2025 2030 161.897

2035 169.004

2040 176.424

2045 184.169

2050 192.254

人口数(千万) 155.088

由上表可以看出:在2025年总人口就已经超过了155.088千万,而且一直以比较快的速度增长到2050年达到了192.254千万。我们选取1996年-2013年人口数据与我国人口实际总数相比较: 绘制下图:

图4.2 实际人口和预测人口数

由上图可得模型预测较上一个模型预测优化,基本符合我国人口增长变化。 4.3 BP神经网络人口预测模型

BP算法通过“训练”这一事件来得到这种输入, 输出合适的线性或非线性关系。“训练”的过程可以分为向前传输和向后传输两个阶段:

[1]向前传输阶段:

①从样本集中取一个样本,将输入网络;

(1)(2)(L)②计算出误差测度和实际输出O1?FL(?(F2(F1(PW)W)?)W); ③对权重值各做一次调整, 重复这个循环, 直到。 [2]向后传播阶段——误差传播阶段: ①计算实际输出与理想输出的差; ②用输出层的误差调整输出层权矩阵; ③运用下列公式:

④用此误差估计输出层的直接前导层的误差, 再用输出层前导层误差估计更前一层的误差. 如此获得所有其他各层的误差估计;

⑤并用这些估计实现对权矩阵的修改. 形成将输出端表现出的误差沿着与输出信号相反的方向逐级向输出端传递的过程。

网络关于整个样本集的误差测度:

基于BP神经网络的时间序列预测模型与传统模型不同的是:此模型只需以历史数据作为输入,通过抑制与激活神经结点,自动决定影响性能的参数及影响程度,自动形成模型,无需进行模型假设,再加上神经网络对复杂的非线性系统具有曲线拟核能力,预测能力强,所以是合适的对比检验模型。

实现:

为输入样本矢量集;为对应的目标样本矢量集。设:输入样本

p?[1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 ](年份归一化后的数据)

p?[0.1996 0.1997 0.1998 0.1999 0.2 0.2001 0.2002 0.2003 0.2004 0.2005]

? T??0.122389 0.123626 0.124761 0.125786 0.126743 0.127627 0.128453 0.129227 0.129988 0.130756采用神经网络模型进行运算,系统仿真 产生输入数据的收敛结果见图示:

图4.3 BP训练函数误差变化图

仿真结果:

图4.4人口预测变化 表4.5 BP算法的结果

年份 1996 1997 123.626

1998 124.761

1999 125.786

2000 126.743

2001 127.627

2002 128.453

人口数(千万) 122.389

年份

2003

2004 129.988

2011 133.940

2030 140.016

2005 130.756

2012 134.360

2035 138.538

2006 131.340

2013 134.750

2040 136.642

2007 131.940

2014 138.328

2045 135.188

2008 132.491

2015 138.878

2050 134.47

2009 133.010

2020 140.449

人口数(千万) 129.227

年份 年份

2010 2025

人口数(千万) 133.490

人口数(千万) 140.677

由上表可以看出:在2025年总人口就已经超过了155.088千万,而且一直以比较快的速度增长到2050年达到了192.254千万。我们选取1996年-2013年人口数据与我国人口实际总数相比较: 绘制下图:

图4.5 实际人口和预测人口

仿真结果

图4.6实际人口和预测人口数

由上图可得神经网络模型预测人口数据和实际人口数相差不大,基本符合我国人口增长变化。

5.仿真实验及分析

5.1 数据来源说明

本文主要根据《中国人口统计年鉴》上收集到的2001年到2005年部分数据, 在灰色预测的基础上, 引入BP神经网络模型, 建立了中国人口增长的和BP神经网络组合模型, 并由此对中国人口增长的中短期和长期趋势做出预测。

我们通过输入原始数据资料, 应用灰色模型进行预测, 得到预测数列, 然后将预测值作为输入量, 原始数据作为期望值, 对BP神经网络进行训练, 得到相应的权值和阀值, 最后输入预测年份, 即可得到具有较高精度的预测量。 5.2 实验步骤

( 1) 输入原始数据资料;

( 2) 应用灰色模型进行预测, 得到预测序列;

( 3) 将预测值作为输入量, 原始数据作为期望值, 对BP神经网络进行训练, 得到相应的权值和阀值; ( 4) 输入需要预测的年份, 即可得到具有相当精度的预测量。

根据以上Logistic模型、模型、神经网络模型对2000年-2050年中国总人口进行预测得到的数据整理如下表:

表5.1 训练数据 2000 年份 126.743 实际人口

logistic模型 126.7649 GM(1,1)模型 126.187 神经网络模型 126.743

2007 年份

132.129 实际人口

logistic模型 135.427 GM(1,1)模型 132.864 神经网络模型 131.94 5.3 实验结论及分析

未来我国总人口变化情况:通过查询中国人口与发展研究中心在中国人口信息网上所公布的数据, 获知我国2000—20013年的人口总数,

根据此数据, 应用三种模型预测我国未来10年人口总数, 1996—2008年的原始数据作为检验样本(期望值) ,根据上表绘制下图:

2008 132.802 134.01 132.491

2009 133.45 135.167 133.01

2010 134.091 136.333 133.49

2011 134.735 137.51 133.94

2012

2013

135.404 136.072 138.696 139.893 134.36

134.75

2001 127.627 127.276 127.627

2002 128.453 128.374 128.453

2003 129.227 129.482 129.227

2004 129.988 130.672 129.988

2005

2006

130.756 131.448 131.727 131.727 130.756

131.34

127.728 128.742 130.514 132.426 133.251 134.1

136.825 137.516 138.324 139.487 140.7577 141.8231

图5.1三种模型预测数据

按此预测, 从以上图表中可以知道我国人口增长的中短期和长期趋势为:人口总量在中短期内继续增长, 增速较为平稳. 人口总量在未来30年还将净增2亿人左右, 总人口将于2010年, 2020年分别达到13.63亿人和14.67亿人, 2033年前后达到峰值15.01亿人, 之后人口总量缓慢下降。

对比国家人口计生委2003年预测结果(见附录), logistic模型和GM(1,1)模型都能非常精确的预测出在短期内我国未来人口总数, 在中期预测中, 也能较好的反映出人口变化趋势。在长期预测时, logistic模型的预测数据偏差非常大, GM(1,1)虽然变化趋势较符合我国未来人口变化情况, 但偏差还是较大. 而神经网络模型在这三个时期内, 都能够很好的预测出中国未来人口总量的及其变化情况. 显然神经网络预测模型的预测效果最佳。 5.4 实验结论

现有我国1996—2013年的人口总数, 应用编写的logistic模型和灰色模型模年全国人口总数与已有数据进行比较, 并验证神经网络的短期预测精度。

表5.2013年三种模型人口预测和实际人口数

年份

2013

实际人口

136.072

logistic模型 141.823

GM(1,1)模型

139.893

神经网络模型

134.75

通过计算, 可知利用模型进行预测得到的2013年全国人口总数为14.1823亿人, 利用模型得到的预测数据为13.9893亿人, 神经网络模型得到的预测数据为13.475亿人,实际数值为13.6072亿人. 由此得出模型预测的数据与实际数值的绝对误差是0.5751,GM(1,1)预测的数据与实际数值的绝对误差是0.3821, 神经网络模型得到的仿真数据与实际数值的绝对误差是0.1322, 显而易见, , 神经网络模型在人口总数预测方面仿真数据的精确性较其他两个预测模型要高得多。

1.考虑到生育率和死亡率是随时间变化的,我们可以定义生育率和死亡率为时间函数 (1)生育率

影响生育率因素有受政策因素、观念认识、周边环境等,通常来说农村的生育率高于城市,为

了有效区分这种差异性,我们定义为反映城、镇、乡平均生育率水平的基准生育率,定义分别为城、镇、乡平均生育率 则,,

其中、、为反映生育率高低的系数,系数的大小根据具体情况确定 显然有

考虑到随着时间的推移,计划生育政策深入人心,农村生育率将降低 用下面函数反映这种变化

式中,为参考系数 (2)死亡率

本文来源:https://www.bwwdw.com/article/47r6.html

Top