第六次全国人口普查光电录入识别工作

2020-03-03 18:48:41 来源:范文大全收藏下载本文

要在一个月内完成第六次全国人口普查光电录入识别工作?任务艰巨啊!

第五次人口普查全国约有3.6亿张短表,4000万张长表,500万张死亡表,500万张暂住人口调查表。

第五次人口普查采用清华紫光提供的人口普查光电录入系统识别速度平均为每分钟27页双面普查表。

第二次农业普查采用赞华公司联合富士通开发的光电录入系统,采用的光电扫描仪一分钟扫描速度可达70多张普查表,但该系统实际扫描识别速度平均速度为每分钟双面A4普查表30页左右,平均每天有效工作时间为6小时,每天可完成扫描识别任务10800张表,一个月(30天)下来可完成扫描识别任务324000张A4普查表(若对A3普查表,张数至少减半);按每户填一张A4普查表,每户平均3.5人计算,一个月可完成1134000人的扫描识别任务。初略估算要完成1134000人的短表(A4普查表),加上为短表人数的10%,1134000人的长表(A3普查表),需加6天的扫描识别任务,再估计加上A4幅面的各表封面和其他表2天的工作量。因此根据农普经验推算,第六次人口普查要在一个月内完成1.25亿人扫描识别任务,初略估算大约要配备38/30*100=126.67台光电录入扫描仪(将近100万人配1台扫描仪),即使两班作业,平均每天有效工作时间提高到12小时,在一个月内完成1.25亿人扫描识别任务,初略估算大约不少于配备63台光电录入扫描仪(将近200万人配1台扫描仪)。以上基本上都是理想化的估算值,实际操作会有一定得差异。另外由于第六次全国人口普查编码工作大部份是普查员直接完成的,编码质量参差不齐,这可能对扫描识别速度会有一定的影响,因此还需加大光电录入扫描仪的投入。

另外由于第六次全国人口普查不光要登记流入人口,同时也要登记流出人口,因此工作量会大增,初略估计实际工作量可能会增加到1.2到1.5倍,这也需加大光电录入扫描仪的投入。

因此为了保质保量地在一个月内完成第六次全国人口普查光电录入识别工作任务,按国家的要求至少要按照每80万人口配备1台高速彩色光电扫描仪,由于目前程序尚未确定,而且本次人口普查涉及识别汉字较多,不定因数和变数较大,甚至保险一点按照每50万人口配备1台高速彩色光电扫描仪也不为过。

另外现在2T的大硬盘也在PC机得到了一定的应用,做好备份,多做几份数据备份现在都不是难题,而且2T的大硬盘价格也不贵,要比服务器和存储的性价比便宜多了!

《关于印发《第六次全国人口普查数据处理环境要求》的通知》国人普办字[2009]5号

高速光电扫描仪

数量:按照每80万人口1台配备 彩色双面CCD,A3幅面 .光学分辨率大于300DPI,输出分辨率为100—600DPI.A4/ 200DPI条件下,ADF扫描速度大于70PPM.输出类型为 1位单色 / 8位灰色 /24位真色.输出文件格式为JPEG, TIFF, BMP.驱动标准为TWAIN & ISIS.支持操作系统为WIN-XPP.接口标准为ULTRA SCSI或 USB 或IEEE1394.日负荷量大于10000页.

首先光电录入采用彩色高速双面描仪,所谓“虑红”也是采用软件方式进行,即在彩色扫描后的临时图像中,找出红色像素并进行定位,通过与或运算,将其替换成白色的像素,因此完全可以根据找出的红色像素的坐标,在构成的闭合区域中和其相应的坐标位置作为红编码框内截图进行识别,即与黑块直角坐标系相结合,采用所见即所得方法截取要识别的红编码框内截图来识别。

由于随着技术的发展和进步第六次全国人口普查光电录入扫描速度至少不低于第二次农业普查的扫描速度,并增加了大量的手写汉字识别因此识别内容,因此软件设计的难度也增加不少;其次由于普查表所采集的信息在不断膨胀,普查表的版面密度更大,因此表的空白处极为有限,这使得光电普查表印刷套印和裁切等质量控制的标记也被挤掉出了表外,用户难以用肉眼的方法检验表的印刷质量,增大了质量控制的难度;而光电录入重要的黑块定位坐标系被挤到了表的边缘,增加了普查表可能受印刷拉伸变形,填表弯折、污损等影响,在光电录入过程中很容易造成定位错误及卡纸和停顿等故障,从而影响扫描速度。因此为了在一个月内完成第六次全国人口普查光电录入识别工作,光电录入扫描识别软件的设计水平必须与时俱进不断创新提高,六次全国人口普查光电录入识别的用户需求,必须提出采用所见即所得方法截取要识别的红编码框内截图来识别和黑块定位坐标系定位识别相结合新设计理念,改变农普光电录入软件先“虑红”后识别的落后的习惯思维方法和设计思路,在借鉴前人的设计成果和经验的同时必须要有创新。

因此用户需求应明确提出软件设计应对定位黑块识别要适当宽容。降低对扫描对定位黑块的苛刻的设计要求,不能因为个别定位黑块上被笔划过或有污点,就造成普查表无法定位,进而造成整张表不能识别,使得光电扫描机停止扫描的现象发生。像这种个别定位块上有笔划或污点情况,完全可以通过参照其他定位黑块的位置,进行一定的内外插值计算修复,解决某几个定位黑快受损的问题,特别是要首先采用所见即所得方法截取要识别的红编码框内截图来识别为主,以黑块定位坐标系定位识别辅的全新思路和先进的识别技术,解决因普查表的印刷精度差异造成定位不准的难点,实现从单色扫描识别到彩色扫描识别质的飞跃。同时多吸取2000年第五次人口普查光电扫描软件设计的经验和借鉴实际操作的工作经验,减少定位错误问题的发生,加快光电录入扫描和识别速度,少走弯路。

由于第六次全国人口普查编码工作大部份是普查员直接完成的,这虽然有效减轻上级普查机构的工作量,也可以及时发现普查登记过程中的差错,并及时进行纠正,但是编码质量难以及时把握,但对光电录入软件的设计水平和识别能力也是个严峻的考验,因此光电录入扫描和识别更要注重人性设计,在这方面用户需求必须重点提出明确的要求。

为了在一个月内完成第六次全国人口普查光电录入,并用光电录入数据完成快速汇总工作,我建议光电录入程序应借鉴第五次全国人口普查光电录入程序的好经验,在用户需求中必须详细提出,除了识别的有关内容外,还应包括第六次全国人口普查的所有审核关系和简单汇总检查表功能,这既能满足直接用光电录入数据快速汇总需求,也更有利于直接使用光电录入程序调用扫描后的人口普查表图像进行编辑改错,进行汇总大数检查,将错误发现在数据处理初期,有效地提高普查数据的质量。

大型普查动用的人力、物力、财力、精力和时间是十分惊人的,总结的经验教训是十分重要和宝贵的,发展创新与时俱进是我们前进方向,我希望以上看法能对第六次全国人口普查工作起到微薄作用,为实现节约型普查、高效率普查而起到一定的作用。

第六次全国人口普查光电录入工作量大、时间紧,涉及人员较多,而且要在一月的时间内完成,困难是可想而知的,况且光电录入的软件现在还未开始政府采购招标,按流程走下来起马也要三个月,即时采用单一来源采购的途径,也需要一定的时间审批,此外用户需求的完善和优化及创新提高也需要一定的时间,软件开发和研制调试也需要时间,软件的试点完善、培训、部署使用都需要时间,必须乘早起步进行,现在我们下面的具体做光电录入人员能做什么呢?积极地等待!现就以往以往普查中光电录入的工作总结的一些经验供大家一起分享:

一是科学安排统一部署。为此,科学地对光电录入设备及辅助设施的进行安排,对参加人员的分工安排等方面都进行了精心考虑。

二是要钻研技术,提高技术和业务水平。光电扫瞄技术要求很高,从送纸、扫描控制、校对、到问题批次的查找处理和审核,各个环节上的技术要求都很高,只有认真学习和研究光电录入技术,才能巧破遇到的操作难题。如扫瞄图像的校正问题,死机问题等。

三是规范操作规程。必须按照光电录入的规范要求进行操作,对使用农普用过的光电机每两小时必须停机休息约15分钟进行散热,尽量减少待机现象发生。送纸必须先行松散整齐适量投入。

四是勤于清洁提高效率。第二次农普工作的实践证明,勤于对扫瞄机进行规范化清洁,能很有效地提高扫瞄速度,应在每两小时让扫瞄机休息时,都认真地进行了较深度的清洁。

五是加强安全管理。光电录入机对环境要求很高,必须加强网络、服务器、电脑等管理,确保光电录入期间的信息安全。完善网络和人口普查光电录入系统及统计信息系统的安全等防范措施。

谢谢!

第六次全国人口普查工作

第六次全国人口普查工作

六次全国人口普查光电录入工作的通知(推荐)

第六次全国人口普查

第六次全国人口普查

第六次全国人口普查

第六次全国人口普查

第六次全国人口普查

全国第六次人口普查

第六次全国人口普查工作感想

《第六次全国人口普查光电录入识别工作.doc》
第六次全国人口普查光电录入识别工作
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
下载全文