好东西不私藏,大家一起分享!爱站云 用心做
广告位 后台主题配置管理

网站首页 爱站云资源网 值得一看 正文

数据标准(数据标准化)

爱站云 2020-02-06 值得一看 0 评论

  为确保系统各数据库与各功能模块之间的数据分类、编码及数据文件命名的系统性和唯一性,满足系统正常高效运行以及与其他相关系统协同运作的要求,实现系统之间相互兼容、信息共享,数据库建设时必须遵循有关的标准规范。需参照的标准规范如下:


  GB/T2260—98中华人民共和国行政区划代码


  GB/T2808—81全数字式日期表示法


  GB/T9649—88地质矿产术语分类代码


  GB/T13923—92国土基础信息数据分类代码


  DZ/T0001—91区域地质调查总则(1:50000)


  DZ/T0157—951:50000地质图地理底图编绘规范


  DZ/T0160—951:200000地质图地理底图编绘规范及图式


  DDB9702GIS图层描述数据内容标准


  地质图空间数据库建设工作指南中国地质调查局


  DDZ9701资源评价工作中地理信息系统工作细则


  DZ/T0179—1997地质图用色标准及用色原则


  DD2005—01多目标区域地球化学调查规范(1:25万)中国地质调查局


  DD2005—02区域生态地球化学评价技术要求中国地质调查局


  DD2005—03生态地球化学评价样品分析技术要求中国地质调查局


  GB/T17296—2000中国土壤分类与代码


  GB/T13989—92国家基本比例尺地形图分幅编号


  DZ/T0167—1995区域地球化学勘查规范(1:200000)


  GB/T18507—2001城镇土地分等定级规程


  GB/T17296—2000中国土壤分类代码

555.png


  数据标准化


  方法一:规范化方法


  也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。


  方法二:正规化方法


  这种方法基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。


  z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。


  spss默认的标准化方法就是z-score标准化。


  用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单


  步骤如下:


  1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si;


  2.进行标准化处理:


  zij=(xij-xi)/si


  其中:zij为标准化后的变量值;xij为实际变量值。


  3.将逆指标前的正负号对调。


  标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。


  数据标准化处理方法


  建议使用SPSS软件,具体方法如下:


  1.打开spss软件,然后将界面切换到变量视图。在编辑列中创建观察指标和类型。图中示例创建两个指标,一个作为自变量,另一个作为因变量,分别是gdd和城市化水平,代表人均gdp和城市化水平。


  2、指标及类型建构建好后,就要输入数据到spss中了。切换到“数据视图”,数据可以自己手工输入,也可以从excel中复制或导入。


  3、点击分析和回归,对数据进行线性回归分析。


  4、进入线性回归设置界面,设置自变量,因变量。


  5.设置完各种参数后,单击“确定”,spss将根据预设进行分析并自动输出分析结果。分析结果如图所示,并根据已知的分析结果,可知自变量和因变量符合线性回归模型。


  数据标注


  数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。


  不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。


  随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。


  目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。

< 爱站云SEO >
本站所有文章,未经允许一律不允许转载,违者后果自负
本站为SEO教学博客,学到东西应该懂得感恩作者 无脑喷子永封IP段+删帐号所有评论
本站部分文章存在于网上收集,如侵犯您的权利,请告知管理员,我们会及时删除,并向您赔礼道歉.

百秀社区爱站云 官方QQ群:333914614


猜你喜欢

本文暂时没有评论哦(●'◡'●)

欢迎 发表评论:

温馨提示:(登陆后才可以评论哦!点我QQ登录哦,若已登录请忽略)。
«   2021年4月   »
1234
567891011
12131415161718
19202122232425
2627282930
网站分类
搜索
最新留言
文章归档
标签列表