[p]对于大数据的前景和重要性
民生救助 2020-07-10 06:19 字号: 大 中 小
对于大数据的前景和重要性,我从来没有怀疑,我也非常认同其对于的意义,尤其是现在app,电子设备,各种手环、血压仪都能将我们大家的数据收集起来,更好地为大家服务,但是,但在纵观整个行业的格局之后我想说:大数据,想说爱你不容易!
在说大数据之前,先说说我最近我读的一本书 美国预测专家纳特 西尔弗的《信号与噪声》,书中写道: 如果信息的数量以每天250兆亿字节的速度增长,其中有用的信息肯定接近于零。大部分信息都只是噪声而已,而且噪声的增按摩虽然有效长速度要比信号快得多。 由此看来,当数据信息铺天盖地而来之时,我们也有可能距离真相越来越远,现在的问题不是数据太少,而是数据再多,而我们需要的、有价值的信息往往会淹没在一片噪声中。
那么,请允许我首先先把我的结论写在前面,再来和大家探讨这个结论的正确性。我的结论:大数据不靠谱,至少目前来说是这样。原因如下:
一、数据采集和调研时,带有倾向性和目的性,这种数据不可信。
我们在对海量数据进行分析前,就首先假设了你分析的大数据都是有价值的,不然你也不会做,但其实这个数据能有哪些价值,需要等数据全部采集、分析完之后才能得出。
采用严重有偏的数据几乎能够产生任何人需要的任何结果。我们经常能够看到有些公司说 通过XX大数据分析,得出YY的结论,而我们的产品符合啥啥的结论,所以是多么多么好! 如果以自己盈利作为唯一目的,那么他的大数据分析特别容易耍流氓。也就是说,如果收集数据的机构能够通过修改、扭曲数据获得经济利益,那么这些数据就会因被扭曲而失真,那么我们要一堆经过人为修改、扭曲过的信息干什么呢?
举个例子,比如某医院委托某第三方公司做一份医患关系满意度的调查,此调查的目的是想要挂在医院大厅或者刊登发表在媒体上给消费者看的,也就是为了做宣传的,那么这份调查在一开始就具有了功利性。如此,该第三方公司用各种大数据研究的手段和方法去络调查,广泛回访,从社交媒体上搜索综合分析,研究方法确实是真的,也可以持续跟踪非常长的时间,去尽量搜集完整的数据(注意,普及一个概念,大数据不是指大量数据,而是指对事物研究的整体的,比较全部的数据而非抽样分析调查来进行估算的数据)。
但是,这样收集来的所谓的 患者数据 ,其可信度就真的让人不敢恭维了。推广到我们行业中,多少调查之前就已经定了基调了?为了某药,某血糖分析,某血压监测的重大意义的大数据分析报告,诸如此类。
二、超大样本和很多变量让我们找到所谓的相关性,得出无厘头的结论。即:找出真相太难!
大数据常犯的错误之一,就是由于因为相关性存在于多种可能性之中,只要有超大样本和很多变量,我们都可能找到无厘头式的相关性。它完全符合统计方法的严格要求,但两者之间是个什么关系呢?只要我们对着一堆足够多的数据进行反复研究,进行不同模型的尝试,上千次后,一定会找到统计学意义上成立的相关性。这就是常见的大数据分析所犯的另一个人为的错误 由相关性去论证因果关系。很可能经过大数据分析后,你会发现你们家门口每天经过的小鸟数量和中国股市有关。<都是今天社会转型期间所必须的。/p>
所以在大数据项目中,首先我们要问自己:是否先入为主地假定了因果关系?
在大数据中会经常出现一种情况,有两个因素,在数据互相比较的时候,看起来会有些关系,但是其实并不是互为因果。即使两组数据看起来节奏一致,你也不知道这种一致性是否一定有意义,除非你很肯定地知道一组数据的因会导致另一组数据的果。所以相关性并不一定是因果关系,也有可能是因为第三因素的影响。所谓的相关性,往往是要通过相关精确的数值来验证的。
1. 有些相关是机缘巧合产生。能证明存在,但是不能证明是必然相关的。
2. 数据之间的联合变动,表示两者确实是有关联,但是无法确定何者为因,何者为果。
有的时候所有变量相互之间,本身是没有影响的,但是我们实际计算下来会发现他们有显着的相关性。或者换个角度说,还有一种情况就是数据都是真实的,但是不真实的是根据这些数据推测出的未经证实的结论。
在刚刚结束不久的2014年百度联盟峰会中,李彦宏在大数据和的结合中提到: 未来真正的大数据积累应该是可以提前预测人的疾病情况,因为疾病不是一天出现的,而是天长日久累计出来的,各种数据一定发生变化。有价值的数据,不是无用的信息爆炸,而是有价值的慢数据,可以预测个性化信息的数据。 在大数据之上的慢数据,去掉了很多杂波干扰的数据,才是真正有价值的。所以,数据太多噪声太多,找出真相太难!
医疗监测是时下行业内很热的一个话题。现在已经出现了某种监测技术通过对周围的大数据进行监测并分析周边疫情动态来预测下一场变异性流感等流行病的大规模爆发。人们再也不必恐慌和担心被传染,早就有相应提示及时应对预防;而与此密切相关的医疗行业,可以及时获悉疾病爆发趋势,合理分配和部署好医务人员,同时提醒和建议市民预防疫病,降低人们染病几率 这是不是看似很美好很强大?其实不然。
大数据监测流行病忽略了一个事实:大数据是根据所收集到的海量数据,与目前医学领域中已有的传统疾病进行对照研究、数据分析等一系列工作。所以其通常很难预测未知的新疾病,像SARS、甲型H1N1流感和现在的埃博拉病毒的爆发等。去年卫生部发言人就曾提到: 中国面临传统流行病威胁持续存在、新发流行病不断出现的严峻形势。 所以我们要对大数据的疾病预测能力有客观的评估,一边倒地鼓吹并无价值,从系统上来说,想预测黑天鹅,这本身就是一个 mission impossible 的哲学命题!
合肥白癜风医院河池白癜风医院
河池白癜风医院
-
-
人民币突然贬值对楼市房价有何影响
人民币突然贬值 对楼市房价有何影响?8月11日,人民币对美元...
2020-08-05 | 民生救助
-
-
50岁以下大满贯冠军榜伍兹一骑绝尘科普卡搭配
50岁以下大满贯冠军榜:伍兹一骑绝尘 科普卡并北京时间5月2...
2020-05-27 | 民生救助
-
-
小小免票标识牌浓浓拥军尊崇情
小小免票标识牌 浓浓拥军尊崇情5月16日,宁阳县双拥办、宁阳...
2019-07-16 | 民生救助
-
-
市民政局2018年春节送温暖慰问活动拉开
市民政局2018年春节送温暖慰问活动拉开帷幕为了让我市困难群...
2019-07-16 | 民生救助
-
-
石家庄现坑妈神娃从妈妈包中掏出一沓钞票扔
石家庄现坑妈神娃 从妈妈包中掏出一沓钞票扔掉 ■监控录像...
2019-07-15 | 民生救助
-
-
2015年外地人上海买房有什么条件3
2015年外地人上海买房有什么条件?独在异乡为异客,外地人在...
2019-07-15 | 民生救助