大数据名人讲堂:揭开数据科学神秘面纱
数据科学这个概念从2010年出现以来是一个非常时髦或者是火热的概念。有些人认为数据科学是一个非常神秘或者神奇的学科,有化腐朽为神奇,点石成金的魔力。但是有一些,了解一些数据科学所涉及的技术的一些人,这样一些人又认为,其实数据科学不过就是传统的统计学的领域的一些东西,最多算是它的一些新的发展,跟传统统计学或者传统的数据分析没有本质性的区别,完全是在炒作概念。所以今天我讲这个题目就是想从我个人的观点来跟大家分享一下,到底什么是数据科学,它跟我们以前的传统数据分析方法有没有本质性的不同,或者有的话,它是什么样的不同。
今天的内容主要是三个部分,第一个是概要性的来介绍,什么是数据科学,它的方法论是什么样子的,它可能涉及到哪些具体的分析步骤。中间我会比较概览性的来讲一下数据科学涉及到的相关的技术,包括IT方面的技术,以及分析技术,最后一部分会讲一些数据科学实际的案例和例子来具体介绍一下数据科学能产生什么样的价值,同时数据科学是怎么来运作的,最后可能会总结下数据科学未来的发展趋势会是什么样子的。
大数据创生的神奇互联网广告
我们知道大数据是一个非常火热的概念。那么在大数据这个领域,在互联网上的应用,又是在大数据领域比较前沿的部分。而在互联网应用领域比较前沿的部分中间呢,互联网广告又是大数据应用的前沿阵地,可以说是大数据应用最直接、最火热,而且应用的技术和解决方案能够落地,解决实际商业问题的一个领域。所以今天分享的这个话题是非常非常有意义的。
那么朋友们知道,互联网广告的出现不是一个新事物。世界上最早的互联网广告出现在上个世纪的90年代,到今天已经有20年的历史,中国也大概是那个时候,比美国稍微要晚个三、四年的时间。那么互联网广告并不是一个新事物,为什么今天宋老师您又过来给我们讲大数据创生的这样的一种新的互联网广告呢?这个其实就是我今天特别想跟大家去分享的一个话题。那么在这个话题要讲之前,首先还是想给大家介绍一下互联网广告的一点点小的历史,帮助大家去理解为什么咱们的互联网广告最终跟大数据结合产生了很多神奇的效果。
汽车大数据营销新纪元
今天的内容分三个部分,第一就是让我们先了解一下整个中国的汽车市场发展的变化;第二让我们去了解一下,有关中国汽车消费者的一些特性,那我们为什么选择大数据去了解消费者,第三我会最终把大数据在整个汽车营销领域的一些新的实践分享给大家,并且把我们的思考与大家进行交流。
中国乘用车已经连续8年成为全球的销量冠军,到去年为止,2015年的销量已经达到了1.9亿台以上,随着销量不断的攀升,其实中国的汽车保有量也达到了一个高点。在2015年,中国的乘用车的保有量已经达到全球第一,那么这个乘用车是指,不包括其它商用车。在乘用车不断的保有量达到高点以后,我们会不会认为整个的中国汽车市场已经达到了饱和,其实这个是不然的。
那我们来看一看整个全球各个国家千人保有量的数据,我们看一下,美国在2010年的时候,它的千人保有量数据是812台,其他国家,我们依次可以看一看,像德国2008年的时候数据是634台,俄罗斯在2011年的时候是271台,而中国在2015年的时候,千人保有量才达到110台。所以整个中国汽车市场的大环境,仍然是处于一个蓝海的状态,所以市场机会是非常广阔的。
万亿元大数据产业新生态
其实人类利用数据来感知社会服务生活,在很早时间就有了,比如在1850年代的时候有一个叫约翰·斯诺的,他是根据霍乱病患者,他就发现离水井比较近的地方患者多,他就推测水源是传染霍乱的一个主要来源。比如说在1920年的时候,我们国家有一个叫胡焕勇的,他就根据各地,比如这个镇有两万人,这个镇有三万人,他用描点法,有一条线叫胡焕勇线,这是我们国家的一个经济社会的分水岭。
那在80年后我们用QQ,微信同时在线数也能发现这种规律,就利用大数据。其实我们生活中也有很多大数据的案例,比如说在2016年6月7号北京下一点小雨,北京有雨的时候交通就比较糟糕,你就发现平时我打车一般来说他是不加钱的,而在这一天因为车供应量人需求量多,所以它就大概1.5倍,比如说我们在各种电子商务网站买书的时候,你发现除了,比如说期货方面的书,除了给你推荐期货方面的书之外,还给你推销无线鼠标,无线路由器,它其实不是无缘无故的,它是根据过去很多人买这方面的书,然后同时又买了无线鼠标,无线路由器,这样一个利用大数据的原理来进行精准的推荐。还比如说有很多人去江苏某个地方去玩,这个地方都哪些人来呢,其实我们可以用电信信令的数据,来分析出来这些人从哪地方来,刚才算是一个序幕。
预警、预知、预测---大数据催生“智慧警务”
随着互联网、物联网,特别是移动互联网的迅猛发展,一个以信息爆炸为主要特征的大数据时代正在来临,这对于维护社会治安为主要职能的公安机关而言,既是一场挑战,更是一场机遇,公安机关如何在打击违法犯罪、维护社会治安稳定,和服务群众中,依托大数据来提升工作效能,推动警务机制变革,我们和多家省、市公安机关进行了合作,进行了一些有益的尝试,这些工作主要体现在三个方面,预警、预知和预测。
大数据的思维可能不会很准确的指出,谁谁谁就是坏人,你就是犯罪嫌疑人,但是我们通过对积累的海量数据的分析可以基本去掌握一个事物的运行规律和趋势,知道了这个事物的运行规律和趋势,也就是我们要讲的预知,我们就可以预知,一旦符合这些条件的人,是不是19到23岁,凌晨一点到七点,甚至来自哪个地区的,入住的中低档旅馆,一旦他入住,我们后续的一些防范工作就可以有针对性的跟进,及时发现和制止违法犯罪行为。
数据感知城市脉搏
我们每一个人每一天都在生活当中都在产生各种数据,我们每天乘坐公交车和地铁刷卡的记录,每天使用手机上智能的APP产生各种数据,这些都是我们以人作为传感器所得到的数据。我们每一天在发的微博,也可以用来去监测中国国民或者中国的市民他们的情绪,因为我们发的每一条微博它除了有语意以外,它还能告诉我们你发的是什么时间,你发的微博在什么地点,我们对它进行分析,可以将这些微博把它聚合到我们的地块上,我们就知道城市里每一块土地上的居民,每一天是开心还是不开心。
我们可以通过这些数据去监测人群的流动、监测城市的活力,去监测我们城市公众的情绪和舆情,同时我们可以通过这些办法,能够针对上述存在的问题进行有针对性的治理。当我们能够感知到一个市民的活动,其实这个市民就参与到我们的社会生活和政治生活当中来了。所以我们认为所谓感知即参与,这也是我们城市能够达成居民更广泛的参与社会生活,参与我们城市治理的一个好的办法。
千万头猪联网大数据新价值
猪联网通过信息化的管理系统,把养猪的过程场景化,每一个养猪的过程,从配种到分娩等等一系列的环节场景化,然后再通过数字化的记录,然后对于养猪人来说更加方便直观地管理和操作。有了这些操作以后,所有的操作不是为了记录而记录,而是为了所有的是为了提高PSY所做的努力,比如说这个猪场我们就可以通过大数据来计算出它的各项指标,比如说配种的头数,分娩的头数和分娩率,那么看出来这个指标以后,我们就知道它是什么原因造成的指标不达标,比如说它是由于大量的空怀导致分娩率不达标,那么具体来提高分娩率的办法,我们就可以在线上给他一个解决方案。
在互联网和大数据的背景下,你可以实时地查看猪场当天的各种的绩效指标,实时地来掌控自己猪场的一个经营效率情况,甚至我们可以畅想未来也许有一天猪场老板可以坐在海边拿着手机,就可以知道自己当天是赔了还是赚了,我应该做哪些的操作。