专访TalkingData研发副总阎志涛：解读大数据的秘密

2023-03-01

数据智能阎志涛

在大数据的时代，数据的价值不言而喻。但是真正有价值的并非数据本身而是对数据进行分析挖掘后的分析。对如今雨后春笋的互联网公司来说，当数据足够多、足够全面，他们甚至可以为用户画一幅数据肖像。现在几乎所有的行业都在谈大数据，然而随着移动端的流量超越PC端，移动互联网的数据就成为大数据中不可忽略的重要部分。

51CTO在2014年12月6日即将召开的2014 Spark亚太峰会前夕TalkingData研发副总裁阎志涛，为大家解读互联网数据的秘密。

在偏于碎片化的移动互联网数据中，阎志涛认为“数据主要分为设备信息，应用行为信息，位置信息，传感器信息这四大类”。

而其中的应用行为信息在一定程度上可以反映用户的习惯。而位置信息可以更加准确的获得用户的位置对于O2O模式有着重要的意义。随着智能硬件的爆发和普及，传感器的数据信息更为重要。笔者在之前采访一位做智能硬件的CEO时他也说道，传感器就像智能硬件的大脑。所以对于智能硬件的数据收集、分析、挖掘，是智能硬件能否真正智能的关键。

阎志涛说：”智能硬件相比于软件的信息更加琐碎，相比于移动应用的依附于手机而存在的方式，智能硬件更加不容易普及。换句话说，每种智能硬件智能覆盖一小部分用户群体，然而真正的意义在于如何能够把每个小部分群体的数据收集起来做一次整合，那样才能发挥***的价值。“

但是在笔者看来目前智能硬件因为芯片的价格导致成本居高不下，而且并没有杀手级的应用出现。想替代传统的硬件设备，尚需时日。而随着智能手机的普及程度，以及手机硬件的配置增加，杀手级的移动应用、火爆的手机游戏却是频频出现。

”从数据方面来看像淘宝、京东、唯品会这样的电商应用都会有不少的用户群，而类似于360手机助手，Wifi***钥匙的工具类应用，因为其自身价值也有一定的用户群。从目前来看手机游戏中一些社交类，休闲类的游戏会有比较高的用户群。“阎志涛告诉记者

2012年TalkingData Analytics上线，仅仅两年唯品会、滴滴打车、聚美优品、去哪儿都成为了它们的用户，在移动端的覆盖量也达到了8亿以上。

那么在处理如此庞大的数据的分析和挖掘时他们所选用的的框架如何处理这么海量的数据？

阎志涛告诉记者：现在每天要处理好几个T的数据，分为离线和实时两条线。在离线方面最初选用的是典型的Hadoop的生态系统，通过小时或者几个小时的任务来保证最终数据一致性。然而在实时方面，由于用户的需求比较特殊，我们基于Redis来实现我们的实时统计。随着业务的发展，我们做了一个TD2.0的平台，它比离线的更优秀，通过小批量的计算，完成准实时的数据体现。而离线系统则逐渐的切换到以Spark为基础的一个数据处理平台。

其实在2012年Spark出现之初就因为其方便地支持迭代运算，对机器学习更友好的特点受到关注。阎志涛也提到：”是TalkingData的算法工程师最早使用Spark做迭代运算，接着把平台业务也在向上面做迁移。Spark相对Hadoop就是可以更好地进行迭代运算，以及及时请求的延时计算。最重要的是他的生态系统相比Hadoop更适合现在大数据分析的需求。“

然而在运算的容错率，效率上，阎志涛说：”就我个人的使用情况来看，在一些方面Spark要优于Hadoop。因为Hadoop对IO存在一种高依赖，所有的东西都要放到IO上shuffle出去放到磁盘再读取进来，这样导致不能很好的利用机器的计算能力。而Spark本身RDD的模型能够很好的减少对IO的依赖，充分利用内存，从而提升了性能。“

但国内的JAVA程序员使用Spark需要一个学习Scala的曲线。虽然Spark存在一些问题，但是互联网公司生来就是为了解决问题的。

无论是Hadoop还是Spark，都是一种开源的技术并没有高下之分。作为企业或者开发者需要择其长处而用之。实际上，现在一些社区和论坛上出现了让Hadoop和Spark融合的声音。

阎志涛同样认为：目前这就是一种融合的状态，现在TalkingData一些即时计算需求、一些请求，都在用Spark做，一些基于Hadoop的生态系统也在往Spark上迁移。

Spark在国内出现的时间不如Hadoop长，一些公司也越来越注重Spark的发展。阎志涛也说：”国内有一个叫Spark Meetup的一个社区，每一期都我们在参与，参加的人也是越来越多。现在像百度、京东、腾讯这些巨头都在做Spark也越发的重视Spark毕竟Hadoop相对于Spark还是有那么一点点的老久不太适用于某些场景。可以说Spark在国内越来越热，发展也会越来越好。”

但是作为新兴的技术，必然也会有一些不足。抛开这项技术本身不说，因为国内毕竟是中文环境虽然有一些热心的人写博客，做翻译，但是中文的资料还是供不应求。所以需要更多的开发投入到Spark的建设之中。

都在说去IOE，TalkingData的技术团队很多核心成员都来自于IBM和Oracle在开源的问题上IBM和Oracle却是两种不同的态度。阎志涛表示，虽然我们的大部分成员来自IBM和Oracle这种传统的软件公司，但是毕竟现在是在互联网企业，用的也是互联网的开发方式。其实IBM和Oracle两家公司对于开源的态度也不太一样。IBM相对于Oracle对于开源的态度就要开放的多。我们是以开源为主的，虽然用的数据库是Apache并不会强制要求我们再开回去，当我们认为自己做的够好的时候，我们就会开回去。我也会要求我们的工程师把代码放到开源的社区里边，提高代码质量。明年我们团队就会有更多的人员活跃到开源社区当中。

无论是哪一种开源技术，都是千万人智慧的结晶。Spark也不例外，但是国内的开源现状并不乐观甚至是一种半死不活的状态，还被外国人诟病只进不出。

对此阎志涛告诉记者，的确在以前我们的开源做的不是很好，但是现在比如淘宝和腾讯就把他们的一些技术开源了，我相信过国内更多的企业逐渐的回去开源。就我了解Spark社区，里边有很多很活跃的来自中国的Contributor。我相信以后也会有越来越多的贡献。

他也希望团队的产品做得稍微好一点的时候，我们再开出去。因为这样会更有价值，如果产品价值没那么大，就会变成半死不活的状态，甚至是丧失价值。所以我们现阶段努力把产品做好，预计在在2015年可能会把它变成一个开源项目。

在智能硬件顶着改变生活的光环出现的时候，大数据就成为让其不跌落神坛的保障。无论是Spark还是Hadoop，都需要顺应时下的要求。取长补短，择其优者而用之。