企业注册

云栖大会:探迹创始人兼CTO陈开冉畅谈大数据质量管控之道

10月11-14日,为期四天的2017杭州云栖大会在杭州云栖小镇举办。云栖大会由阿里巴巴集团主办,已经成为全球云计算顶级峰会,汇聚DT时代最强大脑,描绘云计算发展趋势和蓝图,展现云计算、大数据、人工智能蓬勃发展的技术生态全景。

智能科技的狂欢盛宴 大会以“飞天·智能”为主题,诠释“科技赋能”,多维度展示计算生态,全面解读云计算、大数据、人工智能、量子计算等新兴技术。从2010年至2017年,从中国地方与行业网站峰会、阿里云开发者大会到云栖大会,历经8年的不断进化,云栖大会已经成长为云生态的全景展示平台和科技创新的风向标。 去年,杭州云栖大会共有来自全球58个国家和地区的4万位行业先锋现场参会,超过900万人在线观看大会直播。而本届大会规模更大,内容更丰富:共有2场主论坛、22场前沿峰会、100+场分论坛、400+科技企业展,同时连续举行3天音乐节及云栖跑,给所有参会者带来一场科技盛宴。 行业大咖的干货分享 在主论坛上,阿里巴巴集团董事局主席马云、阿里巴巴集团首席技术官王坚、中科院院士潘建伟、国际奥委会首席信息官Gerry Pennell等嘉宾现场发表主题演讲,畅谈科技将如何推动未来社会与经济的发展。 同时,22场峰会、100+场分论坛将贯穿本届大会四天的议程,分论坛将以更多的维度展示阿里巴巴和各行业生态合作伙带来的干货分享。作为国内智能销售预测行业的领军者和阿里云的优质合作伙伴,探迹科技受邀参加云栖大会开源大数据论坛的主题演讲,探迹创始人兼CTO陈开冉出席并发表《基于Spark和HBase的云上大数据质量管控》的演讲。

探迹的大数据质量管控之道 当下,基于大数据和云计算的新技术、新产业层出不穷,以大数据为核心的数据生产、管理和新兴商业模式大量涌现。近年来,随着大批企业的业务向数字化、信息化转型,海量的数据不断被制造和消耗,促进了大数据技术在研发和应用上的突飞猛进,国内大数据市场正在加速发展。 在这种行业背景下,数据的数量和质量变得极为重要,作为为To B企业提供客户智能预测服务的大数据和人工智能企业,探迹围绕整个数据流通过程,深入研究数据在生产、清洗、管理链条中的质量变化,在大数据质量管控上积累了成功的技术和经验。

陈开冉介绍,基于Spark和HBase的云上大数据质量管控是一套基于开源项目实现云端大数据质量管理的解决方案,贯穿数据的全生命周期,能够帮助企业快速搭建一站式海量数据质量管控系统,解决企业在数据输入和输出之间的质量管控问题。 “假如企业每天有100亿数据流入,经过技术团队清洗过后剩下10亿有价值的数据,那其他90亿数据是否存在被错误处理的情况,很多企业就不再关心了,但这恰恰是我们关注的点”,陈开冉说,“通常,大数据往往具有数据量大、价值密度低的特点,没有一个完善的数据质量管控体系,技术团队难以确保不存在数据浪费的现象。因此,大数据企业在数据获取、筛选和管理上应该具备严格的流程管理体系,我们希望质量管控能贯穿每一个环节,而不是设在某一个节点,这样不管数据流通到哪一步都能确保有价值的数据被完整的提取出来,每一步被筛出的数据都可以作为反向优化的条件进行分析,带动整个数据链条不断循环优化,降低粗犷清洗造成的数据浪费,提高数据筛选的精准度”。 大数据正成为企业业务发展的动力来源和核心竞争力,探迹基于Spark和HBase,进一步挖掘大数据技术的发展潜力,研发出云上大数据质量管控的技术方法,为中国本土大数据企业的数据把控带来新的解决方案和技术分享。“我们欢迎其他同行企业也能用到这套技术方法去解决数据质量把控问题,与探迹一起挖掘大数据行业的发展潜能”,陈开冉说道。

联系TUNGEE让销售更高效
+86
马上联系