大数据怎么发挥大价值

2024-05-09 20:25

1. 大数据怎么发挥大价值

  1 大数据兴起预示逗信息时代地进入新阶段   1.1 看待大数据要有历史性的眼光   信息时代是相对于农业和工业时代而言的一段相当长的时间。不同时代的生产要素和社会发展驱动力有明显差别。信息时代的标志性技术发明是数字计算机、集成电路、光纤通信和互联网(万维网)。尽管媒体上大量出现逗大数据时代地的说法,但大数据、云计算等新技术目前还没有出现与上述划时代的技术发明可媲美的技术突破,难以构成一个超越信息时代的新时代。信息时代可以分成若干阶段,大数据等新技术的应用标志着信息社会将进入一个新阶段。   考察分析100年以上的历史长河可以发现,信息时代与工业时代的发展规律有许多相似之处。电气化时代与信息时代生产率的提高过程惊人地相似。都是经过20~30年扩散储备之后才有明显提高,分界线分别是1915年和1995年。笔者猜想,信息技术经过几十年的扩散储备后,21世纪的前30年可能是信息技术提高生产率的黄金时期。   1.2 从逗信息时代新阶段地的高度认识逗大数据地   中国已开始进入信息时代,但许多人的思想还停留在工业时代。经济和科技工作中出现的许多问题,其根源是对时代的认识不到位。18-19世纪中国落后挨打,根源是满清政府没有认识到时代变了,我们不能重犯历史性的错误。   中央提出中国进入经济逗新常态地以后,媒体上有很多讨论,但多数是为经济增速降低做解释,很少有从时代改变的角度论述逗新常态地的文章。笔者认为,经济新常态意味着中国进入了以信息化带动新型工业化、城镇化和农业现代化的新阶段,是经济和社会管理的跃迁,不是权宜之计,更不是倒退。   大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构逗第三平台地是信息社会进入新阶段的标志,对整个经济的转型有引领和带动作用。媒体上经常出现的互联网、创客、逗第二次机器革命地、逗工业4.0地等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆,所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。   1.3 大数据可能是中国信息产业从跟踪走向引领的突破口   中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、百度和京东),其他6个Top10 互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入Top10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。   但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。   2 理解大数据需要上升到文化和认识论的高度   2.1 数据文化是一种先进文化   数据文化的本质是尊重客观世界的实事求是精神,数据就是事实。重视数据就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。目前许多城市在开展政府数据开放共享工作,但是发现多数老百姓对政府要开放的数据并不感兴趣。要让大数据走上健康的发展轨道,首先要大力弘扬数据文化。本文讲的数据文化不只是大数据用于文艺、出版等文化产业,而是指全民的数据意识。全社会应认识到:信息化的核心是数据,只有政府和大众都关注数据时,才能真正理解信息化的实质;数据是一种新的生产要素,大数据的利用可以改变资本和土地等传统要素在经济中的权重。   有人将逗上帝与数据共舞地归纳为美国文化的特点之一,说的是美国人既有对神的诚意,又有通过数据求真的理性。美国从镀金时代到进步主义时期完成了数据文化的思维转变,南北战争之后人口普查的方法被应用到很多领域,形成了数据预测分析的思维方式。近百年来美国和西方各国的现代化与数据文化的传播渗透有密切关系,我国要实现现代化也必须强调数据文化。   提高数据意识的关键是要理解大数据的战略意义。数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,数据技术与数据产业的落后将使我们像错过工业革命机会一样延误一个时代。   2.2 理解大数据需要有正确的认识论   历史上科学研究是从逻辑演绎开始的,欧几里得几何的所有定理可从几条公理推导出来。从伽利略和牛顿开始,科学研究更加重视自然观察和实验观察,在观察基础上通过归纳方法提炼出科学理论,逗科学始于观察地成为科学研究和认识论的主流。经验论和唯理论这两大流派都对科学的发展做出过重大贡献,但也暴露出明显的问题,甚至走入极端。理性主义走向极端就成为康德所批判的独断主义,经验主义走入极端就变成怀疑论和不可知论。   20世纪30年代,德国哲学家波普尔提出了被后人称为逗证伪主义地的认识论观点,他认为科学理论不能用归纳法证实,只能被试验发现的反例逗证伪地,因而他否定科学始于观察,提出逗科学始于问题地的著名观点[3]。证伪主义有其局限性,如果严格遵守证伪法则,万有引力定律、原子论等重要理论都可能被早期的所谓反例扼杀。但逗科学始于问题地的观点对当前大数据技术的发展有指导意义。   大数据的兴起引发了新的科学研究模式:逗科学始于数据地。从认识论的角度看,大数据分析方法与逗科学始于观察地的经验论较为接近,但我们要牢记历史的教训,避免滑入否定理论作用的经验主义泥坑。在强调逗相关性地的时候不要怀疑逗因果性地的存在;在宣称大数据的客观性、中立性的时候,不要忘了不管数据的规模如何,大数据总会受制于自身的局限性和人的偏见。不要相信这样的预言:逗采用大数据挖掘,你不需要对数据提出任何问题,数据就会自动产生知识地。面对像大海一样的巨量数据,从事数据挖掘的科技人员最大的困惑是,我们想捞的逗针地是什么看这海里究竟有没有逗针地看也就是说,我们需要知道要解决的问题是什么。从这个意义上讲,逗科学始于数据地与逗科学始于问题地应有机地结合起来。   对逗原因地的追求是科学发展的永恒动力。但是,原因是追求不完的,人类在有限的时间内不可能找到逗终极真理地。在科学的探索途中,人们往往用逗这是客观规律地解释世界,并不立即追问为什么有这样的客观规律。也就是说,传统科学并非只追寻因果性,也可以用客观规律作为结论。大数据研究的结果多半是一些新的知识或新的模型,这些知识和模型也可以用来预测未来,可以认为是一类局部性的客观规律。科学史上通过小数据模型发现一般性规律的例子不少,比如开普勒归纳的天体运动规律等;而大数据模型多半是发现一些特殊性的规律。物理学中的定律一般具有必然性,但大数据模型不一定具有必然性,也不一定具有可演绎性。大数据研究的对象往往是人的心理和社会,在知识阶梯上位于较高层,其自然边界是模糊的,但有更多的实践特征。大数据研究者更重视知行合一,相信实践论。大数据认识论有许多与传统认识论不同的特点,我们不能因其特点不同就否定大数据方法的科学性。大数据研究挑战了传统认识论对因果性的偏爱,用数据规律补充了单一的因果规律,实现了唯理论和经验论的数据化统一,一种全新的大数据认识论正在形成。   3 正确认识大数据的价值和效益   3.1 大数据的价值主要体现为它的驱动效应   人们总是期望从大数据中挖掘出意想不到的逗大价值地。实际上大数据的价值主要体现在它的驱动效应,即带动有关的科研和产业发展,提高各行各业通过数据分析解决困难问题和增值的能力。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用逗蜜蜂模型地:蜜蜂的效益主要不是自己酿的蜂蜜,而是蜜蜂传粉对农业的贡献。   电子计算机的创始人之一冯·诺依曼曾指出:逗在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。地我们不必天天期盼奇迹出现,多做一些逗颇为朴实地的事情,实际的进步就在扎扎实实的努力之中。媒体喜欢宣传一些令人惊奇的大数据成功案例,对这些案例我们应保持清醒的头脑。据Intel中国研究院首席工程师吴甘沙在一次报告中透露,所谓逗啤酒加尿布地的数据挖掘经典案例,其实是Teradata公司一位经理编出来的逗故事地,历史上并没有发生过[4]。即使有这个案例,也不说明大数据分析本身有什么神奇,大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是,关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值。   有一个家喻户晓的寓言可以从一个角度说明大数据的价值:一位老农民临终前告诉他的3个儿子,他在他家的地中埋藏了一罐金子,但没有讲埋在哪里。   他的儿子们把他家所有的地都深挖了一遍,没有挖到金子,但由于深挖了土地,从此庄稼收成特别好。数据收集、分析的能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,大数据的价值也已逐步体现。   3.2 大数据的力量来自逗大成智慧地   每一种数据来源都有一定的局限性和片面性,只有融合、集成各方面的原始数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。不同的数据可能描述同一实体,但角度不同。对同一个问题,不同的数据能提供互补信息,可对问题有更深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。   数据科学是数学(统计、代数、拓扑等)、计算机科学、基础科学和各种应用科学融合的科学,类似钱学森先生提出的逗大成智慧学地[5]。钱老指出:逗必集大成,才能得智慧地。大数据能不能出智慧,关键在于对多种数据源的集成和融合。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调逗无缝智慧(seamless intelligence)地。发展大数据的目标就是要获得协同融合的逗无缝智慧地。单靠一种数据源,即使数据规模很大,也可能出现逗瞎子摸象地一样的片面性。数据的开放共享不是锦上添花的工作,而是决定大数据成败的必要前提。   大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路,重点不是支持单项技术和单个方法的发展,而是强调不同部门、不同学科的协作。数据科学不是垂直的逗烟囱地,而是像环境、能源科学一样的横向集成科学。   3.3 大数据远景灿烂,但近期不能期望太高   交流电问世时主要用作照明,根本想象不到今天无处不在的应用。大数据技术也一样,将来一定会产生许多现在想不到的应用。我们不必担心大数据的未来,但近期要非常务实地工作。人们往往对近期的发展估计过高,而对长期的发展估计不足。Gartner公司预测,大数据技术要在5~10年后才会成为较普遍采用的主流技术,对发展大数据技术要有足够的耐心。   大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数发展的特点是,从一段历史时期衡量(至少30年),前期发展比较慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持逗指数性地增长,一般而言,高技术发展遵循Gartner公司描述的技术成熟度曲线(hype cycle),最后可能进入良性发展的稳定状态或者走向消亡。   需要采用大数据技术来解决的问题往往都是十分复杂的问题,比如社会计算、生命科学、脑科学等,这些问题绝不是几代人的努力就可以解决的。宇宙经过百亿年的演化,才出现生物和人类,其复杂和巧妙堪称绝伦,不要指望在我们这一代人手中就能彻底揭开其奥妙。展望数百万年甚至更长远的未来,大数据技术只是科学技术发展长河中的一朵浪花,对10~20年大数据研究可能取得的科学成就不能抱有不切实际的幻想。   4 从复杂性的角度看大数据研究和应用面临的挑战   大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代,新三论(耗散结构论、协同论、突变论)的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所,提出超越还原论的口号,在科技界掀起了一场复杂性科学运动。虽然雷声很大,但30年来并未取得预期的效果,其原因之一可能是当时还没有出现解决复杂性的技术。   集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养,从事数据科学研究的学者不但要了解20世纪的逗新三论地,可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识,扩大自己的视野,加深对大数据机理的理解。   大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。   4.1 数据复杂性引起的挑战   图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难,其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式,数据本身具有很高的复杂性。目前,人们对大数据背后的物理意义缺乏理解,对数据之间的关联规律认识不足,对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解,领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标,需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接,大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观逗涌现地规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,从而简化大数据的表征,获取更好的知识抽象。为此,需要建立多模态关联关系下的数据分布理论和模型,理清数据复杂度和计算复杂度之间的内在联系,奠定大数据计算的理论基础。   4.2 计算复杂性引起的挑战   大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大,内在关联密切而复杂,价值密度分布极不均衡,这些特征对建立大数据计算范式提出了挑战。对于PB级的数据,即使只有线性复杂性的计算也难以实现,而且,由于数据分布的稀疏性,可能做了许多无效计算。   传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系,所谓具有多项式复杂性的算法是指当问题的规模增大时,计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是,针对给定规模的问题,如何逗算得快地。而在大数据应用中,尤其是流式计算中,往往对数据处理和分析的时间、空间有明确限制,比如网络服务如果回应时间超过几秒甚至几毫秒,就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下,如何逗算得多地。从逗算得快地到逗算得多地,考虑计算复杂性的思维逻辑有很大的转变。所谓逗算得多地并不是计算的数据量越大越好,需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法。   基于大数据求解困难问题的一条思路是放弃通用解,针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题,但只要数据充分多,在限制条件下可以找到十分满意的解,近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量,需要研究基于自举和采样的局部计算和近似方法,提出不依赖于全量数据的新型算法理论,研究适应大数据的非确定性算法等理论。   4.3 系统复杂性引起的挑战   大数据对计算机系统的运行效率和能耗提出了苛刻要求,大数据处理系统的效能评价与优化问题具有挑战性,不但要求理清大数据的计算复杂性与系统效率、能耗间的关系,还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点,需要研究大数据的分布式存储和处理架构。   大数据应用涉及几乎所有的领域,大数据的优势是能在长尾应用中发现稀疏而珍贵的价值,但一种优化的计算机系统结构很难适应各种不同的需求,碎片化的应用大大增加了信息系统的复杂性,像昆虫种类一样多(500多万种)的大数据和物联网应用如何形成手机一样的巨大市场,这就是所谓逗昆虫纲悖论地[6]。为了化解计算机系统的复杂性,需要研究异构计算系统和可塑计算技术。   大数据应用中,计算机系统的负载发生了本质性变化,计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转,关注的重点不是数据加工,而是数据的搬运;系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力,并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动,必要的数据搬运也应由逗大象搬木头地转变为逗蚂蚁搬大米地。   5 发展大数据应避免的误区   5.1 不要一味追求逗数据规模大地   大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据,要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。   一味追求数据规模大不仅会造成浪费,而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫,重视数据的开放与共享。所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。   发展大数据不能无止境地追求逗更大、更多、更快地,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的逗污染地和侵犯隐私等各种弊端。   5.2 不要逗技术驱动地,要逗应用为先地   新的信息技术层出不穷,信息领域不断冒出新概念、新名词,估计继逗大数据地以后,逗认知计算地、逗可穿戴设备地、逗机器人地等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上逗技术驱动地的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持逗应用为先地的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。   5.3 不能抛弃逗小数据地方法   流行的逗大数据地定义是:无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题,可能导致认识的误区。按照这种定义,人们可能只会重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是逗小数据地问题。我们应重视实际碰到的问题,不管是大数据还是小数据。   统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。   大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。   5.4 要高度关注构建大数据平台的成本   目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2 PB以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要保存多少时间,应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低1 000倍,计划到2024年才能研制出来,用现在的技术构建的巨型系统能耗极高。   我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。

大数据怎么发挥大价值

2. 大数据怎么发挥大价值

大数据在大多数情况下一直是技术上关注的领域。虽然商业影响总是很明确,但市场的焦点主要在于实验,以及找出如何解决大规模数据集所面临的技术问题的办法。
当然,大数据的成功应用产生了巨大的业务成果,但市场的主要驱动力是技术开发,而不是业务应用。然而在2017年将有一个明显的变化。
首先,随着行业的不断发展,大数据的社会影响以及数据科学家和从业者必须发挥的重要作用将会显著增加。
大数据和人工智能(AI)的交叉点也在加强了企业处理大数据主动性的紧迫性。虽然大数据作为人工智能动力的本质已经使二者共生,但人工智能作为企业高管面临的头号问题,这正在使企业规模的大数据在战略上占有一席之地。
实时处理大数据
将重点转移到组织如何在现实世界中应用大数据也带来了第二个重要趋势:实时应用数据和分析的转变。
越来越多的人认识到事后分析并不是唯一的大数据用例,实际上这并不是最好的用例。许多组织现在意识到,通过在交易时应用最终的分析和见解,他们可以利用大数据的最大价值。
有了这个用例,组织不仅可以使用回顾性数据进行分析和规划,而且可以使用它来塑造客户体验,更好地进行决策,并在消极结果发生之前降低风险。在交易点使用数据可以采取多种形式,应该是任何现代大数据战略的基本要素。
几家科技公司已经引入了工具和策略来帮助组织实时地整合他们从大数据计划中获得的见解和分析。这些包括(按字母顺序):
· Cambridge Semantics:一种基于语义关系数据模型的端到端的探索性分析解决方案,通过根据业务环境构建数据,实现实时分析,并缩短上市时间。
· MapR:融合数据平台,提供所谓的“数据结构”,将传统数据湖与流数据集成在一个单独的,位置无关的和场景感知的平台中。
· Splice Machine:一种应用程序开发平台,它创建一个新的“预测应用程序”,将事务处理和分析处理合并,并将分析导出的洞察数据注入到应用程序工作流程中。
· Striim:实时数据集成和流分析平台,可在摄入时分析数据,以便通过实时洞察来支持决策。
· VoltDB:一个运行数据平台,可提供毫秒响应时间的实时事件处理和分析。
虽然这些技术提供商正在采用不同的方法实时应用大数据,但每个技术提供商都向企业组织提供一个相同的信息:现在是使用大数据的最佳时机。
发挥大数据的价值
大数据行业核心技术面临的挑战仍然存在,并将在可预见的未来持续下去。随着数据呈指数级增长,企业组织和服务于其的技术公司将继续处在一场持续的战斗中,使其变得易于管理。
然而,很明显,组织现在正在开始认真应对在整个企业中应用大数据所带来的挑战,从而可以加速数字化转型,为日益增长的人工智能提供动力。
而且很明显,行业和企业组织都认识到,为了实现大数据的承诺,他们需要获得大数据的价值。

3. 如何真正实现大数据价值?

因此,行之有效的企业级信息优化战略变得空前重要。由于预计2015年产生的数字内容中有90%将是非结构化数据,如短信和微博生成的信息,以及视频和音频,情况将变得越来越复杂。无论身处哪个行业,围绕大数据及管理这些信息的挑战都无处不在。· 金融服务行业必须满足客户对数字银行服务的期望,并处理风险和监管需求等问题;· 在医疗和生命科学领域,患者隐私及药物开发问题使合规成为了关键的投资动因;· 了解客户需求以提高服务和参与模式是旅游和交通行业必不可少的;· 在政府和公共事业领域,政府正在提高其智能及安全能力,以期更好地保护公众;· 实时的数据可视化、汇总和诠释对于能源行业至关重要。毫无准备的企业可能会在应对现有原始信息的数量、种类和速度时手足无措。如果企业缺乏管理并处理多来源海量信息的能力,将会导致涉及整个企业层面的各类问题:· 具有更先进的信息系统的竞争对手将能很好地利用数据并争夺客户;· 尽管有更大量和更多来源,实现数据价值将越来越困难;· 浪费大量时间过滤海量不相关的数据,而这些数据不能支持决策或推动其执行;· 缺乏灵活性、分离的信息基础设施成本将逐步增加。政府和企业迫切需要从无关的数据中获取洞察,并有能力对其有效利用。那些能从战略上迅速响应,并从海量信息中提取真正价值的企业将能获得关键的市场领先地位。发挥信息的力量根据Coleman Parkes Research的研究[3]表明,亚太和日本地区62%的私有企业认为有效的信息优化战略能帮助其获得竞争优势。但是仅有不到一半的企业采用了合适的解决方案并从大数据中获得洞察,而目前仅有15%的企业将非结构化数据纳入了其企业洞察、流程和战略。企业的终极目标应是充分利用100%的信息来推动更快、更明智的业务决策。企业应能衡量信息战略在新增收入、节约成本以及加速上市等方面所带来的价值。要想在以信息为驱动力的新时代获得成功,企业需要信息优化战略以及可理解抽象概念的解决方案。企业的目标是通过涵盖所有数据形式的信息管理和分析系统实现互联性智能。这意味着他们必须:· 建立一个敏捷的智能环境,并有合适的基础设施来捕获和存储海量信息,进行实时分析并迅速适应不断变化的优先事项;· 对企业生态系统中的信息和智能战略进行整合,以获得对业务数据的完整视图;· 通过将洞察和理念转化为行动而实现信息资产的全部价值。提升客户体验实现更好的客户体验是所有信息优化战略的主要目标。改进企业搜索和分析信息的方式,以更好地了解客户行为和需求,从而支持快速、明智的业务决策。这将有助于实现更好的客户体验和更高的忠诚度。信息洞察应整合所有客户信息,无论客户如何与企业进行互动,包括通过社交媒体、微博、移动应用,以及通过电话等其它方式。信息必须在不同的业务范围内进行收集,同时还要解决潜在的隐私和安全问题。先进的信息技术能够帮助企业增强其识别客户喜好、问题和趋势的能力。而这些情报可被用来更好地与客户进行互动,同时提供超越竞争对手的洞察。这些新情报可在应用开发以及将应用迁移至云的过程中发挥作用,而云能让客户轻松、快速地获得新服务。优化业务绩效不仅是企业需要应对海量结构化和非结构化数据,数据也分布于多个可能互不相关的业务范围,也存在于许多不同的应用中。现代数据中心的另一个关键能力是能够处理大量的无关信息,从而获得能提高业务绩效的洞察。通过整合、迁移并汇总数据存储,企业可以改进信息访问,并降低IT运营成本。这能带来简单、灵活、迅速、低成本高收益的信息基础设施,而此类基础设施同时还具有可扩展性、模块化特性,及可靠性。用智能信息基础设施替换复杂的孤立数据库,企业能够在需要时捕捉、存储并提供信息,无论采用哪种应用、规模有多大。充分利用100%的相关职能和运营数据能够帮助客户提高运营业绩和经营利润,并对信息生命周期管理进行自动化处理。信息优化的目标为构建一个服务于整个企业,从数据安全及合规,到分析和敏捷性的统一基础设施。而由此带来的快速、轻松分析信息的能力能够帮助企业获得更可靠的视图,从而做出准确、有效的决策。管理安全和风险将能够端到端管理100%大数据作为新目标,企业应研究更好的监管和安全措施来应对与日俱增的风险和复杂性。这些问题包括:不能充分利用目前所有可用数据进行及时、正确的决策所带来的财务和法律风险,以及获取数据并保证其是最新、最正确的。智能信息生态系统可管理安全环境中的数据,从而管理日常业务并降低风险。它还能利用洞察来引导企业投资和定价,并充分利用新的业务机会。将数据转化为资产不能周密部署并迅速采取行动的企业有可能面临被剧增的大数据淹没的风险。另一方面,那些能够实施全面的企业级信息优化战略的企业所获得的回报将是非常巨大的。这一战略有助于缩小潜在的和最终实现的业务成果之间的差距。总之,它可以分为三大要素:· 能捕获、存储、复制并扩展数据的信息基础设施;· 管理、保护、治理并充分利用数据的信息管理;· 搜索、分析、理解数据并对其采取行动的信息洞察工具。能够从自身数据资产中获得深入洞察和价值的企业将开始收获其实质性的信息回报。文章更新提醒功能已上线,帮助您及时了解本频道动态。

如何真正实现大数据价值?

4. 如何实现大数据真正价值

1. 数据融合 成功的大数据分析可以使用户应对工作中的困难,例如发现业务计划和工作中的缺陷和失误。它甚至可以将新的细分市场进行拆分,企业可以提供新的产品和服务。要想做到这些,就需要从各种资源得来的数据中抓住重点从而做出重要决策。 在数据分析中,时间至关重要。很多企业领导者和决策制定者需要实时的信息来快速做出决定。但是据估算,大约80%的时间都花在了准备和整理数据上。这样一来真正的分析工作只占20%。 因此高效的处理工作非常重要,例如数据分析的提取、转换和加载过程(ETL)。 一个好的ETL工具可以将从多个来源获取的数据融合在一起,也包括公共数据。它让用户的注意力集中到一个源头,获得相关性更高的信息,提高工作效率。同时可以确保用户的信息来源是唯一的,降低错误沟通的风险。 企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle…… 2. 沟通无障碍 就像之前说过的,大数据分析工具可以帮助企业解决商业难题。从业人员也许能很好的理解这些问题,但IT人员却不能完全理解,这样就不能提供和专业需求相匹配的分析报告。再加上沟通不顺畅,领导层就无法及时得到有用信息,也就无法快速做出决策。 如果技术人员能够使用这种自助服务分析工具,就能够找到问题所在并做出可以弥补漏洞的决定。此外,他们还可以将数据同其他开放信息结合在一起,挖掘细分市场。企业还可以共享IT资源来发掘更多的数据信息。

5. 大数据的价值如何体现

大数据的价值如何体现_数据分析师考试
进入大数据时代,运营商应用大数据发展的驱动因素是什么,是否需要建立新型数据库? 刘伟光: 随着通信行业的竞争日益激烈,传统的语音和短信等主营收入的利润不断下滑,导致运营商必须找到新的利润增长点,同时有效控制运营成本,从而使自身可以在激烈竞争中立于不败之地。这也是为什么运营商把实现精准化营销和精细化运营提升到战略层次的重要原因。 
此外,传统数据库技术已无法满足运营商对大数据充分利用的需求。新型数据库应该具备如下特点:首先应该采用支持大规模并行处理的分布式架构;其次,应该使用基于符合工业标准的开放硬件和系统平台,保证成本可控;第三,随着开源技术不断成熟,创新速度快,新型数据库平台应该易于与新的开源技术进行融合;第四,新的数据库平台应该可以实现与Hadoop平台的无缝集成,实现跨结构化、半结构化、非结构化海量数据的混合分析能力。 卢东明: 运营商目前试图做新型数据库,但是不太现实,首先数据库公司一直以来都是很稳定的几家,需要长期积淀。
其次,大数据不是取代以前的技术,而是混合补充使用,不是新型数据库出来后,就完全替代传统数据库从而大规模使用。数据库是核心、稳定的技术,大数据是开源的软件技术,运营商还是会选择使用相对成熟的软件。 《通信世界周刊》: 大数据今年以来得到格外关注,目前发展状况如何? 卢东明: 大数据在运营商的业务中早就有应用,目前在各个省都得到普遍应用了。大数据这个词目前有些炒作成分,它和以前的数据库不是完全脱节的,是对数据库的延伸。大数据是个现象,是数据库的另一个形态,不是否定、颠覆之前的数据库形态。
目前做大数据的厂商依然是以前那几家数据厂商,不同的产品解决不同的问题。在中国电信行业,从数据量和应用角度来看处于世界领先地位,这是由于电信用户多、规模大,电信业遇到的问题和挑战比较大,解决方案难度高。 刘伟光: 目前中国三个电信运营商在业务支撑领域、网管IT支撑领域包括增值业务领域,已经随着市场的需求推出了很多新的大数据实时分析的项目,相信未来的两到三年这个市场将会成倍增长,甚至会到达我们今天不能预期的数量。 需要分析共享大数据的管理工具 《通信世界周刊》: IT企业如何依托大数据为运营商提供管理工具,提升运营效率? 刘伟光: 实现各部门的紧密协作永远都是提升运营效率的不二法门。而IT企业应该为运营商提供实现紧密协作、分析、共享大数据的管理工具,来达成提升运营效率的目标。
此外,大数据时代,IT企业仅仅为运营商提供分析平台、分析工具是不够的。这是因为运营商虽然很了解业务和需求,但普遍缺乏数学建模能力,因此很难利用好这些平台,使其发挥最大效益。所以,如何利用这些平台、系统和数据实现科学建模,同样是提升运营效率的关键所在。 武新: 运营商要解决数据处理效率问题,现在的数据用以前的系统处理需要一天一夜,而应用大数据技术处理可以一个小时完成。在大数据平台,应用云技术,通过集群的方式,几十台服务器同时工作,并进行压缩数据来节省空间。 
目前大数据主要是针对结构化数据的应用,用户上哪个网,停留多长时间,通过分析都可做相应的分析结果推送给相关部门。除了对用户上网行为分析,还有网络使用情况、网络设备情况和用户使用手机类型分析。而对非结构化的数据,如视频和图片,目前分析得还较少。 《通信世界周刊》: 大数据具体应用于运营商的哪些业务中,有哪些成功的应用和案例? 卢东明: 大数据主要应用在运营商的“信令”系统分析上,由于其数据量非常大,比“话单”分析的挑战大很多。移动互联网发展起来之后,运营商开始关注大数据,进行“用户行为分析”,根据人群分析做精准营销,推荐流量套餐。
此外,运营商提供IDC服务,通过“云”中心的方式为互联网企业提供服务。 武新: 运营商从最近两三年开始,感受到这方面的压力,开始寻求解决方案。中国移动“信令”分析系统项目对海量数据进行分析和挖掘;中国联通对“话单”数据进行用户行为分析。中国电信“新一代数据库”产品正在测试中,通过精分系统,进行精准营销。此外,在运营商专网也已应用大数据。运营商目前仍处于测试探索中,通过几种方法针对不同的应用进行测试、筛选。
目前运营商的相关项目有“流量分析”、“智能管道”和“新一代数据库”产品等,传统的数据库面对海量数据已经无法支撑,将来会慢慢被大数据代替掉。 要有开放的心态 《通信世界周刊》: 发展大数据需要解决哪些问题,关键点是什么? 卢东明: 由于数据分析要看存储效果,涉及到效率和速度。目前运营商应用大数据存在的问题是避免无限制的花钱。另一方面,运营商要和厂商合作,针对不同的业务类型和应用场景,采取不同的分析方法。此外,运营商要有开放的心态,因为大数据作为开源的软件也不是可以解决所有的问题的。 武新: 在数据处理上,运营商转型中不仅有技术上的问题,还需要经历一个时间阶段和过程。
此外,运营商要转变思维方式,其在数据分析上的经验不如互联网企业,这是方法论问题,关系到如何用数据做生意。运营商以前都是依托传统业务,海量数据的出现,使得行业即将洗牌,运营商不得不转型重视数据挖掘。 但运营商可以发挥自己的优势,首先,要分析用户行为的变化,由分析以前的语音用户转变为分析上网行为。其次,运营商有能力提供类似互联网公司的服务,如QQ聊天。
最后,运营商有专网资源,有自己的数据中心可以运维,但是目前这些优势还没有完全发挥出来,是因为还没把握透用户的需求。
以上是小编为大家分享的关于大数据的价值如何体现的相关内容,更多信息可以关注环球青藤分享更多干货

大数据的价值如何体现

6. 如何让“大数据”有价值

如何让“大数据”有价值
大数据并不仅仅是“大”,但它首先得“Bigger”,拥有足够量级的数据才能被称作大数据,所以你看到仅仅分析几百人的数据就说自己是大数据的公司基本上都是骗子。另外,足够的数据,不能进行价值转化也没用。吃饭、睡觉、旅行、走路、购物,所有纯物理性的行为都成为可被记录数据的组成部分,这些看似与我们的生活、工作、赚钱等无关的行为,正成为新时期的价值瑰宝,谷歌、亚马逊、Facebook、百度、阿里巴巴等均陷在其中而不能自拔。近期,腾讯、搜房、浪潮集团、易观等纷纷与统计局签署了大数据战略合作框架协议,再加上去年签署的11家公司,越来越多的互联网公司、传统企业数据正被纳入新构建的大数据“基地”当中。不少人对大数据的概念有很大误解,甚至有不少公司搭上“大数据”的概念来玩资本运作。大数据并不仅仅是“大”,但它首先得“Bigger”,拥有足够量级的数据才能被称作大数据,所以你看到仅仅分析几百人的数据就说自己是大数据的公司基本上都是骗子。我不认为当前有多少公司量级的数据能够是“Bigger”的。对于用户级市场,至少该产品的用户量达到亿级,达到该产业用户量的前几名;对于企业级市场,也至少得拥有足够量级的企业用户,才算得上拥有大数据的基础,再加上用户使用各个产品的习惯大不相同,所以当前的大数据绝对是缺憾的,抽样数据并不准确不是么?多谈无益,故本文纯从数据来分析。数据的记录数字产品的出现,迅速让用户的个人信息能够被记录,电脑、智能手机、可穿戴设备、智能硬件、未来的智能电视等正成为数据记录的新工具,其中较为热门的是围绕医疗需求来建立相关的数据记录,睡眠、血压、体重等产品较多,虽然这些产品的用户量并不“多”,但是硬件厂商们依然乐此不彼的做着这一切。要想让数据能够真正的发挥作用,首先这些数据肯定得被记录,必须有了记录才会有相关的模型分析,否则都是纸上谈兵。比如用户的睡眠时间、用户的出行时间、用户每天所摄入食物的卡路里、用户吃饭的消费金额等等,所有出现的物理性数据,只有被记录了这些数据才会有价值,没有记录,这些都是“废物”,没人会重视这些物理性动作的价值。数据如何才能被记录?(作者微信公众号:郭静的互联网圈)首先得有工具,拿医疗为例,我们在医院看病,医生会使用相关仪器记录用户的心跳周期;我们去餐厅吃饭,餐厅会记录每桌顾客的消费记录以及用户最爱点的菜品;我们在网上使用搜索引擎,搜索引擎会记录用户的搜索习惯。医疗器械、ERP系统、电脑等成为了数据记录的工具。数据被记录是用户被动选择的结果,如果用户不去医院检查,那么数据就不会被记录,用户去了B餐厅而不是A餐厅消费,A餐厅也无法获取到用户的喜爱。所以,可穿戴设备、智能硬件等都试图让用户能够主动将自身的数据被记录,应该说这也是UGC模式的一种,用户自愿将自身的数据提供到平台上去,供平台进行分析。被动和主动的区别是非常大的,被动就意味着有用户的数据会流失掉,当流失掉的这部分用户足够多以后,新的数据模型就无法完成。记录是数据的基础,接下来就是连接。数据和用户的连接用户不可能一直在某个餐厅消费,也不可能一直在某一个地方睡眠,至于可穿戴设备,用户也很难做到每天都按时去佩戴,让自身的数据可以记录。单个用户某一行为被不同商家记录,而这些商家记录的数据是分离的、独立的,无法形成连贯性,当这些被记录的数据到了一定时间滞后,肯定是面临被丢弃的命运。让数据能够同平台的相互连接,要比单个“独霸”有用的多。另一方面,就是数据和用户的连接,如何让用户的数据能够被主动贡献出来,并通过互联网、移动互联网相互连接,形成数字存储而不是纸质记录,这是当前围绕数据进行创业者的思考。跨界连接是最困难的,就像拼图一样,如何通过混乱的形体组合,形成有效的画面。比如餐饮和超市购物、搜索和社交、电商和社交等,这些数据得形成有效的连接,单一的从搜索行为就分析出用户的购物行为或者其他行为是有失偏颇的,搜索的需求太单一,并不能是用户整个的行为特征,只有综合用户搜索、购物、社交等多个使用行为,才能有效的分析出用户的某个行为特征。有效的价值转化从记录→连接→价值转化,这肯定是一个漫长的过程,要知道先祖们用了数千年的时间也仅将少量的数据形成转化并遗传下来。互联网、移动互联网在国内的发展还不足20年,而数据从被重视到被记录到被连接,就更是一个漫长的过程,目前市场上的智能手环、智能手表、无线路由器、盒子等产品虽然都不尽人意,但是其无一不在让数据变的有效的道路上奋斗着。将用户的搜索数据记录并有效价值转化最早的案例是谷歌当年预测流感病毒,当然,已有不少互联网公司都有将用户数据记录、连接并实现有效的价值转化。互联网公司离数字存储最近,占据着有利条件,能够更敏锐也是正常。不过,仅仅有互联网的数据是不完全的,用户在线下的数据,用户在生活中的数据,在更多不使用互联网的情况是使用的数据,我把它称之为物理数据,这部分数据是现实生活当中的数据,其价值要高于互联网络上的数据的,互联网公司们正在吸收着这些数据。数据的有效转化,可以体现在几个方面,一是预防,针对企业级的。应该说每个行业都有泡沫的存在,就算没有泡沫,也会有倒闭的风险,通过对相关数据的分析,可以对未知的风险起到一定的预防措施,即使不能避免,至少能更大程度上的减少损失,并能够助力公司挺过这场风暴。一是隐性价值,针对用户级的。比如时间成本,通过地图工具和当地公交系统对接,让用户实时了解公交车的到站时间,节约用户等待公交车的时间,海量用户的时间成本加起来,肯定是一笔不菲的价值。再比如健康预防,越来越多的慢性病开始向用户渗透,通过对相关数据记录、连接,让用户能够尽早预防慢性病的发生,比如肥胖的问题(健康产品的前提是有高质量的医疗体系在背后支撑)。让所有可能有价值的数据都被记录、连接,再将这些数据分析之后,实现有效的价值转化,互联网公司、传统企业、统计机构、用户,所有人都是这场风暴的参与者。我们应该给予正在为这场大风暴做贡献的企业和创业团队,可能有人被“掉队”,也有人可能在这场风暴中崛起。
以上是小编为大家分享的关于如何让“大数据”有价值的相关内容,更多信息可以关注环球青藤分享更多干货

7. 大数据的价值何在?

大数据的价值体现在以三方面:

1、对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;

2、做小而美模式的中小微企业可以利用大数据做服务转型;

3、面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

大数据技术主要包括以下作用:

第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。

移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。

第二,大数据是信息产业持续高速增长的新引擎。

面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。

第三,大数据利用将成为提高核心竞争力的关键因素。

大数据的价值何在?

8. 大数据的真正价值

大数据的价值:
a.数据辅助决策:为企业提供基础的数据统计报表分析服务。分析师能够轻易获取数据产出分析报告指导产品和运营,产品经理能够通过统计数据完善产品功能和改善用户体验,运营人员可以通过数据发现运营问题并确定运营的策略和方向,管理层可以通过数据掌握公司业务运营状况,从而进行一些战略决策;
b.数据驱动业务:通过数据产品、数据挖掘模型实现企业产品和运营的智能化,从而极大的提高企业的整体效能产出。最常见的应用领域有基于个性化推荐技术的精准营销服务、广告服务、基于模型算法的风控反欺诈服务征信服务,等等

c.数据对外变现:通过对数据进行精心的包装,对外提供数据服务,从而获得现金收入。市面上比较常见有个大数据公司利用自己掌握的大数据,提供风控查询、验证、反欺诈服务,提供导客、导流、精准营销服务,提供数据开放平台服务,等等

但在实践中,我更加喜欢把数据的价值分为两个方面,一个方面是给企业创造营收,另一个方面就是给企业节省成本。