物理攫英大数据一个时髦的话题

山东治疗白癜风医院 https://baijiahao.baidu.com/s?id=1700694678789028524&wfr=spider&for=pc

大数据:一个时髦的话题

     和需要新的元素周期表

当前,大数据已成为社会热潮。

美国的材料基因组计划(MGI)于年6月启动,旨在将能源、交通和安全等领域的先进材料的开发时间和资金成本减半。近日有专家在“自然”杂志撰文,指出数据共享乃大势所趋,论述材料科学家应该如何在该计划中实施工作。在信息技术领域红极一时的“大数据”,正在不知不觉地加紧渗透到我们的生活中。它前所未有地丰富了我们的生活并产生了极大的便捷,同时也对公众的隐私构成了威胁。任何新技术的应用似乎都难以避免一种窘境:在机遇与风险之间寻找平衡。信息技术领域同样如此。未来,大数据应用将在解决现实问题上产生更多亮点,也必将遇到全方位更为严峻的挑战。

早在年,美国未来学家阿尔文·托夫勒比阿便在《第三次浪潮》一书中,将大数据赞颂为“第三次浪潮的华彩乐章”。不过,直到年,“大数据”才开始成为互联网信息技术行业的流行词汇。今天,“大数据”已经在各行各业衍生出形形色色的数据应用。推动大数据研究的动力主要来自企业的经济效益。IBM、谷歌、亚马逊、Facebook等跨国巨头正是发展大数据技术的主要推动者。年推出的“谷歌流感趋势”,至今看来仍不失为一个典型的大数据应用范例。谷歌设计人员认为,人们输入的搜索关键词代表了他们的即时需要。他们编入了“温度计”、“肌肉疼痛”、“发烧”、“喷嚏”等与流感有关的关键词,系统便会开始跟踪分析,创建流感图表和地图。为了验证“谷歌流感趋势”预警系统的正确性,谷歌多次把测试结果与美国疾病控制与预防中心的报告做对比,结果证实两者存在很大的相关性。专家认为“这正是大数据的应用方式之一,即发现统计规律。”他们认为,大数据的应用方式还包括分析个体规律和集成形成知识。在购物网及医疗、商业、教育、金融、军事、科研等领域,大数据技术也正在如火如荼地应用着。大数据技术应用不能仅在数据上下功夫,还需要更多地与现实生活相结合。大数据被寄予厚望的地方或许恰恰在于此——其创造价值的过程本身就是一场“商业和科学革命”。关键在于如何从商业、社会的角度充分理解数据。在年5月香山会议上,专家指出:数据背后的数据网络是大数据研究的重点。就在此次会议前不久,美国联邦政府宣布了“大数据研究和发展倡议”计划,拟用2亿美元提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平。

目前大数据应用面临的挑战之一是对个人隐私信息的担忧。根据美国中央情报局前职员爱德华·斯诺登提供的信息,美国情报机构在年开始的“棱镜”窃听计划中对美国9家互联网公司的数据进行挖掘工作,从音频、视频、图片、邮件、文档以及连接信息中分析个人的联系方式与行动。该计划一经曝光,便受到国际社会的谴责。从大数据应用创新的角度来看,“棱镜计划”无疑是一个非常出色的案例,同样暴露了大数据应用对个人隐私的威胁。大数据时代如何保护隐私?大数据的应用对公众信息安全来说无疑增加了一个新的维度。如何通过立法和各种手段真正保护个人隐私,这是国家需要高度重视的一个安全问题。

数据共享乃大势所趋。美国的材料基因组计划(MGI)启动至今已有两年,数亿美元已经投入到了学术、产业和联邦机构的项目中。数据共享与计算机工具开发对MGI的成功至关重要。先进材料复杂的物理与化学特性可以因不同的需要而相应调整,并可以在合成、生产和使用过程中改变。对这些特性的跟踪是一项非常艰巨的任务,MGI的努力还包括将术语、数据归档格式和指南报告标准化。MGI可以从现有的纳米技术协作项目中得到借鉴——数据共享是一种固有的协作活动,有着更快速推进材料科学发展的潜力,可以使现有的项目更具活力,并成为共享所有尺度的材料信息平台。数据共享的环境必须吸引和促进合作。社交网络策略可以使有着不同技能的用户追求共同的利益。MGI正在形成协同工作的风格,它提高了技术与个人面临的挑战,更加适应不确定性。MGI所能得到的最快速的回报应该来自于对材料模拟的共享。从同步加速器到电子扫描显微镜,纳米技术工具在信息革命中得到了磨练。如今,在MGI中,需要通过扩大视野并纳入多种多样的材料来推进分子制造,正在建造的一个与材料种类、特性和功能相吻合的工具包,MGI将会扩大其范围。

年11月8日有报道指出:‘为何大数据有时对科学不利’?在承认大数据可利用性的同时,也指出‘科学进步越来越多地由数据来推动。海量数据给数据分析既带来机遇,也构成了新的挑战’。大规模的数据集很有诱惑力,能促使人们展开积极的分析,而且分析者希望能够从中获取科学发现。但有时,利用大数据意味着最终得到的是糟糕的数据。要从大数据中得出高见,给计算机科学、统计推断方法甚至科学方法本身带来了巨大的挑战。计算机科学家开发出卓越的计算能力和信息存储技术,使大数据的积累成为可能。但是收集数据及存储信息与理解这些内容并不是一回事。了解大数据的真正意义并不等同于对小数据进行解读,就像明白鸟群的行为特征并不能解释一只孤独的海鸥所发出的叫声一样。标准的统计检验和计算程序原本是要分析从大的群体中提取的小样本,从而得出科学推断。但是大数据提供的样本极大,有时甚至包括整个群体或者群体的大部分。任务之艰巨会给实施计算过程从而完成统计检验带来问题。专家指出“许多统计程序要么是有未知的运行时刻,要么是运行时刻让该程序无法用于大规模的数据。面对这种局面,大规模数据的收集者往往不得不求助于临时的程序,而这种程序有可能具有糟糕的甚至灾难性的统计特性。”

听起来很糟糕。不过还有更糟糕的。大数据样本不仅需要更多的时间去分析,它们往往还包含被抽样的所有个体的许多不同信息,从统计学的角度讲,这意味着这些样本是“高维的”。更多的维度增加了发现欺骗性关联的风险。比如,在医学研究中,可能会将某种药物的疗效与病人的身高联系在一起。但是这可能仅仅是因为大数据包含方方面面的信息,从身高、体重到眼睛的颜色,再到鞋子的尺码和最喜欢的棒球队。需要考虑的维度如此之多,有些维度显得重要似乎只是出于偶然。“高维度可能会导致错误的统计推断和错误的科学结论”。除此之外,大数据往往是利用众多技术和方法,综合源自多个渠道、不同时间的信息而获得的。“为了应对大数据带来的挑战,我们需要新的统计思路和计算方法。”

一个和研究和实践持续相关(或不相关)的时髦话题?

“为了赚钱,你一定要预测两件事——将会发生什么以及人们认为将会发生什么。”

看着谷歌的首席经济学家、加州大学伯克利分校名誉教授哈尔·瓦里安(HalVarian)的这句话,似乎自然会想起大数据。大数据——一个似乎现今每个人都会提到的词汇——近期已经演变为研究和实践中讨论最多的话题。看一下学术刊物,我们发现所有处理大数据的归类文章中超过70%在过去两年中发表(PospiechandFelden),以及谷歌学术(GoogleScholar)中各个研究领域对大数据的近12,次点击。年,可以找到超过篇和大数据相关的学术文章(Chenetal)。在谷歌中,我们发现“大数据”的点击比“开发援助”多,几乎每天都有一个和IT相关的商业杂志紧接着大量大数据业务会议出版一期大数据专刊。在高德纳公司当前的新兴技术成熟度曲线上(Gartner),大数据正处于成熟阶段的顶峰。据此,预期未来五年内将会广泛采用。大数据激发了各个领域的兴趣,例如科学、政府、类似媒体和电信的行业、健康保障工程、金融,各组织都面对大量数据以及存储、处理和分析这些数据的新技术。尽管有令人珍视的期待和希望,但是问题是为什么我们对大数据的兴奋初看上去像是一个时髦的炒作而不像是一个革命性的概念。鉴于比如说,数据分析几十年来都在做同类的分析,大数据是真正新的东西还是只是旧瓶装新酒?更多数据、增加的或更快的分析是否总是意味着更好的决策、产品或服务?还是说大数据只是另外一个刺激IT供应商销售的流行语?以传统金融服务行业为例,这个行业目前对大数据寄予厚望,长期以来通过多种渠道收集大量数据是自定价格、产品报价或计算信用评级的商业模式的一部分。然而,利用这些庞大的数据改善金融服务意味着不断努力更新、媒体的干扰和昂贵的数据收集和处理。因此,越来越多的数据导致了昂贵的数据管理、更高的产品或服务价格以及访问用户数据条目的不方便。因此,相比传统的侧重于数据密集型商业模式的综合银行,拥有较高规格的标准化和IT支持并足够频繁地聚集于(非常少的)关键客户数据的直接银行(directbank)变得更加成功。由于频繁的人员交往,只专注于单纯的基于IT的数据获取、处理和分析可以节省开支在诸如银行的行业中几乎是不可能的。此外,无论是在金融服务行业还是在其它行业中,更多的数据不会自动导致更好的数据、更大的商业上的成功、更好的服务、更好的决策或者(更多)满意的客户。总之,大数据带来了很多关于数据体量、速度、多样性、真实性的悬而未决的挑战,这些不应低估。往往更多的数据甚至导致一定量的“数据垃圾”,相比分析软件,这通常可以更容易和更好地被员工识别和处理(真实性)。此外,各种数据来源,诸如移动应用程序、在线社交网络或客户关系管理(CRM)系统,完全不是微不足道的(多样性)。大数据流量带来了实时归档、检索和分析大量的挑战(体量和速度)。不出所料,几乎每两个大数据项目就有一个在完成之前被取消(Infochimps)。然而就像这些挑战还不够似的,我们还看到,不同国家中无数不同的法律上对隐私的限制成为了大数据最严峻的挑战之一。尽管有一代用户越来越不在乎在网络上的任何地方散布私人数据,但是国别化的隐私法律和大量不希望其私人数据长时间存储的用户可能严重阻碍大数据方法并威胁相应的商业模式。

考虑到这方面的发展,大数据真如当前研究和实践中所推销的那样,是未来十年内有经济影响力和技术重要性的“下一件大事”么?既是也不是——尽管大数据目前可能引发过高的期望,但在我们考虑下面的发展时,对现有概念,纯粹将其标记为一个时髦的话题可能正是简单的方法:每天产生的数据量已经超过2.5艾字节(McAfeeandBrynjolfsson)。双向通行能力几乎每年增长30%,全球存储的信息每年增长约20%以上(HilbertandLópez)。年,大数据端的营业额预计将增长超过%,达亿欧元(Computerwoche)。看着这些数据,大数据与将这个新的数据时代看作机遇而非挑战的学术和实践的关联就变得明显了。正如其观点,数据正成为未来为客户提供足够产品和服务的最有价值的商品之一,尤尔根·菲茨岑(JürgenFitschen,德意志银行联合主席)甚至将类似谷歌或微软这样的公司看作德意志银行未来的主要竞争对手(DeutscheBank)。事实上,受到诸如移动和基于传感器的内容的技术进步的驱动,对于公司、政府(例如市场信息、公共安全)以及研究(例如网络分析、移动分析),出现了各种可能性(Chenetal.)。实际上,一些像奥托(Otto)邮购公司这样的公司已经成功利用了它们的海量数据。在每周超过3亿个数据集的基础上,奥托进行超过十亿次预测,预测未来几天和几周内某些物品的销售。这使奥托的库存平均减少了30%(FischermannandG?tz)。诸如美国宽带和电信公司维里逊(Verizon)的其他公司有更具远见的想法,几乎进入了奥威尔式社会的方向。维里逊公司已经申请了一个专利,其中,一个家庭娱乐系统只要识别出一对夫妇在争吵就会把解决方案的广告发送到电视或移动设备上。此外,如果这对夫妇在拥抱,该系统就会发送一个浪漫的周末或者避孕药的广告(FischermannandG?tz)。当然,未来的数据量、速度、多样性和真实性以及对隐私的担忧可能成为这种对大数据一厢情愿想法的绊脚石。然而,考虑到以下技术发展和内部的在数据质量和隐私方面所作的努力,各公司或许能够为它们各自的大数据铺平成功的道路。

大数据是由数据管理中大规模成本削减以及关于处理能力摩尔定律共同驱动的。诸如量子计算或内存数据库系统中的新技术允许快速地以经济有效的方式处理新的数据维度(体量和速度)。然而,关键是将新的IT基础设施的机会与已有的和新的业务流程和应用结合,以便能够利用技术基础设施的进步。

成功的大数据方法需要新的工具,例如,社会的、内存的、文字的或语义分析,它们允许分析大量新的不同数据源,例如来自在线社交网络、搜索引擎、支付交易或所有种类的电子商务(多样性)。然而,这样的数据分析工具的应用首先需要能获取这些新数据和顾客源并将新数据源调适于已有的数据仓库、报告标准等。

大数据的成功不可避免地与数据的选择和使用的智能化管理以及对关于数据质量的明确规则的共同努力相关。尽管新技术允许收集越来越多的数据,但是未来的客户不太可能会愿意输入各种数据,例如,在移动产品购买中。为了应用需要总是可以从各种来源获得的99%的客户数据,只有1%的数据需要客户输入。这要求公司掌握的数据的高品质以保证用户输入的新数据的使用是有意义的。数据的高质量要求数据在时间(例如,在所有销售渠道)、内容(例如,相同的测量单位)、意义(例如,避免不同的含义)是一致的,要求数据有独特的可识别性(例如,客户的数据)并且是完整、易于理解和可靠的。为此,清晰的数据治理和数据政策是必须的,这使得数据的使用是有意义的(真实性)。由于数据政策可能有所不同,例如,在不同的业务单位或国家内,公司需要有明确的数据质量政策、数据质量管理流程、数据质量责任等的数据治理方式。没有这个条件,所有技术基础设施的进步、分析工具或商业模型最终对数据驱动的商业决策都是没有价值的。

大数据需要创新的方法,这些方法不将隐私的担忧和不同的国际隐私标准看作期阻碍作用的限制,而是看作发展竞争优势的机会。在有很多不同来源的不同数据的大数据时代,隐私和匿名的含义不只是将姓、名、年龄和地址与一个数据集解耦。基于位置的数据和其他来源仍然可以简单明了地识别和跟踪。

关于隐私,我们仍然可以观察到(太多)许多公司,尤其是欧洲和亚洲的公司避免在大数据中第一个行动。不要等全球知名的公司,像谷歌、亚马逊或脸谱迈出第一步,世界上的小型和中型公司是成为这个新兴商业领域的领导者的时候了。否则,我们将看到数据“殖民”的第二次浪潮并被这些互联网巨人统治,如我们在互联网泡沫之后已经看到过的,那时全世界很多公司都害怕在新的有风险的商业模式中投资。当然,像谷歌或脸谱这样的公司处于有利位置,相比类似德国公司面临的许多法律限制,它们在其国内市场不必处理严格隐私政策的限制。因此,初看起来它们在数据的使用上可能会提前。然而,在某些市场中的限制对于一个行业长期的成功并不总是不利的。例如,回顾汽车行业的发展,德国制造商很早就得处理客户对节油汽车和高性能的驾驶体验的双重期待,而由于国内市场的低油价,美国的制造商不需要关心燃油效率。今天,全世界所有消费者都面对上涨的油价,并正在形成强烈的生态意识。德国制造商在制造节油汽车方面的经验今天是德国汽车行业优于其美国同行的原因之一。而美国的公司在为低市场占有率和过去几十年的坏印象奋斗,德国制造商主导了全球市场并定期创造销售记录(在增长的市场和美国领先)。因此,约束实际上可以成为刺激创新、客户导向和创造价值的解决方案的肥料。关于大数据,限制性的隐私规则,例如,在德国对于发展满足法律上的隐私限制和客户的



转载请注明地址:http://www.rendongtenga.com/rttp/10704.html
  • 上一篇文章:
  • 下一篇文章: 没有了
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章