什么是大数据?
从某种程度上来说,大数据就和其名字一样——大量的数据。由于互联网的出现,我们产生了大量的数据。据估计,到2003年,我们仅仅产生了大约5艾字节的数据——约等于50亿GB。但是从2003年到2012年,这一数字达到了2700艾字节。根据伯克利大学的研究,现在每两天人类就会产生大约4.3 艾字节的数据。术语“大数据”通常指的是大量的、急速膨胀的、变化的、且没有结构的数据,采用传统的数据库很难储存。它包括所有的通过网络传输的数字信息,公司的专利信息等。同时,处于一些目的,现在也有很多公司正在进行数据分析方面的研究。
通过在网络上买东西或者进行媒体社交,人类产生了大量的数据,但这只是冰山一角。大数据可以包括数码文件、照片、视频、音频文件、推特、其他社交媒体产生的邮件、文字信息、电话记录、搜索引擎查询、标签和条形码扫描和金融交易记录等等。只要你在网络上进行任何操作,你都会产生数据,从而让其他人可以跟随你的信息,甚至找到有用的信息。
生产数据的装置的种类和数量也在呈爆发式增长。除了家用电脑和零售商的销售点系统,我们有可以连接电脑的智能手机、WiFi支持的社交网络中关于个人信息的交换,例如重量、追踪人类健康的传感器产生的数据,照相机也可以自动上传照片和视频,GPS装置可以给出我们的位置等等。不要忘了还有天气和交通传感器,监控摄像机,车内和飞机内的传感器等,虽然没有与网络连接,但是也在产生数据。大量的电子设备产生并上传数据,从而产生了一个新术语——“物联网”。在这里,你将会发现大数据的多重定义,因此并不是所有人都会同意其内涵,但是它也可以是任何大家感兴趣的可以进行电脑分析的数据。这些浩瀚如烟的庞大数据集需要新的方法来收集、存储、处理和分析。
大数据是如何进行分析和使用的?
大数据需要经过收集、分类、联系在一起,并且经过整理之后就可以供其他人使用。公司和其他企业需要对这些数据进行过滤,找到有用的信息。幸运的是,硬件和软件可以处理、储存和分析大量的数据,且价格越来越便宜和高效,因此这项工作不再需要巨大的、贵重的超级电脑。一些软件也变得使用越来越友好,因而不再需要专业的团队来进行数据的分析。
公司则充分利用云计算服务,在这种情况下则不需要购置电脑来处理所有的数据。数据中心可以在多台服务器上对数据进行分发处理,并且在需要时可以按比例缩小或减少服务器的数量。通过使用一些新兴工具可实现规模化分散计算,例如Apache Hadoop, MapReduce和Massively Parallel Processing等工具。和传统SQL 数据库相比,NoSQL数据库更可规模化发展。大数据的大部分处理和分析旨在找到有助于做出决定的数据。目前商业应用方面主要是通过大数据分析获得消费者习惯、产品流行度或者更有效的进行商业发展的方式。大数据分析可用于精准投放广告,产品和服务等,或者用于指导广告创造。现在一些公司又开始打算通过消费者的信用卡消费记录来投放广告。
然而,这和仅仅是为了让我们买东西不一样。商业方面可利用这些信息来提高效率和实际应用,例如找到最有效的投放路线,或者适当的备货商品。政府部门可以通过分析交通事故、犯罪、实用工具及其他统计数据来提高公共决策和公共服务。情报机构则可以通过这些信息来获得犯罪和恐怖主义活动。本质上来说,大数据允许我们使用实时数据而不是过时的信息来指导决策。但是这种通过现在的行为和信息来预测未来的能力总是让人觉得有点毛骨悚然。
大数据:朋友或敌人?
大数据的想法让很多人寝食难安。从广告公司的投放的广告就可以知道我们目前正在干的事情;最近美国国家安全局国内间谍表示,对于人们的这种担忧是非常可以理解的。从这份数据中,人们可以发现很多你的信息,包括你的年龄、性取向、婚姻状态、收入水平、健康状况、口味、爱好等等信息。他们只需要有手段和意志来收集和分析它。
在我们进行交易的时候,我们向公司释放了很多我们的信息,尤其是当我们用信用卡或者储蓄卡进行交易的时候。仅仅通过你的购买行为,一些人就可以得到很多关于你的信息。政府部门和隐私权拥护者试图规范个人信息的使用,以免这些个人信息不再是秘密。但是预测分析可以绕过许多现有的法律,例如通过让公司通过非直接途径获得你的信息,或者通过一些碎片化的信息来分析你的个人行为。一些公司则使用信息来做这样一些事情,例如使用其他典型的信用评分数据核查潜在客户的信用价值。有人担心这种类型会让人更难找到工作、住房或者借贷歧视等。更糟糕的是,有时候它也不是尽善尽美。
在大数据时代,由于对数据的误读而做出错误的决定也是有可能发生的。和其他工具一样,结果往往取决于对于这种工具的使用。即便引入了数学,大数据也不是一个精密科学,处处有着人为决定和计划的身影。因此在决定过程中懂得如何舍弃信息也非常重要。
这些分析可用于一些好的方面,例如和欺诈做斗争等。银行、信用卡发行商和其他公司正越来越多地使用大数据分析来重点打击犯罪行为。大数据也有利于科学研究和社会学研究,选举预测,天气预报和其他有价值的追求。因此对于那些不稳定的因素,通过法律的引入,逐步完善,相信可以很好地保护我们免受伤害的同时很好的享受大数据所带来的便利。
新材料在线编译整理——翻译:杨超 校正:摩天轮
- 上一篇 >发行规模大增 2022年绿色债券市场扩容可期2022-02-17
- < 下一篇将二氧化碳转化为绿色能源电池2016-03-07

