大家都在搞大数据,可是数据从哪来?能否坚持到数据足够大那天?

理由
举报 取消

我感觉好多人谈大数据都是在炒概念,大数据这事真不是屌丝创业能干的,没钱,没盈利的话。能耗到数据大的那天么?怎么想都有点扯淡。多数人都是拿这个概念糊弄投资赚钱吧?

2017年9月28日 8 条回复 1242 次浏览

回复 ( 8 )

  1. think123
    理由
    举报 取消

    你一辈子做的所有事情,事无巨细,够大吗?

    你所有的上网行为数据量够大吗?

    数据,无处不在,诚然现在大数据的概念是很火,但是运用的方面并不是很多。

    但是换一个方面,我们就拿用户行为分析来说吧,计算机可能要经过“无数次”的分析才能发现你喜欢什么,当你游览网站的时候网站给你推荐的物品,都是经过无数次运算分析而得到的。

    网易音乐的推荐算法你可以看看,都是以数据为基础。

    大数据是以后发展的一个趋势,如果不凭借计算机,人类是没法处理巨大的信息量的。

    由此,大数据应运而生,现在国内很大一部分公司都在进行大数据的研究,其运用领域之广泛。至于如何广泛就看你自己去发现了。

    我想,其实每个人都是一段二进制代码。你的用多大的空间来存储?

  2. Ryan Fan
    理由
    举报 取消

    大数据来源:

    1、互联网;

    2、企业过去所做的BI

  3. 数据哥
    理由
    举报 取消

    我非常认同提问者的观点,目前很多项目确实在借助大数据的概念热炒!

    这很简单,因为大数据很火,所以把自己的创业项目尽量往大数据上面贴,一方面能够增加曝光度,一方面也增加吸引投资的能力。

    当然,大数据也已经在应用层面出现了。

    比如说现在大家炒股和炒期货用的量化交易,其实核心就是大数据。

    比如我们打开电脑总是有很多与自己隐私相关的一些产品广告,这也是大数据在做的精准营销。

    再比如,百度时常发送的百度大数据预测报告,就是基于我们搜索信息对当下市场的一些预测。

    其实,这方面的产品已经很多很多,当然,炒概念的也很多很多,导致我们有时候觉得做大数据创业就是在炒概念。如果你对大数据感兴趣,欢迎加我们信微 idacker

  4. Kevin
    理由
    举报 取消

    大数据不能单调的认为是数量大,其实大数据的大,除了数量更重要的是维度“大”,也就是引起某种结果的条件是很多的。如计算一个化工厂的安全系数,单调的从一两个传感器得到数据来判定,即使这数量再大那也只是计算速度的问题,非复杂度的问题。综合多方数据甚至外部数据,并计算是哪些因素可能引起某些问题,才能称得上大数据。

    我也是瞎扯的,随便喷,我脸皮厚。

  5. 江湖人称我是刀哥
    理由
    举报 取消

    大数据,现在都上大数据了么,我感觉还是在炒作的阶段,真的做出什么成绩来的了,没几家吧,除了BAT,其他都在摸索阶段;

    现阶段,把数据仓库搞好就笑了,大数据,这个大在于精,不在于量啊;

    那么多非结构化的数据,分析起来,成本太高

  6. 易澄
    理由
    举报 取消

    在回答问题前,先贴一句几年前看到的一句话:

    Google’s geographic data may become its most valuable asset. Not
    solely because of this data alone, but because location data makes everything
    else Google does and knows more valuable.

    大数据的来源:

    就说国内BAT三家公司大数据的来源,之前阿里和腾讯(不像百度)其实是没有用户的即时定位信息的(因为这两家的地图软件其实还是没有什么人用的吧。,如果有人想问卫星是不是LBS信息的来源,提前回答,其实微信如果你不开附近的人或者摇一摇的话是不会有定位权限的。。。即使是开了权限,大多数情况下提供的 lat/lon
    pair
    也是基于 cellular
    positioning
    而不是 satellite
    positioning
    ,精确度不够。)

    在打车软件这里介入之后,恰好帮阿里和腾讯补上了用户模型里缺失的最后一环,在拓展了打车应用后,现在阿里和腾讯就拿到了每个用户的大量在不同时间,地点(很可能还是连续的)的地理定位(LBS)信息(更赞的一点在于这个信息其实不光是 spatial,而是 related to other things 的)。

    再考虑到阿里依靠支付宝拥有的每个用户的信用记录、购买记录、实名、shopping address(准确性最高的一种信息没有之一)以及腾讯有的每个用户详尽准确的关系网……补上即时定位信息这个短板之后,这两家对用户信息掌握的程度又上了一个巨大的台阶。

    结合LBS数据后的大数据有什么用:

    从用户的地理信息数据里能够挖出来的信息是难以想象的,尤其是如果公司本身还拥有与该用户相关的其他大量信息的话,配合用户的地理定位信息使用效果奇佳。想象一下如果很多 industry 的公司拿到详细的地理信息与用户其他行为的关联的话..世界真是太可怕了麻麻我要回火星。

    说的太晦涩了,举个例子来说明今后BAT对大数据的应用:

    比如假设我最后发现好多所有半夜两点钟在人民广场打车回家,平时在淘宝上给网游充值的,淘宝送货地址在外环以外合租房的屌丝如果半夜两点钟还不回家的话有极大的可能性是在吃烤串。结合大数据的 recommend system ,微信就会推送一条消息,说周边有一家烤串店很好吃,如果资料显示你有喝啤酒习惯的时候,等你吃烤串的时候再推荐一瓶某品牌的啤酒。(真的只是假设…求不吐槽..)

    在谈完大数据如何获得,以及大数据如何使用后,我们再谈谈大数据是否能在合适的场景以合适的方式准确地把靠谱的数据以靠谱的方式推送给靠谱的人。

    大数据会不会因为采集了一群奇葩的人的数据而导致会有bias

    再拿 recommend system 来说,就好像 personalized
    collaborative filtering 一样,不会因为你采集了一大坨奇葩的人的数据,就对其他人群的推荐结果产生任何影响。相反,你对于任意一个单体user(item)掌握的数据越多,那么针对该user(item)以及其 nearest
    neighbors 的 prediction 的性能就会越好】

    然后采集到的 lat-lon pair 可以用各种分法来 clustering/classifying(举例:可以判断用户此次打车是上班还是下班还是粗去玩…)

    未来大数据的使用方法就是:

    把现实事件抽象成数据,进行合理的处理之后给出结果数据,然后再把结果数据还原成为行为建议。

    最后讲个故事,如果大数据应用到生活中,未来会怎么样:

    你一早起来,发现快迟到了。琢磨着今天是开车呢还是挤地铁去上班比较快。听各种广播、看各种地图上的路况,你只能知道堵不堵,可是真不知道得多长时间。

    这时候,你拿出手机,选择目的地之后,收集上周本日,上上周本日,同时段,同路段的N辆出租车的运行时间,经过各种算法处理,给了你一个平均开车花费的时间。你一看,我去咧,开个车比地铁都慢,果断走向地铁站。

    你到了公司,经过一上午的辛苦 working,中午想改善个伙食,周围的饭店已经吃腻,远的地方又不知道味道如何。于是你又拿出手机,看看中午时段,自己周围有多少人打车出行,都是去哪的,多少人是往返,也就是去吃饭的,他们对自己吃的这顿饭评价是几颗星……

    吃完了,你深感满意,于是你对这顿饭进行了评价,同时又叫了回程的出租车,两次叫车记录,加上你添加的“吃饭”标签,以及餐馆信息和评价,作为一次完整的出行,被某台服务器记录在案。

    下班了,哥们儿几个商量周末聚餐的事情,有关在哪里聚餐的事,愁破了头。陆家嘴?住松江的不干,徐家汇?住五角场的不干……有车的人,对于是开车还是坐地铁也都是“IFXXX”式叙述。

    经大家讨论,你们这一群栖息在上海各个区的家伙决定,为了大家都不跑太远,大家只好在 people square 铺个席子吃饭(玩笑莫喷…………)

    纠结之后,你又拿出手机,打开App,输入了若干人人等的手机号码,对于谁可以开车,谁只能公交也进行了标记。几秒钟之后,凝聚了工程师无数心血的算法,根据那些手机号码平常的打车记录,划定了这几个货最有可能的,家的位置,然后基于以上,列举出了若干聚餐的最佳选择,并对谁开车,谁地铁,谁打车都进行了安排。

    大家惊为天人,全票通过。你点击接受方案,然后针对每个人的建议行程安排,就被发送至每个人的手机,需要叫车的,也自动进行了预约。

    注释:related to other things 是一个cognitive的概念,其中包含的更多是人类本身对于这个地点的认知。。。比如假设在一个地图软件里,一个<x,y> 点, 包含了经纬度,名字(假设是“小杨烤串”)然后可能有其他一些信息,比如能不能停车啊,人均消费啊什么的。。。这都是spatial的【然后这些信息在GIS数据库上都是 referenced by 点或者线或者 polygon】。。。。但是每一个具体的用户对于小杨烤串的信息 【比如 review 啊, 他们为什么要来小杨烤串的原因啊,喜欢点的菜啊,甚至于在小杨烤串表白被拒的记忆啊什么的。。都是 related to other things 的】 【 related to other things Data 在这里有一个有趣的特性是,他们是不一定与一个特定的地理对象相连。。因为每个人对同一个概念,对应的地理对象不一定相同。就像【上海市中心】这个概念,大家对应的地理对象就不一定是同一个。

    顺便加个二维码,有很多关于这类的文章

  7. 哇哇呜呜吴吴
    理由
    举报 取消

    big data

    大数据这个东西并不是在炒概念

    举个例子

    速度与激情7里面 提到一个天眼系统 可以在很快的时间内找到你要找的人

    在贵阳有个大数据系统和这个天眼非常相似 贵阳这个是一个抓套牌车系统 在贵阳很多个路口都会有摄像头 并且每当经过一辆车都会拍照下来 存在数据库里面 如果同时出现两辆一样号码的车 那么云计算系统就会在极限时间内计算 指出那一辆是套牌车

    我的表达可能不是很清楚 你可以看一下这个视频 你就会明白

    说句实在的 国内很多互联网巨头都是在使用大数据

    再举个例子 不知道你平时上百度的时候会不会发现 电脑屏幕旁边会出现很多话题 这些话题就是百度根据你平时上网的习惯 合成数据 云计算分析出来的一些你感兴趣的话题

    数据的收集是个非常漫长的过程 所以现在贵阳有大数据交易中心

我来回答

Captcha 点击图片更换验证码