互联网广告系统是如何识别用户的，比如年龄、性别、职业、兴趣、购买力等？

理由

举报取消

互联网广告精准投放过程中，是如何获取用户的这些信息的，又是如何保证精准的。

2018年1月9日 10 条回复 2222 次浏览

DSP,互联网,分析,平台,广告,推荐,用户,算法,需求方

回复 ( 10 )

JohnK无相法师初入职场
0
举报回复
理由

举报取消

广告联盟的定向很多，比如：

1.年龄

2.性别

3.地区

4.兴趣

5.设备

其他不展开了，

地区，直接读取ip就可以了，设备，直接读取识别码就可以了。

其他几个其实可以一起说了：

一般信息读取最优先的是终端投放站点，由站点负责识别你这个ip，如果你是注册用户，那就简单了，直接上传注册信息里面，计算需要的几个数据值

如果你不是注册用户，就会读取你的cookie

也就是说，你要是不想被定位的话，直接清除cookie和所有浏览记录，退出所有账户，就可以了

我们看看cookie：

这个是知乎某个页面留下的cookie

这个是百度某个页面留下的cookie

可以看到每个页面留下的cookie都保留了用户信息，比如知乎上的ut系列上面有账户信息，百度的ssid是你的服务器识别，可以判断你的地区，所用网络

又比如这个淘宝的

这个tracknick这个值就是你的用户名，就是你上次登陆过的账户，光这一个值，就能从读取你的账户数据。

也就是说，广告平台的计算系统，只负责将读取的cookies分析，大部分都是基于自己的分析模型，比如阿里妈妈系统就是靠阿里系统里面的账户数据来实现定向。

所以年龄和性别都不是问题。

下面谈谈算法：

比如年龄，他并不是分析你的准确年龄，而是将你判定为特定几个年龄层的。

比如我们先将每个网页的年龄属性清空，然后读取已有年龄数据的用户（这就是为什么网站都推荐你资料填全），比如a站，一开始年龄属性是0，然后发现大量已知年龄为18-25岁的账户进入（这些账户可以是淘宝的，百度的，腾讯的，只要你账户上有可读的生日信息）

那么a站就会赋予年龄权重，18-25岁这个块占99%

然后当你的cookies和缓存里面有大量的a站数据，但你在淘宝上的登记数据是45岁，同时经常买很多老年人买的东西。

也就是说，这个电脑很有可能是多用户。

广告系统会混乱吗？不会的，因为投放站本身也有属性，比如是个漫画站，他就会给自己加个权重，同时广告内容也有权重，比如是卖手办的链接，他的权重也是偏向年轻人的，所以当你这个电脑访问漫画网站的时候，广告系统是绝不会因为你买过中老年服饰就给你推荐养生膏方的。

总结一下，投放站，广告主，以及用户的cookies都有自己的年龄属性和权重。

也就是说，广告系统不会仅仅判断你的属性，更会判断你当前的使用场景。

当然，有些流量主/投放站本身会手动选择属性区间的，但并不妨碍通投系统的识别。

而当你访问百度，搜索一个中性值，比如唐太宗，旁边的广告系统就会错乱了，他可能同时给你推荐手办、acg以及中老年壮骨奶粉。

当然，上面这个问题，只存在于一个情况，就是只有年龄这个维度。

下面兴趣维度就发挥作用了，同理，投放站，广告主，用户都会给广告计算系统提供兴趣的权重，由广告系统结合场景处理并给出你感兴趣的东西，比如你搜索唐太宗的时候，广告系统就会给你历史书、画像等等推荐了。当然这只是个比方。

兴趣维度因为是多维的，算法就更加复杂，不同系统之间的算法也有很大的差别，我也不是太懂具体的公式，就不细说了。

但你通过年龄这种单维算法，肯定能够大概感觉到多维算法的框架了。

最后吐槽一下淘宝，经常会投放已经买了但是无需再买的东西，这一块还是可以优化的。

广告的算法还有相当大的发展空间，比如关联产品间的优化，比如尿片和啤酒之间的那种优化，，又如时间上的优化，比如买叶酸半年后给你推荐奶粉和尿片等等，还是有大量空间的。
郑义初入职场
0
举报回复
理由

举报取消

数据！数据！还是数据！

用一句话概括就是：通过数据的挖掘来识别用户，通过数据的精细化处理来划分用户群，再通过各种定向交易的方式将这部分用户数据利用起来。

所以其实就是解决几个问题：

其一，数据从哪儿来

其二，数据怎么处理

其三，处理完怎么用

01. 数据从哪来：

——–

有三种：
- 注册数据：
可不要小瞧这部分信息，在业界实践过程中，这部分数据解决了很多很现实的问题，数据量也很大，是最直接可获取的用户数据。而且有些数据的质量非常高。

举两个例子：第一个比如百度，百度用户账号体系很弱，简言之就是百度的产品是“真用完就走”，别看张小龙大帝天天鼓吹这个概念，但在业界真正做到用完即走的，也就是各类所搜引擎吧。所以，为了局限于这种产品形态，百度的账号体系没有腾讯、阿里那么健全。

第二个是阿里，阿里的注册数据、账号体系还有各类数据在业内算数一数二的，因为我们要交易嘛，交易就要跟支付产生关系，支付就要绑定银行卡，身份证。还得填写家庭住址啦，手机号啥的，行云流水，跟你收集这些数据的原因坦坦荡荡，有理有据，因为人家是服务你啊。所以，阿里做效果广告，识别用户群，这类用户数据就会发挥巨大作用。

——–
- 行为数据：
行为数据指的是你在互联网产品中的操作行为产生的数据，比如你的搜索行为，购买行为，加入一个社群的行为，以及我现在正在回答这个答案的行为，都是你的行为数据。这些数据能决定什么呢？能决定的可多了。

根据你的搜索行为，可以判断你当下对什么感兴趣——搜索广告推荐

根据你的购买行为，可以判断你的购买力、购买意向、等等——电商营销

根据你加入了什么QQ群，可以判断你的兴趣，比如你加入了母婴群，说明你可能是个母亲，也可能是很爱妻子的丈夫（哈哈哈哈哈），这时候给你定向推荐奶粉好像不错

——–
- UGC数据：
比如知乎上的各种答案，微信里各种公众号的文章，你发的朋友圈、QQ说说等

大多数国内外主流的广告系统，BAT、FAG基本都是基于这三类数据进行人群定向的。

02. 数据怎么处理

利用大数据的处理技术进行人群定向现在在互联网广告行业已经是比较普遍的基础技术了

具体技术阐述起来就写成论文了，我就阐述一下过程和逻辑：

Step1: 根据你想做的行业领域搭建数据库

Step2: 根据你有的数据给用户打标签

Step3：把打好的用户标签做成一个一个用户群的筛选器，再灌入更多用户数据，让这个筛选器里边的用户越来越多

Step4：测试这个用户筛选器筛选出来的用户好不好用（做AB、灰度、小流量等）

Step5：好用就扩大战果，不好用就调整策略重搞

Step6：最后你得到了一个又一个识别出来的人群，可以用于定向策略。

——–

03. 处理完怎么用？

各种不同的广告产品用的方式不同：

搜索广告关键词定向策略较多，结合人群识别提升精准度；

展示广告、Feed流主要依赖人群的商业兴趣定向，所以这部分识别比较关键，直接决定广告主的投放，什么程序化购买啊、DSP之类的东西都是在这里做的文章。

大概是这样一个事儿吧。

以上，感觉有用希望不吝点赞哦^ ^

——–

纯兴趣研究讨论，有不同意见可以一起讨论。

知乎不回私信，有问题可以微博@ 郑义分分钟

以上。
阿贝尔管理大师
0
举报回复
理由

举报取消

如果网站有用户注册的信息，比如facebook类似的，直接读取账号信息就可以了。

如果是未注册或者未登录或者注册信息里面没有此类信息，一般是通过cookie、IP等识别后，与连接的微信微博或者其它第三方网站有相关信息的网站去读取用户的信息。
bin s 初入职场
0
举报回复
理由

举报取消

本人在quantcast,就是做这的，年龄学历性别爱好都能识别，基本上就是在每个网站上放一个tag，说是measure,同时做大数据归类，根据你经常上的网站，把不同人放入不同的bucket来classify，基本就是这样,有空再写具体的
陆油初入职场
0
举报回复
理由

举报取消

在我们互联网中有个专业术语叫做用户画像，在big data时代，作为app开发者的我们不夸张的说会记录用户的每一次点击并且上传到服务器，这样我们可以根据用户点击内容形成预估，从而使用推荐算法给用户推送相关年龄段或者兴趣的内容。
于存海初入职场
0
举报回复
理由

举报取消

初做广告系统的时候，我也好奇到底算的准不准。由于完全没有经验，学渣又看不懂论文，所以一直困惑了我好久。

直到ff15上线，我的一群男性基友，大量在游戏中建女号。我才发现其实我们对物理性别的定义并不能直接延展到虚拟性别。因此，现在我们是这么看每一个用户的，一个UID就是一个用户，这个用户拥有他的虚拟性别，虚拟年龄，虚拟职位等，由这些虚拟的标签共同拼凑了这个虚拟的用户。

另外，我们知道现实中的性别也并不是非男即女的，B面也是存在的。因此我们对虚拟性别的定义也并非非男即女，我们会计算一个男女的偏离度，以此作为广告推送的基准。

虚拟的用户跟现实中的样子必然存在偏差，只是每个用户的偏差大小问题。所以我们是不会去追究虚拟性别和物理性别是否一致的匹配度。然而想要计算虚拟性别的精准度，目前的方法是建立训练集，但是我觉得这个方法并不客观准确，还在寻找新方法。
linger liu 初入职场
0
举报回复
理由

举报取消

数据交换或者预测。

数据交换指跟其他公司交换双方用户数据，通过cookie或者手机imei号等关联用户。

预测的话，准不准看数据，没有绝对的。

我做过性别预测，但不是很准，覆盖率100%情况下70%+准确率，覆盖率30%情况下80%+准确率，感觉已经是极限了。

详细见我的分享
alipay 初入职场
0
举报回复
理由

举报取消

拿APP来举例：

获取用户年纪、性别等业务数据可以通过（大致）3个方法：

1，通过APP所承载的设备维度及APP本身维度（静态维度）

1> APP设备维度：机型（苹果iPhone7s），操作系统（iOS），系统版本（iOS9.8.1）等；

2> APP本身维度：APP类型（社交），APP描述（面向女性大姨妈预测），版本号（V2.1）

2，通过用户画像标签（行为数据）

1> 比如APP的描述：面向女性大姨妈预测的社交软件，用户在使用这个APP时，需要设置一些基本信息，比如性别，第一次来潮时间，最近一次例假，年纪等字段；

3，APP自定义的标签：

1> 比如APP的描述，女性，大姨妈等字段；

通过分析苹果系统和安卓系统的男女使用占比，这个是最粗糙的；囧

然后通过分析app描述的字段，类似大姨妈相信女性用的多一些；

最后通过画像来（行为数据）判断，比如买卫生巾，自然女性可能性更大一些；

再然后通过APP自定义表情来验证

这个都是通过训练来推测的，没有所以没有所谓的多准一说，因为买卫生巾也有可能是男票呀~
方兵初入职场
0
举报回复
理由

举报取消

互联网媒体会收集注册信息、以及用户行为，然后对这些信息进行聚类分析，从而找出其中的规律，利用这些规律来识别用户的年龄、性别，对于用户的每一个特征通过这种聚类算法可以找出一个匹配的百分比，例如说某个访问者是25~35岁的可能性大约为90%~~~~~~

然而，然而，究竟这种聚类分析学习的算法是以什么为依据的呢？总不能写算法的同学说有这类特征的人是25岁~35岁那他们就真的是25~35岁了吧？

实际上一般媒体都会从调查公司购买数据，从而得到一批样本客户，这批样本客户的特征是很明确的，你可以认为他们是百分之一百准确的。然后将这批样本数据与自己网站里的客户进行Cookie Maping，找到这批样本客户在自己网站里的行为数据及注册数据。

这个时候才轮得到前面的回答所说的算法上场了，他们通过聚类算法等分析这批样本客户在自己媒体中的行为数据及注册数据，比如爱看什么视频啦、什么时间上网啦等等之类的。不断优化算法并对样本客户进行训练，看看自己的算法和购买来的特征数据差异有多大，如此一直优化到准确率可接受为止。

当算法准确率到达可接受程度了，就可以让算法发挥作用了，在广告投放过程中使用这套算法猜测访问者的特征，然后对符合特征的访问者投放指定的广告……

而广告主又是如何确认投放效果的呢？广告主要求自己的广告投放给25~35岁的男性网民，然后是否真的投给了这批网民难道是媒体说了算的吗？媒体说多少就是多少吗？

显然不是的。广告主会自己去向第三方的调查公司再去购买一批样本数据，并认为这批样本数据的用户特征是百分之一百准确的。一般而言，广告主购买的样本数据和媒体购买的样本数据并不会是同一批数据。在广告投放结束后，广告主会收集到媒体投放的广告中有多少恰好投给了这批样本网民，而被投放广告的这批样本网民中又恰好有多少是满足自己的投放要求（25~35岁的男性）的，从而计算出一个比例，然后认为媒体投放广告的准确度就是这个百分比数字。

举个栗子：

某网络媒体A为了实现人群定向广告投放，向数据调查公司B购买了一批20万个样本，经过Cookie Mapping之后发现其中有约10万个曾经访问过本网站，A就会对这10万个样本进行分析，看看他们在自己网站中的行为及注册信息分别是什么样的，然后研发算法，并且反复不断的升级。终于有一天发现这个算法对这10万个样本的猜测准确度达到了90%，于是认为该比例可以接受，然后就将这套人群定向算法进行了全流量。

广告主客户C为了推广自己的产品，在网络媒体A上投放广告，要求广告受众是25~35岁的男性。购买量为1000个CPM，媒体A接了这个订单后，使用自身的人群定向系统进行广告投放，因为认为自己的这套算法准确度约为90%，所以A实际上投放了1110个CPM，并向广告主C收取1110 x 90% = 999个CPM的费用。

广告主客户C认为媒体A的人群定向不一定准确，需要进行监督，于是自行向数据调查公司B购买了15万样本的数据。广告投放完毕之后发现其中有1万个样本被媒体A投放了自己的广告，这其中有8000个样本确实是25~35岁的男性。因此认为网络媒体A的人群定向准确性只有80%（而不是90%），由于媒体A一共投放了1110个CPM，所以广告主客户C只愿意跟网络媒体A结算1110 x 80% = 888个CPM的广告费用。

想要了解互联网广告，请关注我的知乎专栏

我的微信公众号：虾眼看广告
匿名用户管理大师
0
举报回复
理由

举报取消

经常看色情的，我闭着眼猜你是男性，色情当中还有乱x、SM、恋童……等等，大概猜个年龄出来？感觉不能再说下去，不知道会不会封号。有缘再见。