分享
rtbasia是如何区分人类和机器的?
知识背景:互联网用户分为三个最大的“人群”:男,女,机器人;机器人会模仿人类的形态浏览网页、观赏视频、点击广告、撰写评论、投票点赞。机器人通常居住在“数据中心”。当IP场景为“数据中心”时,此IP发出的网页浏览行为大多数情况下属于NHT(Non Human Traffic,非人类的访问),可能是各种功能的机器人:搜索爬虫、内容采集器、舆情监控、网站性能监控、压力测试器、自动发帖机、安全检测软件等等,你懂的…此IP“最近执行NHT动作的时间”为部分样本,仅供参考。“真人概率”的数值在50%以上,可以被认定为此IP的网页访问量基本由人类主动行为产生,分值愈高越真实。低于50%则有较高可能性是此IP的行为是机器人主导。
回复 ( 2 )
跟rtbasia那边的技术负责人沟通过,最直接的方法就是:
大规模的机器,每台机器去监测需要检查的IP的端口
机器人的网络,会开放很多的端口,比如80,4040,通过这种行为来判断IP是否异常。
1、帮别人投放广告,自己拿相关数据。
2、向其他人买广告数据或者相关数据,然后自己清洗。
3、BGP\ASN信息。
4、WHOIS信息。
5、大规模路由跟踪的信息。
6、跟运营商合作,只向家庭宽带投放广告,拿到相关数据。
7、运营商内部在卖相关IP信息,但是我觉得这个可能性很低。