用户名*
邮箱*
密码*
确认密码*
验证码* 点击图片更换验证码
找回密码
忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。
I HAVE A SHELL.
这不是简单用确定算法得出的,复杂度会很高,最终方案必然是机器学习。
我给你举例用纯粹“算法”可能出现的问题
1.如果我是刷分者,那么除了我要刷的商品打高分以外,其他竞品打低分了。请问哪个权重更大?
题主这个想法一开始就是错的。
而对于买东西这种东西
2.如果我对一样东西的感觉很糟糕,我或许会不写评价。而且题主低估了水军生成评论的本领,通过模板可以快速套用。
如果要解决,好,机器学习。
3.“一个自然的评分体系应该是正态分布的” 不对很多产品适用。水分很大或者干货很足的均不满足。
所以归根结底都是题主希望通过评价来自我安慰,说服自己购买。
然而稍有常识的人知道,作为一个韩国厂商,不把音频作为主要市场,评价好的离谱,降价降得惊人。
请问,难道题主不应该学习一个么。
做出判断的永远是对产品本身的理解,而不是别人的评论。
不过回想起来,题主你似乎是需要 Steam 的那种评价机制。
我是题主,鉴于没有人给出非常有启发性的回答
我看了几篇论文,写下梗概,权当抛砖引玉了
综合来看,学院派,全都往机器学习灌水去了
比如
1. Toward A Language Modeling Approach for Consumer Review Spam Detection
2. Identifying Deceptive Reviews Using Networking Parameters
这两篇全部基于
Analyzing and Detecting Review Spam
这篇可以看看,引用次数很多
分析显示,可以被显著认定为是虚假的评价占总评价的2%,实际肯定更高
大体思路是,判断真假性,能转化为一个简单的分类问题
通过机器学习来检测评论之间的相似度,从而分类
论文里面有个例子,Mac Pro一款型号下的差评,内容和Mac Pro另一款型号下的差评,几乎一模一样,这在现实生活中基本上是不可能的,所以判断为恶意评价。
这是一个非常符合直觉的方法,用简单的模型,解决了复杂的问题
我只提了最特别的用法,其实论文还训练了别的分类器来对付那些很笨的假评论,比如内容是一些无关信息,但评价却是5颗星之类的。
这种方法,好处是确定性很高,缺陷是这样可以判断Spam却无法判断False
Spam和False都可以称之为,假评论
不同之处是Spam是重复出现的,好比,我要刷好评,我换10个账号,每个都买,然后都说“这个东西真是好!”。
False就是跟真正的顾客一模一样的评论,我要刷10个好评,我每个都换着花样来,这个号说,“好”,那个说“不错”,没有相似度,无法直接识别。
对于False类假评论,我觉得可以考虑,我先前在问题描述中提出的一些方法,来进行权重修正,而非分类。因为我必须承认,False类评论,就算是人也无法判断,所以看看能不能依靠蛛丝马迹去还原
1. 刷好评的数量,肯定远多于刷差评的数量,所以一个账号如果只存在5星和1星的要被降级,混合分布的会被升级。
2. 长评就应该加大权重,这自然可以被轻松突破,但显著增加了刷评分的成本
3. 评价越多,权重越大,这说长期以来,这个账号没有被Amazon怀疑
这些方法作为修正之手段,配合重复评价检查,应该可以得出更加优质的结果。
我感觉,数字时代面对越来越多信息,如果不加以甄别,最终,会丢失对于一切的控制权。
可能偏题了,但是我认为这个问题从算法角度来考虑不是最恰当的方向。如果我来考虑这个问题应该侧重于如何收集更多的信息。
比如如果有用户的其他信息(历史评价,购买记录,个人资料等等),就可以根据用户的历史评价来判断这个用户是不是真的靠谱,从而推断出这一条评价是不是更加靠谱。
或者比如有商品的类型,就可以和同类商品进行比较从而获得更客观的评价。
当然那这些都不是纯“算法”问题
Spam问题
作为一个用户,不太同意题主的观点。
淘宝购物快7年了,只给过一个中评,其余基本都是5星。
不代表说我的评价无效。因为买商品的时候,会去参考评价,价格,以及好友的推荐和商铺的信用等级。
按题主的意思:我的评分完全没有意义咯?
楼主其实也可以换个思路。与其挖掘正常用户的评分波动,不如把恶意用户剔除掉。
正常用户在使用完商品后肯定会比较客观的评价这个商品,比如体验不好,评价上面可能会给四星。
所以,为何不直接把恶意评价的用户找出来。比如恶意刷单刷评价的用户。(包括好评差评)
其余用户,虽然会有评分波动,但在大量样本的情况下,基本也可以稀释掉吧。
每个人对每件商品的评价感受都不同。评价系统本身就有BUG!
题主看到的评分高,只是这件商品卖给某一类人的使用体验而已!
如果你想要把评价或者平分作为参考,那需要分析下之前给评分的这些用户,他们的购物习惯和评价是否满足题主的使用习惯。
我先匿名一个,这样功能的网站已经出来了,去年就出来很久,叫做Fakespot
原理大概是检测一个简单的算法:
1.检测Verified Purchase的比例
2.文本感情和内容分析,诸如检测常见的机器生成评语的特点和文本情感
3.用户购买行为分析,例如历史购买记录,评论商品记录,有无购买过亚马逊自营产品,是否全部为第三方卖家的五星评价等等
4.第三方刷单平台例如AMZTracker用户亚马逊买家ID数据库,一旦出现此类买家,评论真实度自动扣分
5.待续
anker是深圳的牌子。嗯。
评分什么的都是次要的,重要的是你想以什么价格买什么样的产品。一分价钱一分货,10分价钱3分货到哪都成立(特指国外品牌,不包括出口转内销那种,国货10分价钱1分货差不多)。我买东西一般:1、能用就好,像自己做东西用的电子元件,淘宝凭感觉买。买的多了自然容易分辨哪家靠谱,到目前可以说没有失手过。2、要求好用的,如3g路由器(便宜的可以把你恶心死),选大牌子,亚马逊、京东自营(我有90%把握你买的不是亚马逊自营的)。3、偶尔用用的,各种论坛淘二手进口货(叫洋垃圾也行,你没法否认洋垃圾比“国货精品”要好用还便宜)。这个也是需要经验的。
在国内大环境下这个是无解的,基本只能靠经验。你设计出一种评分方法就会有一种应对方法。
昵称*
E-Mail*
回复内容*
回复 ( 8 )
这不是简单用确定算法得出的,复杂度会很高,最终方案必然是机器学习。
我给你举例用纯粹“算法”可能出现的问题
1.如果我是刷分者,那么除了我要刷的商品打高分以外,其他竞品打低分了。请问哪个权重更大?
题主这个想法一开始就是错的。
而对于买东西这种东西
2.如果我对一样东西的感觉很糟糕,我或许会不写评价。而且题主低估了水军生成评论的本领,通过模板可以快速套用。
如果要解决,好,机器学习。
3.“一个自然的评分体系应该是正态分布的” 不对很多产品适用。水分很大或者干货很足的均不满足。
所以归根结底都是题主希望通过评价来自我安慰,说服自己购买。
然而稍有常识的人知道,作为一个韩国厂商,不把音频作为主要市场,评价好的离谱,降价降得惊人。
请问,难道题主不应该学习一个么。
做出判断的永远是对产品本身的理解,而不是别人的评论。
不过回想起来,题主你似乎是需要 Steam 的那种评价机制。
我是题主,鉴于没有人给出非常有启发性的回答
我看了几篇论文,写下梗概,权当抛砖引玉了
综合来看,学院派,全都往机器学习灌水去了
比如
1. Toward A Language Modeling Approach for Consumer Review Spam Detection
2. Identifying Deceptive Reviews Using Networking Parameters
这两篇全部基于
Analyzing and Detecting Review Spam
这篇可以看看,引用次数很多
分析显示,可以被显著认定为是虚假的评价占总评价的2%,实际肯定更高
大体思路是,判断真假性,能转化为一个简单的分类问题
通过机器学习来检测评论之间的相似度,从而分类
论文里面有个例子,Mac Pro一款型号下的差评,内容和Mac Pro另一款型号下的差评,几乎一模一样,这在现实生活中基本上是不可能的,所以判断为恶意评价。
这是一个非常符合直觉的方法,用简单的模型,解决了复杂的问题
我只提了最特别的用法,其实论文还训练了别的分类器来对付那些很笨的假评论,比如内容是一些无关信息,但评价却是5颗星之类的。
这种方法,好处是确定性很高,缺陷是这样可以判断Spam却无法判断False
Spam和False都可以称之为,假评论
不同之处是Spam是重复出现的,好比,我要刷好评,我换10个账号,每个都买,然后都说“这个东西真是好!”。
False就是跟真正的顾客一模一样的评论,我要刷10个好评,我每个都换着花样来,这个号说,“好”,那个说“不错”,没有相似度,无法直接识别。
对于False类假评论,我觉得可以考虑,我先前在问题描述中提出的一些方法,来进行权重修正,而非分类。因为我必须承认,False类评论,就算是人也无法判断,所以看看能不能依靠蛛丝马迹去还原
1. 刷好评的数量,肯定远多于刷差评的数量,所以一个账号如果只存在5星和1星的要被降级,混合分布的会被升级。
2. 长评就应该加大权重,这自然可以被轻松突破,但显著增加了刷评分的成本
3. 评价越多,权重越大,这说长期以来,这个账号没有被Amazon怀疑
这些方法作为修正之手段,配合重复评价检查,应该可以得出更加优质的结果。
我感觉,数字时代面对越来越多信息,如果不加以甄别,最终,会丢失对于一切的控制权。
可能偏题了,但是我认为这个问题从算法角度来考虑不是最恰当的方向。如果我来考虑这个问题应该侧重于如何收集更多的信息。
比如如果有用户的其他信息(历史评价,购买记录,个人资料等等),就可以根据用户的历史评价来判断这个用户是不是真的靠谱,从而推断出这一条评价是不是更加靠谱。
或者比如有商品的类型,就可以和同类商品进行比较从而获得更客观的评价。
当然那这些都不是纯“算法”问题
Spam问题
作为一个用户,不太同意题主的观点。
淘宝购物快7年了,只给过一个中评,其余基本都是5星。
不代表说我的评价无效。因为买商品的时候,会去参考评价,价格,以及好友的推荐和商铺的信用等级。
按题主的意思:我的评分完全没有意义咯?
楼主其实也可以换个思路。与其挖掘正常用户的评分波动,不如把恶意用户剔除掉。
正常用户在使用完商品后肯定会比较客观的评价这个商品,比如体验不好,评价上面可能会给四星。
所以,为何不直接把恶意评价的用户找出来。比如恶意刷单刷评价的用户。(包括好评差评)
其余用户,虽然会有评分波动,但在大量样本的情况下,基本也可以稀释掉吧。
每个人对每件商品的评价感受都不同。评价系统本身就有BUG!
题主看到的评分高,只是这件商品卖给某一类人的使用体验而已!
如果你想要把评价或者平分作为参考,那需要分析下之前给评分的这些用户,他们的购物习惯和评价是否满足题主的使用习惯。
我先匿名一个,这样功能的网站已经出来了,去年就出来很久,叫做Fakespot
原理大概是检测一个简单的算法:
1.检测Verified Purchase的比例
2.文本感情和内容分析,诸如检测常见的机器生成评语的特点和文本情感
3.用户购买行为分析,例如历史购买记录,评论商品记录,有无购买过亚马逊自营产品,是否全部为第三方卖家的五星评价等等
4.第三方刷单平台例如AMZTracker用户亚马逊买家ID数据库,一旦出现此类买家,评论真实度自动扣分
5.待续
anker是深圳的牌子。嗯。
评分什么的都是次要的,重要的是你想以什么价格买什么样的产品。一分价钱一分货,10分价钱3分货到哪都成立(特指国外品牌,不包括出口转内销那种,国货10分价钱1分货差不多)。我买东西一般:1、能用就好,像自己做东西用的电子元件,淘宝凭感觉买。买的多了自然容易分辨哪家靠谱,到目前可以说没有失手过。2、要求好用的,如3g路由器(便宜的可以把你恶心死),选大牌子,亚马逊、京东自营(我有90%把握你买的不是亚马逊自营的)。3、偶尔用用的,各种论坛淘二手进口货(叫洋垃圾也行,你没法否认洋垃圾比“国货精品”要好用还便宜)。这个也是需要经验的。
在国内大环境下这个是无解的,基本只能靠经验。你设计出一种评分方法就会有一种应对方法。