大公司里面有人专门负责标注数据吗? 举报 理由 举报 取消 比如分词类的工具,可能跟领域相关,用该领域的词典和语料来训练CRF效果应该比通用的分词器效果要好很多(特别是一些术语)。这种情况下,工程上的做法是自己找人分词?还是用规则方法结合领域词典来解决?哪个性价比更高? 2017年9月4日 10 条回复 1105 次浏览 中文,分词,学习,数据,机器,自然语言
回复 ( 10 )
可能会有。
还有专门标数据的公司。
不知道别的公司怎样,我的老东家还是很low的…
老东家是国内某领域第二,世界前十,拥有覆盖该领域的全栈产品,已上市,cmmi5,勉强称得上大公司。
当时我就听隔壁算法部的兄弟哭诉说他们太特么惨了,为了做一个特定的图像算法做训练/实验数据集,发动全部门人对几万张图进行人肉打标,眼睛都要瞎了…
量大得靠众包平台吧。。 开发自己也标注,比如标注黄图啥的。。(╬▔ ω▔)
有啊
为啥没有
花钱标数据是机器学习在工业界的终极杀招。
我前公司是在大学里找的勤工俭学的,100一天。
采购数据堂的是好的选择,他们的语料和图片包虽然贵点,但据我所知,现有买单的大客户还都是挺牛的。所以如果自己做成本太高的话不如购买,毕竟人家专门搞了个众包拉一堆兼职的做,这东西没那么大技术含量,把成本挪到五线城市会好很多。
有
无论大公司小公司,临界点都是成本和收益而已。
如果自己做的成本小于外包,那肯定自己做了。
一般来说,公司大了后,会有非常多的与数据标注相关的工作。这个时候,要么找长期的供应商,要么就自己做了
我们公司就是做数据标注的,国内外客户都有,很多客户都是大家很熟悉的。一些大客户会有自己的标注团队,但是人数很少,只是为了内部测试。一旦需要大量标注时,比如几万工时以上,人手就不够了,会交给我们。现在也有很多初创的小公司,本身是做技术的,没有能力组建标注团队,所以也会和我们合作。外包毕竟还是节约成本的。 另外对于想把业务外包的公司,有时候真的不能光看价格,也得看质量。价格报的特别低的,你觉得质量真的有保障么,万分之3和万分之0.5精度的成本肯定不一样。我们有不少国外客户之前都是外包给印度的,但是说实话印度是便宜,但是质量只能呵呵了。