大公司里面有人专门负责标注数据吗?

理由
举报 取消

比如分词类的工具,可能跟领域相关,用该领域的词典和语料来训练CRF效果应该比通用的分词器效果要好很多(特别是一些术语)。这种情况下,工程上的做法是自己找人分词?还是用规则方法结合领域词典来解决?哪个性价比更高?

2017年9月4日 10 条回复 1105 次浏览

发起人:伏牛 初入职场

回复 ( 10 )

  1. 王赟 Maigo
    理由
    举报 取消

    可能会有。

    还有专门标数据的公司。

  2. 昆吾
    理由
    举报 取消

    不知道别的公司怎样,我的老东家还是很low的…

    老东家是国内某领域第二,世界前十,拥有覆盖该领域的全栈产品,已上市,cmmi5,勉强称得上大公司。

    当时我就听隔壁算法部的兄弟哭诉说他们太特么惨了,为了做一个特定的图像算法做训练/实验数据集,发动全部门人对几万张图进行人肉打标,眼睛都要瞎了…

  3. 林某
    理由
    举报 取消

    量大得靠众包平台吧。。 开发自己也标注,比如标注黄图啥的。。(╬▔ ω▔)

  4. 桂能
    理由
    举报 取消

    有啊

    为啥没有

  5. 张馨宇
    理由
    举报 取消

    花钱标数据是机器学习在工业界的终极杀招。

  6. 十全十美
    理由
    举报 取消

    我前公司是在大学里找的勤工俭学的,100一天。

  7. 陈鲸云
    理由
    举报 取消

    采购数据堂的是好的选择,他们的语料和图片包虽然贵点,但据我所知,现有买单的大客户还都是挺牛的。所以如果自己做成本太高的话不如购买,毕竟人家专门搞了个众包拉一堆兼职的做,这东西没那么大技术含量,把成本挪到五线城市会好很多。

  8. 杨金钼
    理由
    举报 取消

    无论大公司小公司,临界点都是成本和收益而已。

    如果自己做的成本小于外包,那肯定自己做了。

    一般来说,公司大了后,会有非常多的与数据标注相关的工作。这个时候,要么找长期的供应商,要么就自己做了

  9. paolo
    理由
    举报 取消

    我们公司就是做数据标注的,国内外客户都有,很多客户都是大家很熟悉的。一些大客户会有自己的标注团队,但是人数很少,只是为了内部测试。一旦需要大量标注时,比如几万工时以上,人手就不够了,会交给我们。现在也有很多初创的小公司,本身是做技术的,没有能力组建标注团队,所以也会和我们合作。外包毕竟还是节约成本的。 另外对于想把业务外包的公司,有时候真的不能光看价格,也得看质量。价格报的特别低的,你觉得质量真的有保障么,万分之3和万分之0.5精度的成本肯定不一样。我们有不少国外客户之前都是外包给印度的,但是说实话印度是便宜,但是质量只能呵呵了。

我来回答

Captcha 点击图片更换验证码