发起人:元白白 初入职场

sdu----xjtu 数据挖掘界相声演员

回复 ( 3 )

  1. 大魔头-诺铁
    理由
    举报 取消

    使用spark RDD的假设是行与行之间没有关系,而xml标签是有开闭关系的,所以没法达成你要的效果。 除非你先处理一遍文件,把一个文件变成一行,然后你有大量的xml文件,每个文件一行,那么就可以处理了。

    但是我的疑问和 @liushiqi9 一样,你的xml文件有多少啊。。。

  2. 张宽
    理由
    举报 取消

    Scala XML字面量应该足够用了吧

  3. liushiqi9
    理由
    举报 取消

    xml文件有多少啊 还要用spark来分析…

    如果真要的话用map不就可以了

    如 @大魔头-诺铁所说

    rdd.map{file=>

    def attributeExtract(file){******}

    attributeExtract(file)

    }

我来回答

Captcha 点击图片更换验证码