帐户注册

用户名*

邮箱*

密码*

确认密码*

头像

浏览

验证码* 点击图片更换验证码

登录

找回密码

忘记密码了？输入你的注册邮箱，并点击重置，稍后，你将会收到一封密码重置邮件。

spark是否可以像处理txt文件一样处理xml文件？

举报

理由

举报取消

2017年8月2日 3 条回复 1368 次浏览

Hadoop,Scala,Spark,数据,编程

用户头像

发起人：元白白 初入职场

sdu----xjtu 数据挖掘界相声演员

回复 ( 3 )

大魔头-诺铁初入职场
0
举报回复
理由

举报取消

使用spark RDD的假设是行与行之间没有关系，而xml标签是有开闭关系的，所以没法达成你要的效果。除非你先处理一遍文件，把一个文件变成一行，然后你有大量的xml文件，每个文件一行，那么就可以处理了。

但是我的疑问和 @liushiqi9 一样，你的xml文件有多少啊。。。
张宽初入职场
0
举报回复
理由

举报取消

Scala XML字面量应该足够用了吧
liushiqi9 初入职场
0
举报回复
理由

举报取消

xml文件有多少啊还要用spark来分析…

如果真要的话用map不就可以了

如 @大魔头-诺铁所说

rdd.map{file=>

def attributeExtract(file){******}

attributeExtract(file)

}

我来回答