Spark SQL大数据处理并写入Elasticsearch

2018-10-17 14:19

万码学堂

SparkSQL(Spark用于处理结构化数据的模块)

通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等，通过load这些数据可以对其做一系列计算

下面通过程序代码来详细查看SparkSQL导入数据并写入到ES中：

将mysql-connector-java-8.0.11和elasticsearch-spark-20_2.11-6.4.1.jar放到Spark的jars目录下，提交spark任务即可。

注意:

(1) 如果提示：ClassNotFoundException Failed to find data source: org.elasticsearch.spark.sql.，则表示spark没有发现jar包，此时需重新编译pyspark：

cd /opt/spark-2.3.2-bin-hadoop2.7/python  python3 setup.py sdist  pip install dist/*.tar.gz

(2) 如果提示：Multiple ES-Hadoop versions detected in the classpath; please use only one ，

　　则表示ES-Hadoop jar包有多余的,可能既有elasticsearch-hadoop，又有elasticsearch-spark，此时删除多余的jar包，重新编译pyspark 即可

执行效果：

更多源码请关注我的github， https://github.com/a342058040/Spark-for-Python ，Spark相关技术全程用python实现，持续更新https://www.cnblogs.com/FG123/p/9748836.html

关键字：

可能你正在寻找一家靠谱的IT培训机构，渴望突破职业瓶颈，找一份得体的工作。恰巧万码学堂正在寻找像你这样不甘平凡的追光者！我们拒绝纸上谈兵，直接参与真实开发流程！
现在行动，未来可期‌
立即拨打0532-85025005，预约免费职业规划咨询前20名咨询者赠送《2025高薪技术岗位白皮书》!
你不是在报名课程，而是在投资五年后的自己！

申请免费试听课程

50000+

5万行代码练就真实本领

17年

创办于2008年老牌培训机构

1000+

合作企业

98%

就业率

联系我们

电话咨询

0532-85025005

万码学堂2025年课程全面升级

Spark SQL大数据处理并写入Elasticsearch

青岛软件培训

联系我们

电话咨询

扫码添加微信