eclipse 怎么将hadoop与原本开发的项目结合起来

2024-05-06 19:03

1. eclipse 怎么将hadoop与原本开发的项目结合起来

hadoop是面向大数据处理的解决方案;要想结合,就得充分发挥hadoop的优势;一般来讲从两个角度开始思考:一是数据的分布式存储,二是结合分布式数据进行分布式处理;如此来看,你的在线监测项目一定具备两个特征才值得结合hadoop,否则就没有任何意义; 这两个特征就是:1)要处理的数据量很庞大,至少总量在TB级别,或者流量在每秒几十兆以上; 2)要对各种非结构化数据或半结构化数据进行处理,而且处理的数据来源数异构系统;如果这两个特征都具备或者具备其一,亦或是将来会具备;那么就值得结合hadoop;要结合需要解决以下几个问题:
首先:要确定你要使用Hadoop的哪个部分,或者是全部?
通常说到hadoop,一般是指用到其中的几个核心部分:HDFS分布式文件系统、MapReduce计算框架、HBase列数据库;或者Hive做数据的ETL处理;那么你的监测项目要使用哪个部分呢?既然是在线监测,那么可以猜测,最有可能使用的有HDFS+HBASE用于分布式存储监测历史数据;也可以利用MapReduce实现对在线采集数据进行综合统计分析处理;Hive则可以将监测历史数据进行批量的信息或趋势挖掘;
其次:选定了具体的功能部件后,要规划你的存储方案,或者是计算处理方案;
再次:才是具体考虑怎么利用Hadoop的API进行编程实现你的设计;

eclipse 怎么将hadoop与原本开发的项目结合起来

最新文章
热门文章
推荐阅读