# nutch_elasticsearch **Repository Path**: mhtk000/nutch_elasticsearch ## Basic Information - **Project Name**: nutch_elasticsearch - **Description**: nutch和elasticsearch,结合aws服务,将对知乎进行爬取,并提供搜索,分析等服务 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2016-01-18 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 本项目主要是使用nutch对知乎进行分布式爬取,同时使用elasticsearch作为搜索引擎,实现了类似于百度搜索的功能。 1.在本项目中用到了nutch来做分布式爬虫的相关工作,搭建的环境为nutch2.2.1+hadoop1.2.1+mysql+elasticsearch1.5.2 2.使用selenium来解决模拟登录问题 3.将mysql搭建在aws的RDS之上 4.使用aws的elasticsearch+EBS来完成搜索引擎部分的功能搭建 5.搜索WEB工程部署在另一个亚马逊账号上,地址为http://115.28.102.25:8080/nutch_es-web/,可能需要翻墙 6.nutch和hadoop主要是运行在三台 t2.micro ec2 7.详细配置请见Wiki