中国青基会

查看完整版本: 站内搜索引擎Nutch配置全过程(ubuntu)

hew 2007-8-30 10:08

站内搜索引擎Nutch配置全过程(ubuntu)

[b][size=10.5pt][size=2]下载:[/size][/size][/b]
[size=2]可以去Apache的官方网页[/size][url=http://www.apache.org/dyn/closer.cgi/lucene/nutch/][size=2][color=#800080]http://www.apache.org/dyn/closer.cgi/lucene/nutch/[/color][/size][/url][size=2] 下载最新版的Nutch,目前最新版是nutch-0.9,65M大小。[/size]
解压缩进入bin/就能用
[b][size=2][color=#000000][b][size=10.5pt]安装辅助软件(运行环境):[/size][/b][/color][/size][/b]
[size=2]Nutch是用java写的一个开源项目,所以要使它正常运行必须安装JDK(也为了能修改nutch),Java 1.4.x以上版本,设置环境变量NUTCH_JAVA_HOME为java虚拟机的安装目录。[/size]
[size=2]此外,还必须安装Apache's Tomcat 4.x 以上版本。[/size]
[size=2]最后,想得到较好的运行效果,必须有至少1G的剩余空间和一个网速较快的网络。
[/size][b][b][size=2][color=#000000][b]抓取前的准备工作[/b][/color][/size][/b]
[/b]
[b][size=2]    [/size][b][size=10.5pt][size=2][color=#000000]输入需要抓取的网站地址[/color][/size][/size][/b][/b]
[size=2]在Nutch的安装目录中建立一个名为myurl的文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页。[/size]
[size=2]以我要抓取的网页为例,输入:[/size]
[url=http://www.bupt.edu.cn/][size=2][color=#0000ff]http://www.sdau.edu.cn/[/color][/size][/url]
[size=2]注意:最后一个“/”和conf/crawl-urlfilter.txt中的内容统一。[/size]
[b][b][size=2]   [size=10.5pt]更改配置文件 [/size]crawl-urlfilter.txt[/size][/b][/b]
[size=2]编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分,把它替换为你想要抓取的域名(地址),即把[/size]
[size=2]# accept hosts in MY.DOMAIN.NAME[/size]
[size=2]+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/[/size]
[size=2]修改为:[/size]
[size=2]# accept hosts in MY.DOMAIN.NAME[/size]
[size=2]+^http://([a-z0-9]*\.)*sdau.edu.cn /[/size]
[b][b][size=2][size=10.5pt][b]运行 [/b][/size]crawl[b]命令抓取网站内容[/b][/size][/b][/b]
[b][size=2]     [/size][b][size=10.5pt][size=2][color=#000000]运行的命令[/color][/size][/size][/b][/b]
[size=2]
[/size]
[size=10pt]·[/size][size=2]-dir  [i]dir[/i]names      设置保存所抓取网页的目录. [/size]
[size=10pt]·[/size][size=2]-depth  [i]depth[/i]
表明抓取网页的层次深度[/size]
[size=10pt]·[/size][size=2]-delay  [i]delay[/i]
表明访问不同主机的延时,单位为“秒”[/size]
[size=10pt]·[/size][size=2]-threads  [i]threads[/i]      表明需要启动的线程数[/size]
[b][size=2]    [/size][b][size=10.5pt][size=2][color=#000000]实际使用[/color][/size][/size][/b][/b]
[size=2]改变当前工作区为nutch安装目录,运行以下命令行:[/size]
[size=2]           bin/nutch crawl myurl -dir mydir -depth 2 -threads 4 >&logs/logs1.log[/size]
[size=2]
在上述命令的参数中,myurl 就是刚才我们创建的那个文件,存放我们要抓取的网址,dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度, threads指定并发的线程数。最后的logs/logs1.log表示把显示的内容保存在文件logs1.log中,以便分析程序的运行情况。[/size]
[size=2]
[/size]
[b][size=2]    [/size][b][size=10.5pt][size=2][color=#000000]
[/color][/size][/size][/b][/b]
[b][size=2]   [/size][b][size=10.5pt][size=2][color=#000000]可能发生的错误:[/color][/size][/size][/b][/b]
[size=2][b]1.[/b] 如果mydir在运行前已存在,则运行时将报错:mydir already exist。建议先删除这个目录,或者指定其他的目录存放抓取的网页。
[/size][size=2][b]       修改 conf/nutch-site.xml[/b]
[/size][size=2]<configuration>
        <property>
                <name>http.agent.name</name>
                <value>HD nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration> [/size]
[size=2]
如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。[/size]

[b][b][size=2]四.[b]在[b]Tomcat[b]中运行查看结果(在[b]Windows[b]下部署成功,但是在[b]LInux[b]下总是出错)[/b][/b][/b][/b][/b][/b][/b][/size][/b][/b]
[size=2]如果已经抓取成功,则可以在Tomcat上部署了
复制nutch.0.9.war到tomcat目录/webapps
[/size]
[size=2][color=blue]修改[/color][color=blue]/webapps/nutch/WEB-INF/classes/nutch-site.xml :[/color][/size]
[color=blue][size=2]将[/size][/color]
[color=blue][size=2]<nutch-conf>[/size][/color]
[color=blue][size=2]</nutch-conf>[/size][/color]
[color=blue][size=2]换成[/size][/color]
[color=blue][size=2]<nutch-conf>[/size][/color]
[color=blue][size=2]<property>[/size][/color]
[color=blue][size=2]        <name>searcher.dir</name>[/size][/color]
[color=blue][size=2]        <value>Your_crawl_dir_path</value>[/size][/color]
[color=blue][size=2]</property>[/size][/color]
[color=blue][size=2]</nutch-conf>[/size][/color]
[size=2][color=blue]Your_crawl_dir_path[/color][color=blue]指刚才抓取网页时网页保存的文件夹,比如我的就是:/usr/locla/mutch-0.9/bin/mydir
[/color][/size][size=2]最后在浏览器中输入 http://localhost:8080 /[/size][size=2][color=blue]mutch-0.9
输入:机构设置
[/color][/size]

第[b]1-6[/b]项 (共有 31 项查询结果):

[b][url=http://www.sdau.edu.cn/sdau2005/department.html][color=#0000ff]山东农业大学[/color][/url][/b]
... 学       学校概况 机构设置 招生就业 人 ... 河农场     学院设 ...
[url=http://www.sdau.edu.cn/sdau2005/department.html]http://www.sdau.edu.cn/sdau2005/department.html[/url] ([url=http://localhost:8080/nutch-0.9/cached.jsp?idx=0&id=173][color=#0000ff]网页快照[/color][/url]) ([url=http://localhost:8080/nutch-0.9/explain.jsp?idx=0&id=173&query=%E6%9C%BA%E6%9E%84%E8%AE%BE%E7%BD%AE&lang=][color=#0000ff]评分详解[/color][/url]) ([url=http://localhost:8080/nutch-0.9/anchors.jsp?idx=0&id=173][color=#0000ff]anchors[/color][/url]) ([url=http://localhost:8080/nutch-0.9/search.jsp?query=site%3A[url=http://www.sdau.edu.cn]www.sdau.edu.cn[/url]+%E6%9C%BA%E6%9E%84%E8%AE%BE%E7%BD%AE&hitsPerPage=10&hitsPerSite=0&lang=&clustering=][color=#0000ff]more from [url=http://www.sdau.edu.cn]www.sdau.edu.cn[/url][/color][/url])

[b][url=http://www.sdau.edu.cn/sdau2005/gk3.html][color=#0000ff]山东农业大学[/color][/url][/b]
... 学       学校概况 机构设置 招生就业 人 ... 介   校史沿革   机构 ...
[url=http://www.sdau.edu.cn/sdau2005/gk3.html]http://www.sdau.edu.cn/sdau2005/gk3.html[/url] ([url=http://localhost:8080/nutch-0.9/cached.jsp?idx=0&id=177][color=#0000ff]网页快照[/color][/url]) ([url=http://localhost:8080/nutch-0.9/explain.jsp?idx=0&id=177&query=%E6%9C%BA%E6%9E%84%E8%AE%BE%E7%BD%AE&lang=][color=#0000ff]评分详解[/color][/url]) ([url=http://localhost:8080/nutch-0.9/anchors.jsp?idx=0&id=177][color=#0000ff]anchors[/color][/url]) ([url=http://localhost:8080/nutch-0.9/search.jsp?query=site%3A[url=http://www.sdau.edu.cn]www.sdau.edu.cn[/url]+%E6%9C%BA%E6%9E%84%E8%AE%BE%E7%BD%AE&hitsPerPage=10&hitsPerSite=0&lang=&clustering=][color=#0000ff]more from [url=http://www.sdau.edu.cn]www.sdau.edu.cn[/url][/color][/url])

[b][url=http://weekly.sdau.edu.cn/html2006/2006/xbzl/2007_13_29_6940.htm][color=#0000ff]山东农业大学学科建设研讨会发言摘要(五)[/color][/url][/b]
... 与学位点建设的经验与建 ... 学院学科建设的主要经验 ...
[url=http://weekly.sdau.edu.cn/html2006/2006/xbzl/2007_13_29_6940.htm]http://weekly.sdau.edu.cn/html2006/2006/xbzl/2007_13_29_6940.htm[/url] ([url=http://localhost:8080/nutch-0.9/cached.jsp?idx=0&id=77][color=#0000ff]网页快照[/color][/url]) ([url=http://localhost:8080/nutch-0.9/explain.jsp?idx=0&id=77&query=%E6%9C%BA%E6%9E%84%E8%AE%BE%E7%BD%AE&lang=][color=#0000ff]评分详解[/color][/url]) ([url=http://localhost:8080/nutch-0.9/anchors.jsp?idx=0&id=77][color=#0000ff]anchors[/color][/url]) ([url=http://localhost:8080/nutch-0.9/search.jsp?query=site%3Aweekly.sdau.edu.cn+%E6%9C%BA%E6%9E%84%E8%AE%BE%E7%BD%AE&hitsPerPage=10&hitsPerSite=0&lang=&clustering=][color=#0000ff]more from weekly.sdau.edu.cn[/color][/url])

[b][url=http://jpkc.sdau.edu.cn/2004-5-12.html][color=#0000ff]山东农业大学精品课程建设[/color][/url][/b]
... 的申报受理机构,接受各省、教 ... 精品课程建设 ...
[url=http://jpkc.sdau.edu.cn/2004-5-12.html]http://jpkc.sdau.edu.cn/2004-5-12.html[/url] ([url=http://localhost:8080/nutch-0.9/cached.jsp?idx=0&id=4][color=#0000ff]网页快照[/color][/url]) ([url=http://localhost:8080/nutch-0.9/explain.jsp?idx=0&id=4&query=%E6%9C%BA%E6%9E%84%E8%AE%BE%E7%BD%AE&lang=][color=#0000ff]评分详解[/color][/url]) ([url=http://localhost:8080/nutch-0.9/anchors.jsp?idx=0&id=4][color=#0000ff]anchors[/color][/url])

[b][url=http://weekly.sdau.edu.cn/html2006/2006/xxyw/index.htm][color=#0000ff]电子版文章列表――山东农大报欢迎您[/color][/url][/b]
... 年7月5日 机关党委被评 ... 加强学风建设和当前工作 ...
[url=http://weekly.sdau.edu.cn/html2006/2006/xxyw/index.htm]http://weekly.sdau.edu.cn/html2006/2006/xxyw/index.htm[/url] ([url=http://localhost:8080/nutch-0.9/cached.jsp?idx=0&id=94][color=#0000ff]网页快照[/color][/url]) ([url=http://localhost:8080/nutch-0.9/explain.jsp?idx=0&id=94&query=%E6%9C%BA%E6%9E%84%E8%AE%BE%E7%BD%AE&lang=][color=#0000ff]评分详解[/color][/url]) ([url=http://localhost:8080/nutch-0.9/anchors.jsp?idx=0&id=94][color=#0000ff]anchors[/color][/url]) ([url=http://localhost:8080/nutch-0.9/search.jsp?query=site%3Aweekly.sdau.edu.cn+%E6%9C%BA%E6%9E%84%E8%AE%BE%E7%BD%AE&hitsPerPage=10&hitsPerSite=0&lang=&clustering=][color=#0000ff]more from weekly.sdau.edu.cn[/color][/url])


此时tomcat可能出现乱码,请见我的博客zhongzhouxian.cublog.cn解决toncat乱码

[url=http://blog.chinaunix.net/u1/42899/showart_370504.html]http://blog.chinaunix.net/u1/42899/showart_370504.html[/url]

xiaohan 2009-7-3 11:33

不错,路过 支持。。。。















[img]http://www.seojiage.com/123/sigline.gif[/img]
[url=http://www.110122.com]搬场公司[/url]||[url=http://www.bigthumb-locks.com]密码锁[/url]|[url=http://www.nb-xinlong.com]同步带[/url]|[url=http://www.jiaxiao100.com]上海驾校
[/url]
页: [1]
查看完整版本: 站内搜索引擎Nutch配置全过程(ubuntu)
Baidu