下载美国之音英语网站的相关内容,脚本如下
要用到Nokogiri库。此库相关使用介绍
# !/usr/bin/ruby 需要“open-uri” 需要“nokogiri” www=' http://www.51voa.com ' pagelist=[] 医生=Nokogiri: HTML(打开(www +/Learn_A_Word_1.html)) 医生。css (“div # pagelist”)。每一个{x | | pagelist & lt; & lt;x (“href”)} def get_child_page(地址) 列表=[] 医生=Nokogiri: HTML(打开(地址)) 医生。css (“div#列表”)。每个{| x列表| & lt; & lt;x (“href”)} 列表 结束 def下载(mp3、文件) 文件。打开(文件+“mp3”,“世界银行”)f {| | f.write(打开(mp3) .read)} 结束 def writefile (txt文件) aFile=文件。新(文件+ " . txt”,“w”) aFile。将三种 aFile.close 结束 pagelist。每个做| |地址 三、mp3、name="=get_child_page列表(www + " +地址) 列表。每个做| | 医生=Nokogiri: HTML(打开(www +结果)) txt=doc.css (“div#内容”)。txt文本#文件 name=doc.css .text.strip (“div#标题”)。gsub (' ', ' _ ') # name=doc.css (div#标题).text.encode (“GBK”)如果想保存中文名,就用字符串#编码方法 开始 mp3=doc。css (div #菜单条)[0](“href”) # mp3 下载(mp3,名称) writefile (txt,名称) 救援 结束 结束 结束