快捷搜索:  as  test  1111  test aNd 8=8  test++aNd+8=8  as++aNd+8=8  as aNd 8=8

和记娱bh88285:Java使用HtmlUnit抓取js渲染页面



需求:

必要采集js衬着的页面,有些网站的页面是js衬着的

实现:

基于HtmlUnit实现:

public static void getAjaxPage() throws Exception{

WebClient webClient = new WebClient();webClient.setJavaScriptEnabled(true);

webClient.setCssEna和记娱bh88285bled(false);webClient.setAjaxController(new NicelyResynchron和记娱bh88285izingAjaxController());

webClient.setTimeout(Integer.MAX_VALUE);webClient.setThrowExceptionOnScriptError(false);

HtmlPage rootPage = webClient.getPage("http:和记娱bh88285//tt.mop.com/read_14304066_1_0.html");

System.out.println(rootPage.asXml());}

maven依附:

dependency>

groupId>net.sourceforge.htmlunitgroupId>artifactId>htmlunit-core-jsartifactId>

version>2.9version>scope>compilescope>

dependency> dependency>

groupId>net.sourceforge.htmlunitgroupId>artifactId>htmlunitartifactId>

version>2.9version>scope>compi和记娱bh88285lescope>

de和记娱bh88285pendency>

阐明:

Nutch插件:nutch-htmlunit用于调换Nutch自身的Http Fetch组件

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

您可能还会对下面的文章感兴趣: