我正在尝试使用 Jsoup 解析网站中的字符串,并编写以下测试来验证解析
这是我的测试:
@Test
public void extractBookData() throws Exception {
String bookLink = ""; //some address
Document doc = Jsoup.connect(bookLink).get().html();
Book book = new Book();
assertEquals("Literatür Yayıncılık", book.getPublisher(doc));
}
This is getPublisher(Element)
method:
public String getPublisher(Element element){
String tableRowSelector = "tr:contains(Yayınevi)";
String tableColumnSelector = "td";
String tableRowData = "";
element = element.select(tableRowSelector).last();
if (element != null) {
element = element.select(tableColumnSelector).last();
if (element != null) {
tableRowData = element.text().replaceAll(tableRow.getRowName() + " ?:", "").replaceAll(tableRow.getRowName() + " :?", "").replaceAll(" ?: ?", "").trim();
}
}
return tableRowData;
}
问题是,即使 JUnit 另有说明,实际的字符串和预期的字符串却是相同的。
我愿意接受您的建议。
我以前也遇到过同样的问题,这是一个不间断的空格(字符160),它位于您的文本中,而不是空格(字符32)。在我的例子中,文本来自 html 文本输入值,你的看起来也来自 html。
我使用的解决方案是将所有不间断空格字符替换为空格。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)