我正在使用 PHP 简单 HTML DOM 解析器http://simplehtmldom.sourceforge.net/
从其他域获取页面标题、元描述和元标签等数据,然后将其插入数据库。
但我在编码方面遇到了一些问题。问题是我没有从那些非英语网站获得正确的字符。
下面是代码:
<?php
require 'init.php';
$curl = new curl();
$html = new simple_html_dom();
$page = $_GET['page'];
$curl_output = $curl->getPage($page);
$html->load($curl_output['content']);
$meta_title = $html->find('title', 0)->innertext;
print $meta_title . "<hr />";
// print $html->plaintext . "<hr />";
?>
输出为facebook.com
page
Welcome to Facebook — Log in, sign up or learn more
输出为amazon.cn
page
亚马逊-网上è´ç‰©å•†åŸŽï¼šè¦ç½‘è´, å°±æ¥Z.cn!
输出为mail.ru
page
Mail.Ru: почта, поиÑк в интернете, новоÑти, игры, развлечениÑ
因此,字符没有被正确编码。
任何人都可以帮助我如何解决这个问题,以便我可以将正确的数据添加到我的数据库中。