如何检测页面是否为 RSS 或 ATOM 提要

2023-12-13

我目前正在用 PHP 构建一个新的在线 Feed 阅读器。我正在开发的功能之一是提要自动发现。如果用户输入网站 URL，脚本将检测到它不是提要，并通过解析 HTML 来查找正确的提要 URL。<link> tag.

问题是，我目前检测 URL 是否为提要或网站的方式仅在部分时间有效，而且我知道这不是最佳解决方案。现在我正在获取 CURL 响应并运行它simplexml_load_string，如果它无法解析它，我会将其视为一个网站。这是代码。

$xml = @simplexml_load_string( $site_found['content'] );

if( !$xml ) // this is a website, not a feed
{
    // handle website
}
else
{
    // parse feed
}

显然，这并不理想。此外，当它遇到一个可以解析的 HTML 网站时，它会认为它是一个提要。

关于检测 PHP 中 feed 和非 feed 之间差异的好方法有什么建议吗？

我会嗅探这些格式具有的各种唯一标识符：

Atom: Source

<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">

RSS 0.90：Source

<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns="http://my.netscape.com/rdf/simple/0.9/">

网景RSS 0.91

<rss version="0.91">

等等（有关完整概述，请参阅第二个源链接）。

据我所知，通过寻找来分离 Atom 和 RSS 应该很容易<feed> and <rss>标签，分别。另外，您不会在有效的 HTML 文档中找到这些内容。

您可以通过查找来进行初步检查以区分 HTML 和 feed<html> and <body>元素第一。为了避免无效输入的问题，这可能是使用正则表达式（通过解析器）最终合理的情况for once :)

如果它与 HTML 测试不匹配，请对其运行 Atom / RSS 测试。如果它未被识别为提要，或者 XML 解析器因无效输入而阻塞，则再次回退到 HTML。

在实际情况下，饲料供应商是否始终遵守这些规则是一个不同的问题，但您应该已经能够通过这种方式识别出很多东西。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何检测页面是否为 RSS 或 ATOM 提要的相关文章

显示表中的记录

我的第一个 PHP 项目遇到了一些麻烦我试图从 MySQL 数据库有 3 条记录获取数据并将其显示在表格中问题是它似乎只显示记录 2 和 3 它跳过了第 1 条记录请参阅我的代码并在下面显示 if mysqli connect e
如何使用CSS将背景图像放入选择选项标签中

我有一个从 json 响应接收的国家地区下拉列表并且想要在国家地区名称旁边添加相应的国家地区国旗图标也从 json 响应获取图像我已经尝试了不同的 jQuery 和 bootstrap 插件但他们所做的是破坏我以前的选择框样式
自定义 WP 主题时，我应该将导航栏放在“”标签之前还是之后？

我正在通过制作子主题来自定义 WP 主题我将 Bootstrap 中的导航栏放入子主题目录中的 header php 文件中但是我不确定在哪里放置导航栏代码我可以把它都放在前面and之后标记成功例如无论我选择哪一个导航栏都显示
标签

我正在使用某人留下的遗留代码而重新部署代码恰好是我的任务我使用的是 Windows Server 2003 Apache 2 0 63 和 PHP 5 2 10 这不起作用至少不是以我期望的方式工作如果你愿意的话可以称之为错误

PHP 绑定“bigint”数据类型（MySQLi 准备好的语句）

studentId 57004542323382 companyOfferId 7 sql INSERT INTO studentPlacement companyOfferId studentId VALUES if stmt db gt
PHP 开发相当于 Mongrel/Webrick 吗？

PHP 开发中是否有与 Rails 开发期间使用 Mongrel Webrick 等效的方法我通常在端口 3000 上使用 Mongrel 在开发过程中为我的 Rails 应用程序提供服务我从事 PHP 开发已经有几年了据我所知方法
如何将 HTML 转换为 Markdown？

我有一个类似 stackoverflow 的网站有一个文本区域人们可以在其中写答案我用这个 PHP 库 http parsedown org 转换降价我的意思是我使用该函数来转换 italic to i italic i inclu
在字符串中间添加一个字符

可能有一个简单的解决方案可以解决这个问题但会引起面部表情我将时间存储为 4 个字符长的字符串即 1300 我试图将该字符串显示为 13 00 我觉得必须有一个比我现在正在做的更优雅的解决方案我目前有 startTime get fi
负载平衡集群中的 PHP 会话 - 如何？

好的我得到了这个完全罕见的负载平衡 PHP 网站的独特场景令人遗憾的是它过去没有进行负载平衡现在我们开始遇到问题目前唯一的问题是 PHP 会话当然一开始没有人想到这个问题因此 PHP 会话配置保留为默认值因此两台服务器都
使用先前的反向引用作为命名捕获组的名称

有没有办法使用对先前捕获组的反向引用作为捕获组的名称命名捕获组这可能不可能如果不可能那么这就是一个有效的答案下列 data description some description preg match data matches p
限制自己超载外部 API 的速率

我发现了很多信息和脚本示例展示了如何对 API 用户进行速率限制但我无法找到任何示例来说明在施加这些限制时如何对您自己的 API 请求进行速率限制我总是用诸如以下的代码来限制我的脚本sleep or usleep命令但感觉这是一种低
Magento - 检查 cms 页面

我想通过 php 检查页面是否是 Magento 中的 cms page 我需要不同的 cms 页面面包屑所以我尝试在一个条件下做到这一点但我不知道如何或在哪里查看到目前为止这是我的 breadcrumbs phtml p some
WordPress 分页自定义帖子类型

我有一个名为新闻的页面使用页面模板page newslist php 它应该显示来自自定义帖子类型也称为新闻的帖子我意识到两者具有相同的名称会导致问题因此在注册自定义帖子类型时我进行了重写以将其与页面区分开来 rewrite
使用 XSLT 将 XML 转换为 SQL

由于我无法控制的原因我将获得一个 XML 文件和一个 XSLT 文件该文件可以将 XML 文件转换为 SQL 代码或错误现在让我们假设我们可以信任提供 XML 文件的人不会在 XML 中包含危险的构造我什至不知道是否应该使用 Sim
Apache、PHP 和 MySQL 可移植吗？

我可以在外部硬盘上运行 Apache PHP 和 MySQL 吗我需要这个因为我在不同的地方工作计算机有时我没有安装和配置所有使用的应用程序当然可以 XAMPP http www apachefriends org en xamp
Sonata DateTimePickerType 类默认日期显示错误的日期时间格式

我陷入困境我不知道如何使用 sonata DateTimePickerType 类正确设置默认日期和时间我尝试了不同的方法但到目前为止没有一种方法没有帮助在下面的截图中 help 键显示正确的日期和时间但是当我使用 dp 默认日
如何在 Zend Framework 3 中注册自定义表单视图助手

我正在将继承的 Zend Framework 2 应用程序迁移到 Zend Framework 3 并且在注册自定义表单视图助手时遇到了一些困难这些助手在应用程序使用版本 2 时起作用主要用于添加标签属性以实现可访问性例如这是一个自
如何从父类中获取子类名

我试图在不需要子类上的函数的情况下完成此任务这可能吗我有一种感觉但我真的很想确定
php 数组中出现意外的 json 输出结构

我正在尝试转换动态数据如何从 PHP 获取此 JSON JSON 122240cb 253c 4046 adcd ae81266709a6 item 0 3 这就是我所做的但它不起作用 PHP json array 122240cb 2
一种无需 JavaScript 即可在 PHP 中确定浏览器宽度的方法？

首先有吗或者我必须使用javascript 我希望能够更改使用的 CSS 因此 frex 我可以为移动设备或其他设备加载较小的字体不幸的是仅使用 PHP 无法检测用户分辨率如果您使用 Javascript 则可以在 cookie 中

随机推荐

当我的应用程序被删除时呼叫状态更改网络服务

在我的应用程序中我使用网络服务当用户登录到我的应用程序时我的应用程序发送状态为 1 的请求意味着已登录当单击注销按钮时单击发送状态为 0 的请求现在的问题是当用户从设备中删除应用程序时我的服务器中的状态保持为 1 登录因此
我创建了一个自定义 powershell .psm1 模块，但编辑后它不会更新

我在中创建了一个自定义的powershell模块 C Program Files WindowsPowerShell Modules PennoniAppManagement目录每当我对模块中的函数进行更改然后将模块导入到脚本中时更新
AllowHtml 不适用于 ASP.Net Mvc 3 站点

我们尝试在 ViewModel 属性之一上使用 AllowHtml 装饰以便避免 YSOD 从以下位置检测到潜在危险的 Request Form 值客户端请求文本 br 当我们尝试提交 html 文本时例如 br 然后我们希望在控制
PushBots 应用程序崩溃

我正在制作一个 Android 应用程序它使用 PushBots 来使用推送通知服务我想要做的是当我收到推送通知时我想将消息保存在 TextView 中以便我可以拥有所有收到消息的历史记录我做了 PushBots 网站上写的所有
如何使用 Orion 在传出通知中添加自定义标头？

我阅读了自定义通知部分NGSv2 规范我仍然对如何进行这项工作存有疑问我是否必须将以下代码作为有效负载放入订阅 POST 中 httpCustom url http foo com entity id headers Content
如何从文件中删除与正则表达式不匹配的行？

我有一个大文件如下所示 7f0c41d6 f9c6 47aa a034 d40bc629c973 csv 159890 159891 24faaed6 62ee 4175 8430 5d73b09911c8 csv 159907 5bad
如何在后台启动 PhantomJS + Selenium 窗口？

我在我的应用程序中使用 selenium phantomjs 但我想在后台启动我的应用程序 selenium 和 phantomjs 窗口我该怎么做 I tried PhantomJSOptions options new Phantom
从 S3 传输到 Google 存储 - 密钥不正确

过去几个小时我一直在尝试设置从 S3 到我的谷歌存储桶的传输创建传输时我不断收到的错误是访问密钥无效请确保 S3 存储桶的访问密钥正确或将存储桶权限设置为授予所有人访问密钥和秘密都是正确的因为它们当前在生产中用于 S3 完全访
一组中的 d3 矩形干扰另一组中的矩形

我有一个小组叫groove它有两个矩形这些与数据无关我也有一个群叫group其中有许多与数据绑定的矩形在第二组中称为group只有三个数据点但只显示两个为什么第一个没有被渲染我以前见过这个但不记得如何解决 var margin
JavaScript 绑定问题

这是让我感到困惑的代码片段 var timer start function var self this Why the code below doesn t write to this window setInterval self ti
模板类的 CUDA 链接器错误

在 ubuntu 上使用 CUDA 5 0 和 gcc g 4 6 在使用模板链接 CUDA 代码时遇到错误 cu array cu include cu array hpp template
C# - 如何将图像转换为 8 位彩色图像？

我需要将从文件加载的 PNG 图像转换为另一个设备使用的每像素 8 位字节数组嵌入式编程我正在逐像素复制到使用 16 位颜色创建的新图像中 Format16bppRgb565 但是我需要Format8bpp NET Framework
Java 中的修剪字符

如何在 Java 中修剪字符 e g String j joe jill Trim new char j应该乔吉尔 String j jack joe jill Trim jack j应该乔吉尔 etc 阿帕奇共享区有一个伟大的St
UISearchDisplayController隐藏导航栏

我看到一个奇怪的情况我在导航栏中放置了一个搜索栏并将 UISearchDisplayController 与搜索栏链接起来现在当用户单击搜索栏时搜索显示控制器倾向于隐藏导航栏因此也隐藏搜索栏为了解决这个问题我对 UISear
CDI Eager Application 作用域 bean

Since ManagedBean eager true 将被弃用您如何创建eager 应用程序范围的 cdi bean 通过使用 CDI 扩展框架解决了这个问题创建预选赛 Qualifier Target value ElementT
将两个数据库表合二为一？

在将关系数据库建模为库存管理系统时我遇到了一些麻烦目前它只有 3 个简单的表 Product ID Name Price 收入 ID Date Quantity Product ID FK Sales ID Date Quantity
如何将 Joda-Time DateTimeFormat.forStyle() 转换为 JSR 310 Java 时间？

我正在将 Grails Joda Time 插件转换为JavaTime 我有旧的乔达时间代码如下所示 def style switch type case LocalTime style S break case LocalDate st
Java：递归查找列表中的最小元素

我会先说这是家庭作业我只是在寻找一些指示我一直在为这个问题绞尽脑汁但我一生都没有明白我们被要求找到列表中的最小元素我知道我在这里需要一个子列表但之后我不确定任何指示都会很棒谢谢 Find the minimum elemen
Metal RGB 到 YUV 转换计算着色器

我正在尝试编写一个 Metal 计算着色器来从 RGB 转换为 YUV 但遇到构建错误 typedef struct float3x3 matrix float3 offset ColorConversion Compute kernel
如何检测页面是否为 RSS 或 ATOM 提要

我目前正在用 PHP 构建一个新的在线 Feed 阅读器我正在开发的功能之一是提要自动发现如果用户输入网站 URL 脚本将检测到它不是提要并通过解析 HTML 来查找正确的提要 URL tag 问题是我目前检测 URL 是否为提要或

如何检测页面是否为 RSS 或 ATOM 提要

如何检测页面是否为 RSS 或 ATOM 提要 的相关文章

随机推荐

热门标签

如何检测页面是否为 RSS 或 ATOM 提要的相关文章