Google App Engine ( Java )：URL 提取响应太大问题

2024-01-05

我正在尝试在谷歌应用程序上构建某种网络服务。

现在的问题是，我需要从网站获取数据（HTML 抓取）。

该请求如下所示：

URL url = new URL(p_url);
con = (HttpURLConnection) url.openConnection();
InputStreamReader in = new InputStreamReader(con.getInputStream());
BufferedReader reader = new BufferedReader(in);

        String result = "";
        String line = "";
        while((line = reader.readLine()) != null)
        {
            System.out.println(line);
        }
        return result;

现在 App Engine 在第 3 行给出了以下异常：

com.google.appengine.api.urlfetch.ResponseTooLargeException

这是因为最大请求限制为 1mb，而页面的总 HTML 约为 1.5mb。

现在我的问题是：我只需要抓取 html 的前 20 行。有没有办法只获取 HTML 的一部分，这样就不会抛出 ResponseTooLargeException ？

提前致谢！

通过使用低级 URLFetch api 解决了该问题。

并将allowtruncate选项设置为true；

http://code.google.com/intl/nl-NL/appengine/docs/java/javadoc/com/google/appengine/api/urlfetch/FetchOptions.html http://code.google.com/intl/nl-NL/appengine/docs/java/javadoc/com/google/appengine/api/urlfetch/FetchOptions.html

基本上它的工作原理是这样的：

HTTPRequest request = new HTTPRequest(_url, HTTPMethod.POST, Builder.allowTruncate());
URLFetchService service = URLFetchServiceFactory.getURLFetchService();
HTTPResponse response = service.fetch(request);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

googleappengine

HttpURLConnection

urlfetch

Google App Engine ( Java )：URL 提取响应太大问题的相关文章

AbstractCollection 的 toArray 方法的实现中的代码有什么用

public Object toArray Estimate size of array be prepared to see more or fewer elements Object r new Object size Iterator
检索和设置 IntelliJ IDEA 插件开发的拆分窗口设置

我正在编写一个 IntelliJ IDEA 插件用于保存打开选项卡的会话称为选项卡会话 https github com alp82 idea tabsession 这个问题是后续问题IntelliJ IDEA 插件开发保存选项卡组
寻找 WebElements，最佳实践

在我们当前的自动化使用 Selenium WebDriver Java 中我们使用 FindBy very广泛地例如 FindBy css a name bcrumb protected List
将位于 jar 中的文件读取为 java.io.File 对象

与此类似的问题已发布但似乎没有一个答案对我的情况有帮助我正在编写一个程序包它使用 Google 的凭据来获取 Google Apps 用户为此我使用服务帐户因此为了检索凭据我需要提供除其他外一个 p12 签名文件 Cred
splitByWholeSeparatorPreserveAllTokens 和 split 之间的区别

有什么区别StringUtils splitByWholeSeparatorPreserveAllTokens and String split With splitByWholeSeparatorPreserveAllTokens 我们可
如何使用java避免Mysql数据库中的“数据因列被截断”？

在我的 Java 程序中 Hibernate Bean 类定义一列例如 TimtableVO java Column name REPEAT DAYS private WeekdayType repeatDays hear Weekday
Log4j 未使用属性文件找到自定义附加程序

我正在尝试使用以下 XML 属性文件在 Eclipse 插件项目中配置 log4j 其中包括一个名为 EclipseLoggingAppender 的自定义附加程序
java中main的返回类型

我想知道为什么java中main方法只有void返回类型 public static void main String args 为什么main方法除了void之外没有其他返回类型 Thanks 简短的回答是因为这就是语言规范 http
Ubuntu 的打包 - Web 应用程序

Web 应用程序没有与 C 或类似文件不同的 make 文件但是它需要放置在特定的目录中例如 var www 我是 Linux 打包新手所以我的问题是如何将我的应用程序打包到 deb 中以便在安装时将其放入 etc myprog
捕获 XSS（跨站脚本）攻击的最佳正则表达式（Java 中）？

杰夫实际上在净化 HTML http refactormycode com codes 333 sanitize html 但他的示例是用 C 编写的而我实际上对 Java 版本更感兴趣有人有更好的 Java 版本吗他的示例是否足以直
在Java程序中计算zip文件的md5哈希值

我有一个 zip 文件在我的 Java 代码中我想计算 zip 文件的 md5 哈希值有没有我可以用于此目的的 java 库一些例子将非常感激谢谢几周前我通过这篇文章做到了这一点 http www javalobby org ja
Java 8 Stream - 为什么过滤器方法不执行？ [复制]

这个问题在这里已经有答案了我正在学习使用java流进行过滤但是过滤后的流没有打印任何内容我认为过滤器方法没有被执行我的过滤代码如下 Stream of d2 a2 b1 b3 c filter s gt s startsWith b
Google App Engine数据存储区字符串编码问题

你好我正在使用 Google App Engine 进行一个项目并且需要存储一些字符串我正在使用 Java 和JDOHelper getPersistenceManagerFactory transactions optional 在
servlet 如何获取 servlet 之外的文件的绝对路径？

我们一直在使用 System getProperties user dir 来获取属性文件的位置现在它已经部署在 Tomcat 上通过 servlet 系统调用将位置指定为 tomcat 而不是属性文件所在的位置我们如何动态调用属性文
Java Calendar.set(Calendar.DAY_OF_WEEK, Calendar.SUNDAY)，它会向后滚动、向前滚动还是未知？

假设以下代码在 2009 年 8 月 22 日星期六执行 Calendar c Calendar getInstance c set Calendar DAY OF WEEK Calendar SUNDAY c get Calendar
Web 应用程序似乎启动了名为 [22] 的线程，但未能停止它。这很可能造成内存泄漏

我有一个 Web 应用程序后端有 Servlet 部署在 tomcat 上该应用程序是简单的java应用程序我经常在服务器日志中看到此错误严重 Web 应用程序似乎启动了一个名为 22 但未能阻止它这很有可能造成内存泄漏是否存
如何手动添加Android Studio依赖

我多次尝试向我的项目添加依赖项但每次都会出现错误我想添加它们的依赖项是 de hdodenhof circleimageview 1 3 0 and com github bumptech glide glide 3 6 1 所以我想下
如何使用 AEM 解析 org.apache.http.ssl？

最终我尝试在 Java 代码中使用 AWS S3 库来通过 AEM 启用服务器端 S3 上传但在安装依赖项和或由 AEM 识别时遇到了问题每次我添加新的依赖项时都会弹出五个问题在我尝试构建的这个包中这是我看到的错误 The i
在测试期间调用预定方法[重复]

这个问题在这里已经有答案了我正在使用 Maven 开发 SpringBoot 应用程序我有一个班级 Component有方法的注释m与 Scheduled initialDelay 1000 fixedDelay 5000 注解这里f
Java applet 是否会违反同源策略

我需要请求一些东西并从其他域获取信息我知道由于同源政策 javascript 无法做到这一点我的另一个选择是通过我的服务器发出代理请求我不希望请求来自我的服务器的 IP 也不想为我的服务器创建额外的负载并且希望客户端这样做是否可以

随机推荐

将 PySpark 数组列乘以标量

我正在尝试将数组类型列乘以标量该标量也是来自同一 PySpark 数据帧的值例如我有这个数据框 df sc parallelize 1 2 3 toDF l factor l factor 1 2 3 我想要实现的是 l factor
XMonad：有没有办法绑定同时触发的键和弦？

Is there a way to make simultaneous key presses into a keybinding e g for the keys w e f when pressed within 0 05 second
检测 CKEditor 5 中文本何时发生更改并且编辑器失去焦点

我正在尝试在 CKEditor 5 中实现自动保存功能只有在进行更改且编辑器失去焦点后才会进行保存我怎么能这样做呢该文档让我非常困惑这是我得到的最接近的 function onChange el editor editor docu
如何隐藏 dired 中的链接数量？

99 9 的情况下我并不关心有多少链接指向一个文件如何让 dired 或者 ls 不显示链接数量作为参考 ls l 的输出类似于 rw rw rw 1 root dir 104 Dec 25 19 32 file 在本例中链接数为
PL/SQL 触发器从一张表上的 INSERT 更新另一张表

我正在使用 SQL 和 Oracle 数据库需要一些帮助触发器是我很难理解的东西当我向表 A 中插入一行时我需要一个触发器以便它更新表 B 上的行特别是其主键与刚刚添加到表 A 的行的相应外键匹配的行例如表 A 中的 X 列
Carrierwave、雾、Amazon S3、Rails 4

我正在尝试让 Carrierwave 与我的 Amazon S3 存储桶配合使用但我的运气有点差在我的config initializers文件夹我有一个名为 carrierwave rb 该文件包含以下内容 CarrierWave
AngularJS 智能感知不适用于 Visual Studio 2015

根据这个post http blogs msdn com b visualstudio archive 2015 02 05 using angularjs in visual studio 2013 aspxintellisense 也应
如何将库安装到 Azure Web App 上的“antenv”venv？

我正在尝试使用 FTP 将 Flask 应用程序部署到 Azure Web 应用程序 Linux python3 7 运行时我复制了 application py 和 requirements txt 但我可以在日志中看到没有安装任何内容
SharedPreferences.getStringSet() 未找到？

我对 SharedPreference 有一些不明白的地方 In 这个文件 http developer android com reference android content SharedPreferences html它说 API
使用带有 lxml 前缀的 fromstring()

我有一个变量 ele 我试图将一个子节点附加到 ele 上该节点的标签中包含名称空间前缀称为 style ele 似乎知道这个前缀如以下行 print ele nsmap style outputs urn oasis names t
在哪里可以找到 SimpleITK 文档和参考信息？

我有兴趣尝试使用 SimpleITK 来解决我的成像问题您能告诉我文档和培训材料在哪里吗 SimpleITK 已记录here http www itk org SimpleITKDoxygen html annotated html 并且
JavaScript 正则表达式 URL 仅提取域

目前我可以使用以下正则表达式从任何 URL 中提取域 https n www n im 不过我也得到了我想避免的子域名例如如果我有网站 www google com yahoo com 某事 freds meatmarket co
为什么“sail up”命令没有构建我的 laravel docker 容器？

我正在尝试 Laravel Sail 因为我已经成功使用 Laradock 几年了并希望简化我的开发环境设置我使用的是 Windows 10 64 使用 WSL 2 安装了 Docker Desktop 3 0 并且我的 Laravel
如何在刷新后让用户保持登录到 Firebase 应用程序？

我有一个内置于 firebase 和 Angular 的应用程序并且希望能够在刷新页面后保持用户登录现在我有一个登录屏幕其中有两个绑定到控制器的基本输入字段 this email this pass this emessage thi
Spring Security有Ip地址问题

我在控制器中有一个使用以下配置的方法 RequestMapping value encore userName token method RequestMethod GET ResponseBody PreAuthorize hasIpAd
使用新的 Google Jetpack 组件的最低 Android API 级别是多少

我已经开始学习 RxJava 我知道有一些新的 Google 组件如 LiveData 数据绑定等我想知道使用它们的最低 Android API 级别是多少我可以在 21 或 23 等较旧的 API 中利用它们吗直接从文档中http
无法使用 EPPlus 删除工作表

我正在使用这段代码 ExcelPackage pck new ExcelPackage newFile var wk pck Workbook Worksheets SingleOrDefault x gt x Name Content p
jquery validate 添加方法来验证日期时间

我正在使用我找到的日期时间选择器插件here http trentrichardson com examples timepicker 效果很好现在唯一的问题是它破坏了包含的标准日期验证jquery 验证插件 http docs jque
在调试器中查看 DLL 中的 pimpl

我使用 pimpl 习惯用法来隐藏接口的实现细节以便我可以采取某种 ABI 保护措施我不太熟悉 MS 的来龙去脉我的大部分开发生涯都使用 Linux 我无法从调试器检查窗口查看 pimpl 的内部我的类型仅扩展至 impl 的原始指
Google App Engine ( Java )：URL 提取响应太大问题

我正在尝试在谷歌应用程序上构建某种网络服务现在的问题是我需要从网站获取数据 HTML 抓取该请求如下所示 URL url new URL p url con HttpURLConnection url openConnection I

Google App Engine ( Java )：URL 提取响应太大问题

Google App Engine ( Java )：URL 提取响应太大问题 的相关文章

随机推荐

热门标签

Google App Engine ( Java )：URL 提取响应太大问题的相关文章