如何使用 Spark 上下文访问 Web URL

2023-11-24

我尝试使用 textFile 方法从 Spark-shell 中使用 WEB URL，但出现错误。也许这不是正确的方法。那么有人可以告诉我如何从 Spark 上下文访问 Web URL。

我使用的是spark版本1.3.0； Scala 版本 2.10.4 和 Java 1.7.0_21

hduser@ubuntu:~$ spark-shell
Spark assembly has been built with Hive, including Datanucleus jars on classpath
Welcome to
      __              
     / /   / /
    \ \/  \/  `/ _/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.3.0
      /_/

Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_21)
Type in expressions to have them evaluated.
Type :help for more information.
Spark context available as sc.
SQL context available as sqlContext.

scala> val pagecount = sc.textFile( "https://www.google.co.in/?gws_rd=ssl" )
pagecount: org.apache.spark.rdd.RDD[String] = https://www.google.co.in/?gws_rd=ssl MapPartitionsRDD[1] at textFile at <console>:21

scala> pagecount.count()
java.io.IOException: No FileSystem for scheme: https
 at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1383)
 at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)
 at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1404)
 at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:254)
 at org.apache.hadoop.fs.Path.getFileSystem(Path.java:187)
 at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:176)
 at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:208)
 at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:203)
 at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
 at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
 at scala.Option.getOrElse(Option.scala:120)
 at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
 at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:32)
 at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
 at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
 at scala.Option.getOrElse(Option.scala:120)
 at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
 at org.apache.spark.SparkContext.runJob(SparkContext.scala:1511)
 at org.apache.spark.rdd.RDD.count(RDD.scala:1006)
 at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:24)
 at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:29)
 at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:31)
 at $iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:33)
 at $iwC$$iwC$$iwC$$iwC.<init>(<console>:35)
 at $iwC$$iwC$$iwC.<init>(<console>:37)
 at $iwC$$iwC.<init>(<console>:39)
 at $iwC.<init>(<console>:41)
 at <init>(<console>:43)
 at .<init>(<console>:47)
 at .<clinit>(<console>)
 at .<init>(<console>:7)
 at .<clinit>(<console>)
 at $print(<console>)
 at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
 at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
 at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
 at java.lang.reflect.Method.invoke(Method.java:601)
 at org.apache.spark.repl.SparkIMain$ReadEvalPrint.call(SparkIMain.scala:1065)
 at org.apache.spark.repl.SparkIMain$Request.loadAndRun(SparkIMain.scala:1338)
 at org.apache.spark.repl.SparkIMain.loadAndRunReq$1(SparkIMain.scala:840)
 at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:871)
 at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:819)
 at org.apache.spark.repl.SparkILoop.reallyInterpret$1(SparkILoop.scala:856)
 at org.apache.spark.repl.SparkILoop.interpretStartingWith(SparkILoop.scala:901)
 at org.apache.spark.repl.SparkILoop.command(SparkILoop.scala:813)
 at org.apache.spark.repl.SparkILoop.processLine$1(SparkILoop.scala:656)
 at org.apache.spark.repl.SparkILoop.innerLoop$1(SparkILoop.scala:664)
 at org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$loop(SparkILoop.scala:669)
 at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply$mcZ$sp(SparkILoop.scala:996)
 at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:944)
 at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:944)
 at scala.tools.nsc.util.ScalaClassLoader$.savingContextLoader(ScalaClassLoader.scala:135)
 at org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$process(SparkILoop.scala:944)
 at org.apache.spark.repl.SparkILoop.process(SparkILoop.scala:1058)
 at org.apache.spark.repl.Main$.main(Main.scala:31)
 at org.apache.spark.repl.Main.main(Main.scala)
 at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
 at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
 at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
 at java.lang.reflect.Method.invoke(Method.java:601)
 at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:569)
 at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)
 at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)
 at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)
 at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

您无法使用以下方式获取网址内容textFile直接地。textFile is to :

从 HDFS（本地文件系统）读取文本文件（在所有系统上都可用）节点），或任何 Hadoop 支持的文件系统 URI

你看，HTTP/HTTPS不包括网址。

您可以先获取内容，然后将其制作为RDDs.

val html = scala.io.Source.fromURL("https://spark.apache.org/").mkString
val list = html.split("\n").filter(_ != "")
val rdds = sc.parallelize(list)
val count = rdds.filter(_.contains("Spark")).count()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

如何使用 Spark 上下文访问 Web URL 的相关文章

从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
Python - 将整数或字符串发送到 Spark-Streaming

我可以通过 CSV 文件发送我的数据首先将我的随机数写入CSV文件然后发送但是可以直接发送吗我的套接字代码 import socket host localhost port 8080 s socket socket socket
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
Spark 执行器登录 YARN

我正在 Cloudera 集群上以 YARN 客户端模式启动分布式 Spark 应用程序一段时间后我在 Cloudera Manager 上看到一些错误一些执行者会断开连接并且这种情况会系统性地发生我想调试该问题但 YARN 未
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point

随机推荐

如何在 redshift （或替代方案）中使用正则表达式捕获组

我的红移列中有一个字段如下所示 abcd1234df TEXT I WANT 前10位字符和数字可以是字母或数字如果我使用捕获组正则表达式我会使用写得不好的表达式例如 w w w w w w w w w w W 并抓住第二组但我在
iOS7 UIPickerView 无法正确显示带有图像的自定义视图

这个问题是在 iOS7 中使用新的 UIPickerView 控制器开始发生的要在 UIPickerView 控制器中使用图像您必须使用委托方法返回图像 pickerView viewForRow forComponent reusin
如何在 Android 应用程序中插入日期时间设置为“现在”的 SQLite 记录？

假设我们创建了一个表 create table notes id integer primary key autoincrement created date date 要插入记录我会使用 ContentValues initialVal
AutoMapper 将 IEnumerable 映射到 DataReader 问题

我正在使用 AutoMapper 来使用下面讨论的代码进行数据读取器http elegantcode com 2009 10 16 mapping from idatareaderidatarecord with automapper 我认
带光标的 ViewPager PagerAdapter - CursorLoader.onLoadFinished 不会使用不同的查询进行调用

我正在做一个报价应用程序从数据库中提取报价我需要在 ViewPager 中显示报价我已经创建了我的 Cursor PagerAdapter 它似乎运行良好 public class MyCursorPagerAdapter exten
WinRT XAML 中的日期选择器在哪里？

我在 WinRT JavaScript HTML5 中看到日期选择器控件 XAML 的控件在哪里我发现的最好的一个包含模板和 xaml 友好的格式选项是 https github com jasonmitchell WinRT XAM
Haskell --> F#：特纳筛

当我正在阅读不同的筛选算法时我偶然发现了一种埃拉托斯特尼筛法的改进版本称为欧拉筛法根据维基百科Haskell 中有一个稍微不同版本的想法称为特纳筛的实现现在我试图了解给出的代码片段到底是做什么的我想我已经明白了但现在我想将代
PowerShell 模块 - 在导入模块时传递参数

在下面的示例模块文件中有没有办法在导入模块时传递 myvar 值例如 import module name test psm1 pass a parameter e g value of myvar test psm1 script m
为什么 Google 为本机应用程序提供客户端密钥？

我正在编写一个针对 Google API 的本机应用程序注册我的应用程序后尽管其明确指定为 Native Google Developers Console 仍为我提供了客户端密钥据我了解 OAuth 2 0 协议本机应用程序永远不
通过 JDBC 连接时在会话信息中显示应用程序名称

我使用标准 JDBC 驱动程序创建与 postgres 9 数据库的连接 Connection myCon DriverManager getConnection jdbc postgresql localhost test user te
VS2010“添加项目”目录更改

当您通过添加 gt 新项目添加源文件时是否有任何方法可以更改 Visual Studio 2010 使用的默认目录 Add New Item只需根据您当前所在的项目目录或在解决方案资源管理器中选择的项目目录添加项目即可如果您想更改添
Java 类路径 - Linux

我试图了解类路径的真正工作原理在网上搜索之后这是我到目前为止所到达的地方我已经添加了 export CLASSPATH home foo home foo Java code my code at etc environment 顺便
我们可以在 ASP.NET Webforms（*.aspx 页面）中使用 Razor 语法吗？

我喜欢 Microsoft 在其 WebMatrix 产品中为内联编码开发的 Razor 语法 http en wikipedia org wiki Microsoft WebMatrix 既然 Visual Studio SP1 已实现
Spark Dataframe 最大列数

Spark Dataframe 的最大列数是多少我尝试从数据框文档中获取它但无法找到它从体系结构的角度来看它们是可扩展的因此列数不应有任何限制但它可能会导致节点上的负载不均匀并可能影响转换的整体性能
Angular 4 - 取消订阅的最佳方式

我很好奇如何取消所有订阅我知道 takeWhile 和 takeUntil 我发现 takeUntil 对我来说更有用据我了解 takeWhile 在我们获取数据后生效然后取消订阅直到组件被销毁使用 takeUntil 和不使用它
在 C# 中跨多个列表查找公共项的最快方法

鉴于以下情况 List
如何在 SQL Server 中将 float 转换为 varchar

我有一个包含不同长度数字的浮点列我正在尝试将它们转换为 varchar 有些值超过了 bigint 最大大小所以我不能做这样的事情 cast cast float field as bigint as varchar 100 我尝试过使
如何在 Mailgun HTTP API 中渲染 Rails 邮件程序视图

我正在使用 Mailgun HTTP API 从 Rails 应用程序发送电子邮件但我无法呈现邮件程序视图这是我的邮件类 class MailgunMails lt ActionMailer Base def send complex
如何固定文本区域的字符数宽度？（cols 属性不起作用）

我想根据最大数量指定文本区域的宽度等宽字体他们应该能够在每一行中容纳的字符既没有多余的剩余空间也没有溢出有一些类似的问题但一致的答案是使用cols属性显然不起作用如图所示这个jsFiddle 它的 HTML 是这样的
如何使用 Spark 上下文访问 Web URL

我尝试使用 textFile 方法从 Spark shell 中使用 WEB URL 但出现错误也许这不是正确的方法那么有人可以告诉我如何从 Spark 上下文访问 Web URL 我使用的是spark版本1 3 0 Scala 版本

如何使用 Spark 上下文访问 Web URL

如何使用 Spark 上下文访问 Web URL 的相关文章

随机推荐

热门标签