在大文件中查找和替换

2023-11-21

我想在一个大的 xml 文件中找到一段文本,并想用其他文本替换。文件大小约为(50GB)。我想在命令行中执行此操作。我正在查看 PowerShell,想知道它是否可以处理大尺寸。

目前我正在尝试这样的事情,但它不喜欢它

Get-Content C:\File1.xml | Foreach-Object {$_ -replace "xmlns:xsi=\"http:\/\/www\.w3\.org\/2001\/XMLSchema-instance\"", ""} | Set-Content C:\File1.xml

我要替换的文字是xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"带有一个空字符串"".

问题

  1. PowerShell 可以处理大型数据吗? 文件
  2. 我不希望替换发生在 内存并更喜欢流式传输假设 这不会使服务器 它的膝盖。
  3. 我还可以采取其他方法吗(不同的 工具/策略?)

Thanks


我有类似的需求(并且类似地缺乏 powershell 经验),但从本页上的其他答案中拼凑出一个完整的答案,再加上更多的研究。

我还想避免正则表达式处理,因为我也不需要它——只是一个简单的字符串替换——但是在一个大文件上,所以我不想将它加载到内存中。

这是我使用的命令(添加换行符以提高可读性):

Get-Content sourcefile.txt
    | Foreach-Object {$_.Replace('http://example.com', 'http://another.example.com')}
    | Set-Content result.txt

效果很好!从来没有占用太多内存(很明显它没有将整个文件加载到内存中),只是缓慢地运行了几分钟然后完成。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在大文件中查找和替换 的相关文章

随机推荐

  • HttpListener 服务器标头 c#

    我正在尝试为个人项目编写一个 C http 服务器 我想知道如何将返回的服务器标头从 Microsoft HTTPAPI 2 0 更改为其他内容 public class HttpWebServer private HttpListener
  • 使用单击一次部署时出现安装问题

    我有一个 Wpf 应用程序 我希望将其部署在远程服务器上 以前我使用 VS2010 因此创建 setup msi 文件并部署到其他计算机上会很容易 目前我有VS2012 它没有设置部署选项 另外 我还阅读了有关 clickonce 应用程序
  • 如何在iOs中将UITabbarController添加到UIViewController

    如何用TabbarController推送Viewcontroller 在Viewcontroller XIB中 我创建了UITabbarController 然后我推送这个ViewController 但它没有出现UITabbarCont
  • 在 Java 中转义 SQL 字符串

    背景 我目前正在为企业 CMS 数据库 业务对象 开发 Java 前端 目前 我正在构建一个功能来允许用户构建自定义数据库查询 我已经实施了措施 以确保用户只能使用已批准用户访问的可用列和运算符的子集进行选择 例如 可以选择 SI EMAI
  • 将 string 转换为 int 而不丢失开头的零

    I tried int parse 和convert class 将字符串转换为int 当我正在转换时 我一开始就失去了 0 这是我不想要的 例如 09999 变成 9999 我不想要这个 我想保持原样 我怎样才能做到这一点 myNumbe
  • 任何编程语言中的变量名是否占用内存空间

    e g int a 3 1 and int a long variable name used instead of small one 3 2 1 和 2 哪一个将获得更多的内存空间或将获得相等的空间 在 C 和大多数静态编译语言中 变量
  • CollapsingToolBarLayout 与 TabLayout 和 ViewPager

    我尝试使用 CordinatorLayout 和 CollapsingToolbarLayout TabLayout 和 ViewPager 创建类似于图像中的布局 我的布局无法正确呈现 这是我的布局
  • 无法加载此类文件——rack/handler/puma

    我的设置和错误 当我使用rackup 和puma 启动Sinatra 应用程序时出现错误 我的config ru文件看起来像这样 s puma require controller main rb run Sinatra Applicati
  • JAXB 用于自然返回 JSON 或 XML 的列表

    我使用 MOXy 和 Jersey 来实现 RESTful API 并希望自然地返回 JSON 和 XML 的列表 这意味着 XML 包含整个集合以及集合项的元素标签 而 JSON 包含仅用于收藏的标签 例如 我想返回带有嵌套的设施和位置列
  • 从 Javascript 中的对象中删除空白属性

    如何删除所有属性undefined or null在 JavaScript 对象中 问题类似于this one对于数组 ES10 ES2019 示例 一个简单的单行代码 返回一个新对象 let o Object fromEntries Ob
  • T SQL 条件字符串连接

    有5列地址数据 我需要将这些字段连接成一个地址 并且值之间存在空格 如果存在 如果该列有空值 我应该跳过它并且不输入任何空格 select case when street number THEN cast street number as
  • boost::lexical_cast<> 的语言环境不变保证

    我在用着boost lexical cast
  • 为什么 Input onChange 的行为类似于 ReactJs 中的 onKeyDown?

    在下面的示例中 onChange每次用户输入字母时都会触发事件 例如onkeydown事件 这是正常行为吗 import React from react export default class Form extends React Co
  • 未找到 Conda 命令

    我已经安装了迷你康达并添加了环境变量export PATH home username miniconda3 bin PATH to my bashrc and bash 配置文件 但仍然无法在我的终端中运行任何 Conda 命令 我的设置
  • 使用冒泡排序对 int 数组进行排序

    为什么我打印出来的数组没有在下面的代码中排序 public class BubbleSort public void sortArray int x go through the array and sort from smallest t
  • 如何使用 C# 构建软件电话(使用 SIP 协议)[关闭]

    Closed 这个问题需要多问focused 目前不接受答案 我面临的挑战是使用 C 或 net 技术构建 sip 软电话 请指导我构建此类所需的技术 要求和规范 可能的要求 支持的编解码器 G 722 1 G 723 1 G 726 G
  • TF10175:团队项目不存在

    我使用 Visualstudio Online 作为存储库 我从项目集合中删除了 ProjectName 项目 之后我只在一台计算机上出现错误 TF10175 ProjectName 团队项目不存在 有解决这个问题的想法吗 我通过删除我的工
  • Unity应用程序块,如何将参数传递给注入工厂?

    这是我现在拥有的 Container RegisterType
  • 何时在 C++ 中使用 void*

    我正在努力思考一个问题void 我应该了解什么是正确的使用方式以及是否存在任何潜在的滥用行为 意思是很酷的东西 没有错 我不明白如何以及为什么使用void 如果我理解的话 我需要将当前指针转换为void 然后当我想使用它时又投射回原来的 为
  • 在大文件中查找和替换

    我想在一个大的 xml 文件中找到一段文本 并想用其他文本替换 文件大小约为 50GB 我想在命令行中执行此操作 我正在查看 PowerShell 想知道它是否可以处理大尺寸 目前我正在尝试这样的事情 但它不喜欢它 Get Content