从 Google BigQuery 中过滤或替换非英文字符

2024-04-11

我正在从 Google Biqquery 中的查询中提取数据。我通过 python 脚本连接到 Google API，在 python 脚本中执行查询并将查询结果写入 CSV 文件。当我从脚本中执行示例数据（100 行）的查询时，一切看起来都很好。但是当我对整个数据执行脚本时，它失败了。

UnicodeEncodeError：“ascii”编解码器无法对位置 38 中的字符 u'\xe7' 进行编码：序数不在范围内（128）

我看到这是一个 python 错误，但是当脚本尝试处理包含非英语字符的记录时会发生这种情况。我在 Hive 中遇到了同样的问题，但我通过使用下面给出的 RLIKE 函数解决了这个问题

  (CASE WHEN FIELD1 not rlike '[^a-zA-Z()\\|\\d\\s\\(_)\\-\\(/):]' THEN FIELD1 ELSE 'data' END) AS FIELD1

Google BigQuery 中是否有类似的方法或功能来查找和替换非英文字符？或者，这可以在 python 脚本中处理吗？

代码片段：

job_id, _results = MY_CLIENT.query("""select FIELD1, FIELD2, FIELD3, FIELD4 FROM TABLE1""", use_legacy_sql=True)
complete, row_count = MY_CLIENT.check_job(job_id)
results = MY_CLIENT.get_query_rows(job_id)
outfile =  open('C:\\Users\\test.csv', 'w')
for row in results:
    for key in row.keys():
        if key == 'FIELD4':
            outfile.write("%s" %str(row[key]))
        else:
            outfile.write("%s," %str(row[key]))
    outfile.write("\n")
outfile.close()

预先感谢您的帮助！

您可以使用下面的方法删除非 ASCII 字符

REGEXP_REPLACE(field1, r'([^\p{ASCII}]+)', '')

下面是您可以尝试一下的示例，看看它是如何工作的

#standardSQL
WITH `project.dataset.table` AS (
  SELECT '12 - Table - Стол - test' AS field1 UNION ALL
  SELECT '23 - Table - الطاولة' UNION ALL
  SELECT '34 - Table - שולחן' 
)
SELECT 
  REGEXP_REPLACE(field1, r'([^\p{ASCII}]+)', '') AS ascii_only,
  field1
FROM `project.dataset.table`

有结果

Row ascii_only          field1   
1   12 - Table - - test 12 - Table - Стол - test     
2   23 - Table -        23 - Table - الطاولة     
3   34 - Table -        34 - Table - שולחן

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

googlebigquery

从 Google BigQuery 中过滤或替换非英文字符的相关文章

使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或

随机推荐

带有 android:priority 设置的意图过滤器

我测试了意图过滤器android priority 0 和意图过滤器android priority 20 by android intent category HOME 我列出以下信息
变量中的 JavaScript 反斜杠 (\) 导致错误

在 Javascript 中当我在某些变量中添加反斜杠时例如 var ttt aa var ttt aa JavaScript 显示错误如果我尝试限制用户输入此字符我也会收到错误 aaa indexOf 1 限制用户输入中的反斜杠并
如何更改 Xamarin 中的章节标题字体样式？

我有这个列表视图但我不知道如何设置部分标题的样式在 Xamarin 中如何实现还没有找到任何东西
OpenCV 中是否可以将局部曲率绘制为代表对象“指向性”的热图？

给定一个可以检测并绘制轮廓的斑点阈值图像在绘制轮廓时是否可以将局部曲率表示为热图即是否 1 可以确定开放 cv 轮廓上的局部曲率 2 将此曲率映射到热图颜色空间 3 将轮廓绘制为热图我的目标是测量对象的尖度以便我可以绘制从尖头侧到
带回滚的Mysql嵌套事务

有人可以告诉我是否可以从一个过程中调用另一个过程并且如果任一过程的任何部分失败则回滚所有内容如果这是可能的有人可以向我展示一个如何实施的小例子吗 EDIT 过程 b 失败但过程 a 仍然向表 a 中插入一行据我了解如果插入的任
C 检测 popen 子进程中的错误

我在用着popen读取第三方程序的输出如果子程序失败我想检测并重新启动我该怎么做呢如果子进程死亡进程不会正常退出因此无法使用WEXITSTATUS去检查还有别的办法吗这是一个简单的例子 PINGER C include
在经典 ASP 中设置 HTTP_X_FORWARDED_FOR 服务器变量

我需要在 Request ServerVariables 集合中设置 HTTP X FORWARDED FOR 值我正在尝试使用 Fiddler 请参阅本文 https stackoverflow com questions 321185
给定精度的快速双精度数到字符串转换

我需要以给定的精度将双精度数转换为字符串 String format 3f value or DecimalFormat 可以完成这项工作但基准测试表明它很慢甚至Double toString在我的机器上转换 100 万个数字大约需要
如何判断一个视频是否是首映？ ...通过 YouTube API

在 YouTube 上我们可以上传录制的视频直播现在还可以进行首映使用视频列出 YouTube 数据 API 的端点 https developers google com youtube v3 docs videos list我
mysql 全文搜索无法搜索 3 个字符

在我的网站中我使用全文搜索实现了搜索功能它通常工作正常但有时不像当我使用关键字 ship 而不是 shi 搜索时给出结果但它应该回来请帮助我为什么会发生这种情况要索引的单词的最小和最大长度由ft min word len and
使用 JavaScript 或 jQuery 如何检查窗口上是否存在事件？

Setup 我已将一个事件附加到窗口对象我想通过代码检查它是否存在 window addEventListener beforeunload function e false Attempts 我尝试过简单的和 jQuery 但没有成
栅栏柱问题的优雅解决方案（带字符串）

我指的是连接Strings 具有一定的String中间例如用句点分隔的句子连接或用逗号连接参数列表我知道您可以使用库但有时这些库不能满足您的要求例如当您想要生成要连接的短语时到目前为止我已经想出了两种解决方案 StringBuf
当用户按下按键时看不到消息

下列java程序调用本机方法C应该打印一条消息you pressed a key 如果用户按下某个键但当我按下按键时我看不到该消息我还检查该功能是否SetWindowsHookEx返回 null 但不它不返回 null Java代码
Delphi 2009 及更高版本中的捕获控制台

下面的代码适用于 Delphi XE 但 2400 的缓冲区大小相当难看有人对清理这个例程有一些建议吗并使 2400 限制消失不定义 64000 缓冲区 Thanks procedure TForm1 Button1Click Sen
使用 Cloudformation 在 S3 存储桶内创建文件夹

我可以使用 cloudformation 创建 S3 存储桶但想在 S3 存储桶内创建一个文件夹 like
iPhone 开发人员：有任何片段可以调整图像大小并保持比例吗？

我是在 iPhone 中开发代码的新手我想搜索一些代码以将 UIImage 大小调整为指定大小但保持比例指定的大小就像图像不能跨越边界的框架在该边界内图像应该缩放以适应框架并保持比例我当前使用的代码可以调整大小但不能保持比率只需将
寻找像 Selenium 这样的 Windows GUI 测试工具来进行 Web 测试 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们使用并喜欢Selenium http seleniumhq org 测试我们的网络用户界面现在我们需要测试本机Windows程序并正
Google App 邀请是否可以与应用商店之外的测试版应用一起使用？

标题几乎概括了这一点 Google 应用邀请可以与尚未在 Play 商店上架的测试版应用一起使用吗是的 App Invites 可与 Google Play 上发布的 Alpha 和 Beta 版本一起使用 alpha beta 版本的链
如何递归文件夹并显示相对文件夹路径？

这是一个简单的脚本 srcpth C Users Mark Desktop dummy files Get ChildItem Path srcpth File Recurse foreach f in files filen f Name
从 Google BigQuery 中过滤或替换非英文字符

我正在从 Google Biqquery 中的查询中提取数据我通过 python 脚本连接到 Google API 在 python 脚本中执行查询并将查询结果写入 CSV 文件当我从脚本中执行示例数据 100 行的查询时一切看起来

从 Google BigQuery 中过滤或替换非英文字符

从 Google BigQuery 中过滤或替换非英文字符 的相关文章

随机推荐

热门标签

从 Google BigQuery 中过滤或替换非英文字符的相关文章