opencv 将图像与文本二值化

2023-12-01

我需要用文本对图像进行二值化。它工作得很好，但在某些情况下输出是空的（白色图像）

code

/*
 *  Compile
 *  # g++ txtbin.cpp -o txtbin `pkg-config opencv --cflags --libs`
 *
 *  Run
 *  # ./txtbin input.jpg output.png
 */

#include "string"
#include "fstream"
#include "/usr/include/opencv2/opencv.hpp"
#include "/usr/include/boost/tuple/tuple.hpp"

using namespace std;
using namespace cv;
using namespace boost;

void CalcBlockMeanVariance(Mat& Img, Mat& Res, float blockSide=21, float contrast=0.01){
    /*
     *  blockSide: set greater for larger fonts in image
     *  contrast: set smaller for lower contrast image
     */
    
    Mat I;
    Img.convertTo(I, CV_32FC1);
    Res = Mat::zeros(Img.rows / blockSide, Img.cols / blockSide, CV_32FC1);
    Mat inpaintmask;
    Mat patch;
    Mat smallImg;
    Scalar m, s;
    
    for(int i = 0; i < Img.rows - blockSide; i += blockSide){
        for(int j = 0; j < Img.cols - blockSide; j += blockSide){
            patch = I(Range(i, i + blockSide + 1), Range(j, j + blockSide + 1));
            meanStdDev(patch, m, s);
            
            if(s[0] > contrast){
                Res.at<float>(i / blockSide, j / blockSide) = m[0];
            }
            else{
                Res.at<float>(i / blockSide, j / blockSide) = 0;
            }
        }
    }
    
    resize(I, smallImg, Res.size());
    
    threshold(Res, inpaintmask, 0.02, 1.0, THRESH_BINARY);
    
    Mat inpainted;
    smallImg.convertTo(smallImg, CV_8UC1, 255);
    
    inpaintmask.convertTo(inpaintmask, CV_8UC1);
    inpaint(smallImg, inpaintmask, inpainted, 5, INPAINT_TELEA);
    
    resize(inpainted, Res, Img.size());
    Res.convertTo(Res, CV_32FC1, 1.0 / 255.0);
}

tuple<int, int, int, int> detect_text_box(string input, Mat& res, bool draw_contours=false){
    Mat large = imread(input);
    
    bool test_output = false;
    
    int
        top = large.rows,
        bottom = 0,
        left = large.cols,
        right = 0;
    
    int
        rect_bottom,
        rect_right;
    
    Mat rgb;
    // downsample and use it for processing
    pyrDown(large, rgb);
    Mat small;
    cvtColor(rgb, small, CV_BGR2GRAY);
    // morphological gradient
    Mat grad;
    Mat morphKernel = getStructuringElement(MORPH_ELLIPSE, Size(3, 3));
    morphologyEx(small, grad, MORPH_GRADIENT, morphKernel);
    // binarize
    Mat bw;
    threshold(grad, bw, 0.0, 255.0, THRESH_BINARY | THRESH_OTSU);
    // connect horizontally oriented regions
    Mat connected;
    morphKernel = getStructuringElement(MORPH_RECT, Size(9, 1));
    morphologyEx(bw, connected, MORPH_CLOSE, morphKernel);
    // find contours
    Mat mask = Mat::zeros(bw.size(), CV_8UC1);
    vector<vector<Point> > contours;
    vector<Vec4i> hierarchy;
    findContours(connected, contours, hierarchy, CV_RETR_CCOMP, CV_CHAIN_APPROX_SIMPLE, Point(0, 0));
    // filter contours
    for(int idx = 0; idx >= 0; idx = hierarchy[idx][0]){
        Rect rect = boundingRect(contours[idx]);
        Mat maskROI(mask, rect);
        maskROI = Scalar(0, 0, 0);
        // fill the contour
        drawContours(mask, contours, idx, Scalar(255, 255, 255), CV_FILLED);
        // ratio of non-zero pixels in the filled region
        double r = (double)countNonZero(maskROI) / (rect.width * rect.height);
        
        // assume at least 45% of the area is filled if it contains text
        if (r > 0.45 && 
        (rect.height > 8 && rect.width > 8) // constraints on region size
        // these two conditions alone are not very robust. better to use something 
        //like the number of significant peaks in a horizontal projection as a third condition
        ){
            if(draw_contours){
                rectangle(res, Rect(rect.x * 2, rect.y * 2, rect.width * 2, rect.height * 2), Scalar(0, 255, 0), 2);
            }
            
            if(test_output){
                rectangle(rgb, rect, Scalar(0, 255, 0), 2);
            }
            
            if(rect.y < top){
                top = rect.y;
            }
            rect_bottom = rect.y + rect.height;
            if(rect_bottom > bottom){
                bottom = rect_bottom;
            }
            if(rect.x < left){
                left = rect.x;
            }
            rect_right = rect.x + rect.width;
            if(rect_right > right){
                right = rect_right;
            }
        }
    }
    
    if(draw_contours){
        rectangle(res, Point(left * 2, top * 2), Point(right * 2, bottom * 2), Scalar(0, 0, 255), 2);
    }
    
    if(test_output){
        rectangle(rgb, Point(left, top), Point(right, bottom), Scalar(0, 0, 255), 2);
        imwrite(string("test_text_contours.jpg"), rgb);
    }
    
    return make_tuple(left * 2, top * 2, (right - left) * 2, (bottom - top) * 2);
}

int main(int argc, char* argv[]){
    string input;
    string output = "output.png";
    
    int
        width = 0,
        height = 0;
    
    bool
        crop = false,
        draw = false;
    
    float margin = 0;
    
    //  Return error if arguments are missing
    if(argc < 3){
        cerr << "\nUsage: txtbin input [options] output\n\n"
            "Options:\n"
            "\t-w <number>          -- set max width (keeps aspect ratio)\n"
            "\t-h <number>          -- set max height (keeps aspect ratio)\n"
            "\t-c                   -- crop text content contour\n"
            "\t-m <number>          -- add margins (number in %)\n"
            "\t-d                   -- draw text content contours (debugging)\n" << endl;
        return 1;
    }
    
    //  Parse arguments
    for(int i = 1; i < argc; i++){
        if(i == 1){
            input = string(argv[i]);
            
            //  Return error if input file is invalid
            ifstream stream(input.c_str());
            if(!stream.good()){
                cerr << "Error: Input file is invalid!" << endl;
                return 1;
            }
        }
        else if(string(argv[i]) == "-w"){
            width = atoi(argv[++i]);
        }
        else if(string(argv[i]) == "-h"){
            height = atoi(argv[++i]);
        }
        else if(string(argv[i]) == "-c"){
            crop = true;
        }
        else if(string(argv[i]) == "-m"){
            margin = atoi(argv[++i]);
        }
        else if(string(argv[i]) == "-d"){
            draw = true;
        }
        else if(i == argc - 1){
            output = string(argv[i]);
        }
    }
    
    Mat Img = imread(input, CV_LOAD_IMAGE_GRAYSCALE);
    Mat res;
    Img.convertTo(Img, CV_32FC1, 1.0 / 255.0);
    CalcBlockMeanVariance(Img, res);
    res = 1.0 - res;
    res = Img + res;
    threshold(res, res, 0.85, 1, THRESH_BINARY);
    
    int
        txt_x,
        txt_y,
        txt_width,
        txt_height;
    
    if(crop || draw){
        tie(txt_x, txt_y, txt_width, txt_height) = detect_text_box(input, res, draw);
    }
    
    if(crop){
        //res = res(Rect(txt_x, txt_y, txt_width, txt_height)).clone();
        res = res(Rect(txt_x, txt_y, txt_width, txt_height));
    }
    
    if(margin){
        int border = res.cols * margin / 100;
        copyMakeBorder(res, res, border, border, border, border, BORDER_CONSTANT, Scalar(255, 255, 255));
    }
    
    float
        width_input = res.cols,
        height_input = res.rows;
    
    bool resized = false;
    
    //  Downscale image
    if(width > 0 && width_input > width){
        float scale = width_input / width;
        width_input /= scale;
        height_input /= scale;
        resized = true;
    }
    if(height > 0 && height_input > height){
        float scale = height_input / height;
        width_input /= scale;
        height_input /= scale;
        resized = true;
    }
    if(resized){
        resize(res, res, Size(round(width_input), round(height_input)));
    }
    
    imwrite(output, res * 255);
    
    return 0;
}

好的：）放blockSide较小的（例如 7）它会给你结果图像，如下所示。这取决于字体大小，较小的字体需要较小的块大小，否则文本将被过滤掉，您会得到空图像。

#include <iostream>
#include <vector>
#include <stdio.h>
#include <stdarg.h>
#include "/usr/include/opencv2/opencv.hpp"
#include "fstream"
#include "iostream"
using namespace std;
using namespace cv;

void CalcBlockMeanVariance(Mat& Img,Mat& Res,float blockSide=9) // blockSide - the parameter (set greater for larger font on image)
{
    Mat I;
    Img.convertTo(I,CV_32FC1);
    Res=Mat::zeros(Img.rows/blockSide,Img.cols/blockSide,CV_32FC1);
    Mat inpaintmask;
    Mat patch;
    Mat smallImg;
    Scalar m,s;

    for(int i=0;i<Img.rows-blockSide;i+=blockSide)
    {       
        for (int j=0;j<Img.cols-blockSide;j+=blockSide)
        {
            patch=I(Range(i,i+blockSide+1),Range(j,j+blockSide+1));
            cv::meanStdDev(patch,m,s);
            if(s[0]>0.01) // Thresholding parameter (set smaller for lower contrast image)
            {
                Res.at<float>(i/blockSide,j/blockSide)=m[0];
            }else
            {
                Res.at<float>(i/blockSide,j/blockSide)=0;
            }           
        }
    }

    cv::resize(I,smallImg,Res.size());

    cv::threshold(Res,inpaintmask,0.02,1.0,cv::THRESH_BINARY);

    Mat inpainted;
    smallImg.convertTo(smallImg,CV_8UC1,255);

    inpaintmask.convertTo(inpaintmask,CV_8UC1);
    inpaint(smallImg, inpaintmask, inpainted, 5, INPAINT_TELEA);

    cv::resize(inpainted,Res,Img.size());
    Res.convertTo(Res,CV_32FC1,1.0/255.0);

}

int main( int argc, char** argv )
{
    namedWindow("Img");
    namedWindow("Edges");
    //Mat Img=imread("D:\\ImagesForTest\\BookPage.JPG",0);
    Mat Img=imread("test2.jpg",0);
    Mat res;
    Img.convertTo(Img,CV_32FC1,1.0/255.0);
    CalcBlockMeanVariance(Img,res); 
    res=1.0-res;
    res=Img+res;
    imshow("Img",Img);
    cv::threshold(res,res,0.85,1,cv::THRESH_BINARY);
    cv::resize(res,res,cv::Size(res.cols/2,res.rows/2));
    imwrite("result.jpg",res*255);
    imshow("Edges",res);
    waitKey(0);

    return 0;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

opencv

imageprocessing

opencv 将图像与文本二值化的相关文章

使用 gcc 在 Linux 上运行线程构建块 (Intel TBB)

我正在尝试为线程构建块构建一些测试不幸的是我无法配置 tbb 库链接器找不到库 tbb 我尝试在 bin 目录中运行脚本但这没有帮助我什至尝试将库文件移动到 usr local lib 但这又失败了任何的意见都将会有帮助确定您
WPF DataGrid 多选

我读过几篇关于这个主题的文章但很多都是来自 VS 或框架的早期版本我想做的是从 dataGrid 中选择多行并将这些行返回到绑定的可观察集合中我尝试创建一个属性类型并将其添加到可观察集合中它适用于单个记录但代码永远不会触发多个
结构化绑定中缺少类型信息

我刚刚了解了 C 中的结构化绑定但有一件事我不喜欢 auto x y some func is that auto正在隐藏类型x and y 我得抬头看看some func的声明来了解类型x and y 或者我可以写 T1 x T2 y
根据属性的类型使用文本框或复选框

如果我有这样的结构 public class Parent public string Name get set public List
在一个数据访问层中处理多个连接字符串

我有一个有趣的困境我目前有一个数据访问层它必须与多个域一起使用并且每个域都有多个数据库存储库具体取决于所调用的存储过程目前我只需使用 SWITCH 语句来确定应用程序正在运行的计算机并从 Web config 返回适当的连接字
std::list 线程push_back、front、pop_front

std list 线程安全吗我假设不是这样所以我添加了自己的同步机制我认为我有正确的术语但我仍然遇到问题每个函数都由单独的线程调用 Thread1 不能等待它必须尽可能快 std list
为什么 GCC 不允许我创建“内联静态 std::stringstream”？

我将直接前往 MCVE include
-webkit-box-shadow 与 QtWebKit 模糊？

当时有什么方法可以实现 webkit box shadow 的工作模糊吗看完这篇评论错误报告 https bugs webkit org show bug cgi id 23291 我认识到这仍然是一个问题尽管错误报告被标记为RESOL
WPF 数据绑定到复合类模式？

我是第一次尝试 WPF 并且正在努力解决如何将控件绑定到使用其他对象的组合构建的类例如如果我有一个由两个单独的类组成的类 Comp 为了清楚起见请注意省略的各种元素 class One int first int second cla
C# - 当代表执行异步任务时，我仍然需要 System.Threading 吗？

由于我可以使用委托执行异步操作我怀疑在我的应用程序中使用 System Threading 的机会很小是否存在我无法避免 System Threading 的基本情况只是我正处于学习阶段例子 class Program public
为什么这个字符串用AesCryptoServiceProvider第二次解密时不相等？

我在 C VS2012 NET 4 5 中的文本加密和解密方面遇到问题具体来说当我加密并随后解密字符串时输出与输入不同然而奇怪的是如果我复制加密的输出并将其硬编码为字符串文字解密就会起作用以下代码示例说明了该问题我究竟做错
两个类可以使用 C++ 互相查看吗？

所以我有一个 A 类我想在其中调用一些 B 类函数所以我包括 b h 但是在 B 类中我想调用 A 类函数如果我包含 a h 它最终会陷入无限循环对吗我能做什么呢仅将成员函数声明放在头文件 h 中并将成员函数定义放在实现文
空指针与 int 等价

Bjarne 在 C 编程语言中写道空指针与整数零不同但 0 可以用作空指针的指针初始值设定项这是否意味着 void voidPointer 0 int zero 0 int castPointer reinterpret cast
为什么 isnormal() 说一个值是正常的，而实际上不是？

include
如何在 Linq to SQL 中使用distinct 和 group by

我正在尝试将以下 sql 转换为 Linq 2 SQL select groupId count distinct userId from processroundissueinstance group by groupId 这是我的代码
为什么C++代码执行速度比java慢？

我最近用 Java 编写了一个计算密集型算法然后将其翻译为 C 令我惊讶的是 C 的执行速度要慢得多我现在已经编写了一个更短的 Java 测试程序和一个相应的 C 程序见下文我的原始代码具有大量数组访问功能测试代码也是如此 C 的
当文件流没有新数据时如何防止fgets阻塞

我有一个popen 执行的函数tail f sometextfile 只要文件流中有数据显然我就可以通过fgets 现在如果没有新数据来自尾部 fgets 挂起我试过ferror and feof 无济于事我怎样才能确定fgets 当
类型或命名空间“MyNamespace”不存在等

我有通常的类型或命名空间名称不存在错误除了我引用了程序集 using 语句没有显示为不正确并且我引用的类是公共的事实上我在不同的解决方案中引用并使用相同的程序集来执行相同的操作并且效果很好顺便说一句这是VS2010 有人有什么
如何确定 CultureInfo 实例是否支持拉丁字符

是否可以确定是否CultureInfo http msdn microsoft com en us library system globalization cultureinfo aspx我正在使用的实例是否基于拉丁字符集我相信你可以使
使用 WGL 创建现代 OpenGL 上下文？

我正在尝试使用 Windows 函数创建 OpenGL 上下文现代版本基本上代码就是创建窗口类注册班级创建一个窗口 choose PIXELFORMATDESCRIPTOR并设置它创建旧版 OpenGL 上下文使上下文成为当前

随机推荐

如何在Web浏览器上部署swing应用程序？

我开发了一个大型秋千应用程序有几个类每个类都创建自己的类JFrame同时关闭上一个称为此类的类我希望将其部署到网络浏览器中并了解我需要将其转换为小程序我是否必须在每个类中添加用于创建小程序的代码或者还有其他方法吗在我目前的情况
使用 SSO（例如 Keycloak），如何处理/同步自己数据库中的用户？

考虑以下场景您有一个 SSO 服务比方说 Keycloak 和 X 应用程序它们有自己的数据库在每个数据库的某个位置您引用一个user id 这要怎么处理呢如何解决外来约束问题是否应该同步 Keycloak 和应用程序如何
Visual Studio Express 抱怨缺少“;”输入c程序后

我的代码有什么问题 include
计算本周星期一的日期

目标如果当前星期几是星期一以外的任何一天则显示本周星期一的日期如果本周的当天是星期一则只需显示今天的日期这是我写的我认为它有效但可能不是确定日期的最干净的方法话虽如此有没有人看到代码错误或不起作用的任何原因
如何添加尚未在plugins.cordova.io上注册的cordova插件？

喜欢这些插件 https github com ArchieGoodwin SilentShot https github com alongubkin phonertc 他们没有 tarball 网址 cordova plugin add
如何将 Unity 与内部类一起使用？

我有一个 Web API 应用程序并使用 Unity 进行依赖项注入该应用程序使用包含接口 IDoStuff 和实现该接口的类的库 internal interface IDoStuff void DoSomething interna
将txt的特定行放入数组中

我正在为我的 C 课程制作一个谁想成为百万富翁游戏我有 15 篇文章每篇有 3 个问题答案例子 Whats the capital of Brasil Rio de Janeiro Brasilia Sao Paulo Curi
评估转义字符串

我的文件中有一些已经转义的字符串所以文件的内容如下所示 Hello nWorld This is tGreat 当我阅读该文件时我得到 n作为两个不同的角色而不是一个如何将转义字符串转换为非转义字符串基于 deAtog的代码我做了
设置单元格 (n) 颜色索引等于单元格 (n - 1) 颜色索引

我从这个宏中得到了一个奇怪的输出宏应该使用上面的颜色填充空白单元格创建一个颜色块结果不是我所期望的尽管Debug Print显示相同ColorIndex number 知道这里发生了什么吗 Option Explicit Sub C
如何从 BigQuery 中的 Openstreet 地图数据集中提取所有国家/地区几何图形

我正在使用此查询使用 OSM 提取所有国家地区的几何形状它工作正常但我确信它正在创建重复项因为我使用国旗作为参考有些地方有国旗但它们并不是真正的国家地区 SELECT feature type osm id osm time
从 Eclipse 中使用自定义 Firefox 配置文件启动 Selenium

我正在 Eclipse 中运行 Selenium 测试但无法加载自定义 Firefox 配置文件大多数消息来源建议我需要像这样启动 Selenium 服务器 java jar selenium server jar firefoxPro
使用 Entity Framework 4 在运行时打开 SQL CE 文件

我正在开始使用 Entity Framework 4 并创建一个演示应用程序作为学习练习该应用程序是一个简单的文档生成器它使用 SQL CE 存储每个文档项目都有自己的 SQL CE 数据文件用户打开这些文件之一来处理项目 EDM
正确的用户输入 - x86 Linux 汇编

所以我正在使用 NASM 为 Linux 开发一个 x86 汇编程序该程序主要询问用户的姓名和最喜欢的颜色执行此操作并将两个字符串存储在 bss 部分中声明的变量中后程序会打印 No way用户名最喜欢的颜色也是我最喜欢的颜色我遇
如何使用Python计算目录中的文件数量

我如何只计算files在目录中这将目录本身算作一个文件 len glob glob os listdir 会比使用稍微更有效glob glob 要测试文件名是否是普通文件而不是目录或其他实体请使用os path isfile impo
在单独的页面中打印 Javascript？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我目前正在使用 PHP 并获取完整的用户详细信息并将其显示到 html 表中我遇到的问题是当我打印 3 个表格时每个表格都完美地打印在每页上
为什么在更改 main 的签名时会出现段错误？

我试图涉足 C 语言并编写了这个程序在随机位置显示我的 RAM 的 kb 这是代码并且运行良好 include
哪个 DLL 具有 Windows.Devices.Gelocation 命名空间？

我正在使用 VS 2012 我需要编写使用 Windows Devices Gelocation 命名空间中的类的代码我下载了示例程序但它无法在 VS2012 中加载因为它需要 VS 2013 并且该类的文档没有指示该命名空间位于哪个
Android 有准确的重复闹钟系统吗？

背景 I m currently developing an application for Android which revolves around an alarm that goes of on an user specified
静脉中的行人模拟 (omnet++/sumo)

我正在尝试在 omnet 中运行相扑行人模拟为了保持简单我是初学者我决定使用Erlangen示例提供了静脉并用几个行人扩展它我添加了相扑中的行人并运行它它工作得很好你可以看到这张照片中的行人和汽车接下来我尝试在 omnet 中
opencv 将图像与文本二值化

我需要用文本对图像进行二值化它工作得很好但在某些情况下输出是空的白色图像 code Compile g txtbin cpp o txtbin pkg config opencv cflags libs Run txtbin inpu

opencv 将图像与文本二值化

code

opencv 将图像与文本二值化 的相关文章

随机推荐

热门标签

opencv 将图像与文本二值化的相关文章