如何将图片恢复水平位置?图片旋转矫正方法大全,ddddocr作者基于RotNet的旋转验证码深度学习识别模型Rotate-Captcha-Crack

news/2024/7/21 5:30:30 标签: 计算机视觉, opencv, 图像处理

基于边缘检测的图像旋转校正模型:

该模型首先使用边缘检测算法对图像进行边缘检测,然后找到边缘上的直线,并计算直线的角度。最后通过旋转图像来校正图像的角度。

import cv2
import numpy as np

# 加载图像
img = cv2.imread('skewed_image.jpg')

# 转换为灰度图像
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 使用Canny算子查找边缘
edges = cv2.Canny(gray, 50, 150, apertureSize=3)

# 查找直线并计算旋转角度
lines = cv2.HoughLines(edges, 1, np.pi/180, 100)
angle = np.mean(lines[:, 0, 1]) * 180 / np.pi - 90

# 旋转图像进行校正
(rows, cols) = img.shape[:2]
center = (cols / 2, rows / 2)
M = cv2.getRotationMatrix2D(center, angle, 1.0)
result = cv2.warpAffine(img, M, (cols, rows), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)

# 显示图像
cv2.imshow('Original', img)
cv2.imshow('Corrected', result)
cv2.waitKey(0)
cv2.destroyAllWindows()

基于Hough变换的图像旋转校正模型:

该模型基于Hough变换算法来检测图像中的直线,并计算直线角度,然后使用旋转矩阵将图像旋转到正确的角度。

import cv2
import numpy as np

# 加载图像
img = cv2.imread('skewed_image.jpg')

# 转换为灰度图像
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 使用Canny算子查找边缘
edges = cv2.Canny(gray, 50, 150, apertureSize=3)

# 进行Hough变换,查找直线
lines = cv2.HoughLines(edges, 1, np.pi/180, 200)

# 找到最长的线
max_len = 0
for line in lines:
    rho, theta = line[0]
    a = np.cos(theta)
    b = np.sin(theta)
    x0 = a * rho
    y0 = b * rho
    x1 = int(x0 + 1000 * (-b))
    y1 = int(y0 + 1000 * (a))
    x2 = int(x0 - 1000 * (-b))
    y2 = int(y0 - 1000 * (a))
    length = np.sqrt((x1 - x2)**2 + (y1 - y2)**2)
    if length > max_len:
        max_len = length
        longest_line = [x1, y1, x2, y2]

# 计算旋转角度
dx = longest_line[2] - longest_line[0]
dy = longest_line[3] - longest_line[1]
angle = np.degrees(np.arctan2(dy, dx))

# 进行旋转校正
rows, cols = img.shape[:2]
rotation_matrix = cv2.getRotationMatrix2D((cols/2, rows/2), angle, 1)
result = cv2.warpAffine(img, rotation_matrix, (cols, rows), flags=cv2.INTER_CUBIC)

# 显示图像
cv2.imshow('Original Image', img)
cv2.imshow('Rotated Image', result)
cv2.waitKey(0)
cv2.destroyAllWindows()

基于模板匹配的图像旋转校正模型:

该模型使用图像的局部特征来找到最优旋转角度,其主要思想是通过旋转图像来将其与预定义的模板进行匹配,并找到最小的匹配差异度,从而确定最优旋转角度。

import cv2
import numpy as np

# 加载图像和模板
img = cv2.imread('skewed_image.jpg')
template = cv2.imread('template.jpg', 0)

# 计算模板的旋转矩阵
(h, w) = template.shape[:2]
center = (w // 2, h // 2)
M = cv2.getRotationMatrix2D(center, 45, 1.0)

# 旋转模板并计算SIFT特征点
template = cv2.warpAffine(template, M, (w, h))
sift = cv2.SIFT_create()
(kps, descs) = sift.detectAndCompute(template, None)

# 计算图像的SIFT特征点并进行匹配
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
(kps2, descs2) = sift.detectAndCompute(gray, None)
bf = cv2.BFMatcher()
matches = bf.match(descs, descs2)

# 找到最优旋转矩阵
matches = sorted(matches, key=lambda x:x.distance)
src_pts = np.float32([kps[m.queryIdx].pt for m in matches])
dst_pts = np.float32([kps2[m.trainIdx].pt for m in matches])
M, mask = cv2.findHomography(src_pts, dst_pts, cv2.RANSAC, 5.0)
theta = -np.degrees(np.arctan2(M[0, 1], M[0, 0]))

# 旋转图像进行校正
(rows, cols) = img.shape[:2]
center = (cols / 2, rows / 2)
M = cv2.getRotationMatrix2D(center, theta, 1.0)
result = cv2.warpAffine(img, M, (cols, rows), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)

# 显示图像
cv2.imshow('Original', img)
cv2.imshow('Corrected', result)
cv2.waitKey(0)
cv2.destroyAllWindows()

基于特征点匹配的图像旋转校正模型:

该模型首先使用特征点检测算法来检测图像中的关键点,并计算其描述子。然后,通过计算两个图像的特征点之间的距离和实现旋转角度的估计和校正。

import cv2
import numpy as np

# 加载图像
img = cv2.imread('skewed_image.jpg')

# 使用SIFT特征点检测算法检测图像的关键点
sift = cv2.SIFT_create()
kp1, des1 = sift.detectAndCompute(img,None)

# 旋转图像并使用同样的方法检测关键点
[h, w] = img.shape[:2]
M = cv2.getRotationMatrix2D((w/2,h/2),45,1.0)
img_rot = cv2.warpAffine(img,M,(w,h))
kp2, des2 = sift.detectAndCompute(img_rot,None)

# 匹配关键点并计算旋转角度
bf = cv2.BFMatcher()
matches = bf.knnMatch(des1, des2, k=2)
good = []
for m, n in matches:
    if m.distance < 0.5 * n.distance:
        good.append(m)
src_pts = np.float32([kp1[m.queryIdx].pt for m in good]).reshape(-1, 1, 2)
dst_pts = np.float32([kp2[m.trainIdx.pt for m in good]).reshape(-1, 1, 2)
M, mask = cv2.findHomography(src_pts, dst_pts, cv2.RANSAC, 5.0)
theta = -np.degrees(np.arctan2(M[0, 1], M[0, 0]))

#旋转图像进行校正
(rows, cols) = img.shape[:2]
center = (cols / 2, rows / 2)
M = cv2.getRotationMatrix2D(center, theta, 1.0)
result = cv2.warpAffine(img, M, (cols, rows), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)

#显示图像
cv2.imshow('Original', img)
cv2.imshow('Corrected', result)
cv2.waitKey(0)
cv2.destroyAllWindows()

以上两种方法的实现示例,使用OpenCV中的函数和库实现。其中基于模板匹配的方法旋转图像到与模板最佳匹配的角度,而基于特征点匹配的方法检测图像和旋转后的图像之间的关键点差异,并估计出最佳的旋转角度进行校正。这两个方法都可以在一定程度上对图像进行旋转校正,但需要注意的是,如果图像中的旋转角度过大或存在严重的非线性扭曲,则可能会降低这两种方法的效果。因此,在选择适当的图像旋转校正方法时,应考虑到具体应用场景,以及旋转程度和所需校正的精度等因素。
上述四种模型都可以用于图像旋转校正,但它们的优点和缺点各不相同,需要根据具体应用场景选择合适的模型。

https://www.python.org/downloads/windows/

ddddocr作者的旋转验证码识别模型Rotate-Captcha-Crack

Rotate-Captcha-Crack

https://github.com/Starry-OvO/rotate-captcha-crack

中文 | English

CNN预测图片旋转角度,可用于破解百度旋转验证码

测试效果:

test_result

本仓库实现了三类模型:

名称Backbone损失函数跨域测试误差(越小越好)大小(MB)
RotNetResNet50交叉熵1.1548°92.7
RotNetRRegNetY 3.2GFLOPs交叉熵1.2825°69.8
RCCNet_v0_5RegNetY 3.2GFLOPsMSE+余弦修正42.7774°68.7

RotNetd4nst/RotNet的PyTorch实现。RotNetR仅在RotNet的基础上替换了backbone,并将分类数减少至180。其在谷歌街景数据集上训练64个epoch(耗时2小时)得到的平均预测误差为1.2825°。目前RCCNet_v0_5效果较差,推荐使用RotNetR

跨域测试使用谷歌街景/Landscape-Dataset作为训练集,百度验证码作为测试集(特别鸣谢@xiangbei1997)

演示用到的百度验证码图片来自RotateCaptchaBreak

体验已有模型

准备环境

  • 支持CUDA10+的GPU(如需训练则显存还需要不少于4G)

  • 确保你的Python版本>=3.8 <3.11

  • 确保你的PyTorch版本>=1.11

  • 拉取代码并安装依赖库

git clone --depth=1 https://github.com/Starry-OvO/rotate-captcha-crack.git
cd ./rotate-captcha-crack
pip install .

注意不要漏了install后面那个.

  • 或者,使用虚拟环境
git clone --depth=1 https://github.com/Starry-OvO/rotate-captcha-crack.git
python -m venv ./rotate-captcha-crack --system-site-packages
cd ./rotate-captcha-crack
# 根据你的Shell类型挑选一个合适的脚本激活虚拟环境 例如./Script/Active.ps1
python -m pip install -U pip
pip install .

下载预训练模型

下载Release中的压缩包并解压到./models文件夹下

文件目录结构类似./models/RCCNet_v0_5/230228_20_07_25_000/best.pth

本项目仍处于beta阶段,模型名称会频繁发生变更,因此出现任何FileNotFoundError请先尝试用git回退到对应的tag

输入一个验证码图像并查看旋转效果

如果你的系统没有GUI,尝试把debug方法从显示图像改成保存图像

python test_captcha.py

使用http服务端

  • 安装额外依赖
pip install aiohttp httpx[cli]
  • 运行服务端
python server.py
  • 另开一命令行窗口发送图像
 httpx -m POST http://127.0.0.1:4396 -f img ./test.jpg

训练新模型

准备数据集

  • 我这里直接扒的谷歌街景和Landscape-Dataset,你也可以自己收集一些风景照并放到一个文件夹里,图像没有尺寸要求

  • train.py里配置dataset_root变量指向装有图片的文件夹

  • 不需要手动标注,dataset会在读取图片的同时自动完成矩形裁剪、缩放旋转等工作

训练

python train_RotNetR.py

在测试集上验证模型

python test_RotNetR.py

相关文章

吾爱破解 - 简单聊聊旋转验证码攻防


http://www.niftyadmin.cn/n/274901.html

相关文章

并发编程基石:管程

大家好&#xff0c;我是易安&#xff01; 如果有人问我学习并发并发编程&#xff0c;最核心的技术点是什么&#xff0c;我一定会告诉他&#xff0c;管程技术。Java语言在1.5之前&#xff0c;提供的唯一的并发原语就是管程&#xff0c;而且1.5之后提供的SDK并发包&#xff0c;也…

【五一创作】深度学习

深度学习是机器学习中的一种方法&#xff0c;它可以让计算机从数据中学习复杂的模式和关系。深度学习在计算机视觉、自然语言处理、语音识别等领域有广泛的应用。在学习深度学习时&#xff0c;需要掌握一定的学习步骤。本文将介绍学习深度学习的步骤。 第一步&#xff1a;了解…

10个最流行的向量数据库【AI】

矢量数据库是一种将数据存储为高维向量的数据库&#xff0c;高维向量是特征或属性的数学表示。 每个向量都有一定数量的维度&#xff0c;范围从几十到几千不等&#xff0c;具体取决于数据的复杂性和粒度。 推荐&#xff1a;用 NSDT场景设计器 快速搭建3D场景。 矢量数据库&…

浏览器跨站点通信(两个IP不同网站通信)

需求场景&#xff1a;OA系统会通过接口调用的方式将ERP系统的待办信息获取并显示在OA系统中。登录OA系统后&#xff0c;在OA系统中点击ERP系统的待办&#xff0c;会自动打开ERP系统业务处理页面&#xff0c;当ERP系统对应业务处理完毕&#xff0c;需要在OA系统中刷新待办记录&a…

【环境配置】解决No module named ‘librosa‘

执行以下命令下载 pip install librosa我这里遇到了报错&#xff1a; Microsoft Visual C 14.0 or greater is required. Get it with “Microsoft C Build Tools”: https://visualstudio.microsoft.com/visual-cpp-build-tools/ 相关解决方案请参考&#xff1a; 【环境配置…

C++设计模式11:享元模式

C++ 23种设计模式系列文章目录 创建型模式 第1式 工厂方法模式 第2式 抽象工厂模式 第3式 单例模式 第4式 建造者模式 第5式 原型模式 结构型模式 第6式 适配器模式 第7式 桥接模式 第8式 组合模式 第9式 装饰器模式

继续打脸水货教程:关于可变对象与不可变对象

入门教程、案例源码、学习资料、读者群 请访问&#xff1a; python666.cn 大家好&#xff0c;欢迎来到 Crossin的编程教室 &#xff01; 今天这篇我要继续来打脸互联网上各种以讹传讹的水货教程。 前阵子我们聊了下Python中有关函数参数传递以及变量赋值的一些内容&#xff1a;…

设计模式——组件协作模式之观察者模式

文章目录 前言一、“组件协作” 模式二、Observer 观察者模式1、动机2、模式定义3、伪代码示例①、第一种方案&#xff0c;最朴素的方式②、第二种方案&#xff0c;重构使得遵循DIP原则&#xff1a;③、进一步的小优化&#xff1a;④、修改使得支持多个观察者&#xff1a; 4、结…