Go编程:使用 Colly 库下载Reddit网站的图像

亿牛云

概述

Reddit是一个社交新闻网站,用户可以发布各种主题的内容,包括图片。本文将介绍如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。为了避免被目标网站反爬,我们还将使用亿牛云爬虫代理服务,通过动态切换代理IP来提高爬取效率和稳定性。

正文

Colly_9">Colly库简介

Colly是一个用Go语言编写的功能强大的爬虫框架。它提供了简洁的API,拥有强劲的性能,可以自动处理cookie和session,还有提供灵活的扩展机制。Colly支持多种数据格式的解析,如HTML、XML、JSON等,还支持分布式爬取、限速、缓存、重试等功能。

亿牛云爬虫代理简介

亿牛云爬虫代理是一种专业的代理服务,通过固定云代理服务地址,建立专线网络链接,代理平台自动实现海量IP池管理及负载均衡,实时无感的毫秒级代理IP切换,提供企业级云服务的网络稳定性及请求响应速度,同时降低了客户端运算负载压力,避免了爬虫客户在代理IP策略优化上投入精力,整体提升了爬虫效率。

爬虫程序设计

我们的爬虫程序主要分为以下几个步骤:

  • 创建一个Colly实例,并设置相关选项和回调函数
  • 登录亿牛云后台,获取代理相关信息(域名、端口、用户名、密码),并设置到Colly实例中
  • 访问Reddit网站,根据指定的主题(subreddit)和过滤条件(filter),获取图片链接
  • 下载图片,并保存到本地文件夹中

爬虫程序代码

package main

import (
	"fmt"
	"io"
	"log"
	"net/http"
	"net/url"
	"os"
	"path/filepath"
	"strings"

	"github.com/gocolly/colly/v2"
)

// 定义常量
const (
	subreddit = "pics" // 主题
	filter    = "top"  // 过滤条件
	limit     = 10     // 图片数量限制
	output    = "images" // 输出文件夹

	// 亿牛云爬虫代理相关信息(需登录后台获取)
	proxyHost = "www.16yun.cn" // 域名
	proxyPort = 6443           // 端口
	proxyUser = "16YUN"        // 用户名
	proxyPass = "16IP"         // 密码
)

func main() {
	// 创建一个Colly实例
	c := colly.NewCollector(
		colly.AllowedDomains("www.reddit.com", "old.reddit.com", "i.redd.it", "i.imgur.com"),
	)

	// 设置代理(使用亿牛云爬虫代理服务)
	err := c.SetProxyFunc(func(r *http.Request) (*url.URL, error) {
		return url.Parse(fmt.Sprintf("http://%s:%s@%s:%d", proxyUser, proxyPass, proxyHost, proxyPort))
	})
	if err != nil {
		log.Fatal(err)
	}

	// 创建一个计数器,用于限制图片数量
	count := 0

	// 注册HTML回调函数,用于解析图片链接
	c.OnHTML("a[href]", func(e *colly.HTMLElement) {
		// 获取链接地址
		link := e.Attr("href")
		// 过滤非图片链接
		if !strings.HasSuffix(link, ".jpg") && !strings.HasSuffix(link, ".png") {
			return
		}
		// 限制图片数量
		if count >= limit {
			return
		}
		// 访问图片链接
		c.Visit(link)
	})

	// 注册图片回调函数,用于下载图片
	c.OnResponse(func(r *colly.Response) {
		// 获取图片URL
		url := r.Request.URL.String()
		// 获取图片文件名
		filename := filepath.Base(url)
		// 创建输出文件夹(如果不存在)
		if _, err := os.Stat(output); os.IsNotExist(err) {
			os.Mkdir(output, 0755)
		}
		// 创建图片文件
		file, err := os.Create(filepath.Join(output, filename))
		if err != nil {
			log.Fatal(err)
		}
		defer file.Close()
		// 写入图片数据
		file.Write(r.Body)
		fmt.Printf("下载图片:%s\n", url)
		count++
	})

	c.OnError(func(r *colly.Response, err error) {
		fmt.Printf("请求失败:%s\n", r.Request.URL)
		fmt.Println(err)
	})

	c.OnRequest(func(r *colly.Request) {
		fmt.Printf("请求开始:%s\n", r.URL)
	})

	c.OnResponse(func(r *colly.Response) {
		fmt.Printf("请求完成:%s\n", r.Request.URL)
	})

	c.OnScraped(func(r *colly.Response) {
		fmt.Println("爬取结束")
	})

	fmt.Println("爬取开始")
	c.Visit(fmt.Sprintf("https://old.reddit.com/r/%s/%s/", subreddit, filter))
}

结语

本文介绍了如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。同时,我们还使用了亿牛云爬虫代理服务,通过动态切换代理IP来提高爬取效率和稳定性,希望本文对你有所帮助。


http://www.niftyadmin.cn/n/5094481.html

相关文章

数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析(文末送书)

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

如何同步 Github 和 Gitee的仓库代码

一、从github导入仓库,手动同步 在 Gitee 的项目主页,导入的仓库会会有一个同步的按钮,你只用点一下,即可与 Github 同步更新,但是注意这里的同步功能默认是强制同步。有点麻烦的是,我们需要在推送到 Githu…

AI人工训练师,提升外呼机器人的运营效果

外呼机器人是企业客服和营销的重要工具,外呼机器人可以通过语音识别和语音合成技术,自动拨打电话并进行客户服务和营销推广等工作。由于外呼机器人错误识别和理解偏差容易影响外呼效果,许多外呼机器人厂商选择通过AI人工训练师的技术手段来提…

Java基础20问(1-5)

1.Java面向对象和面试过程的区别? 面向过程是将一个问题拆解成几个步骤,依次实现每一个步骤,比如实现一个冒泡排序的算法,是为了解决某个非常具体的问题。 而面向对象也是将一个问题拆解成几个步骤,但是先不去实现&a…

OpenCV与mediapipe实践

1. 安装前准备 开发环境:vscode venv 设置vscode, 建立项目,如: t1/src, 用vscode打开,新建终端Terminal,这时可能会有错误产生,解决办法: 运行命令:Set-ExecutionPolicy -ExecutionPolicy …

maven的坐标元素

maven的坐标&#xff1a;使用三个向量在Maven仓库中唯一的定位到一个jar包 * groupId&#xff1a;公司或组织的ID * artifactId&#xff1a;一个项目或者是项目中的一个模块的ID * version&#xff1a;版本号 <groupId>com.gz.maven</groupId> <artifactId&…

CSS魔法!如何将任意CSS类型转换为数值?

在 CSS 中有各式各样的类型值&#xff0c;例如 1rem、10vw、100cqw等等&#xff0c;这些相对值给与了 CSS 强大的适应能力。但有时候&#xff0c;我们还需要知道这些相对值所对应的真实值&#xff0c;也就是px值&#xff0c;比如在移动端&#xff0c;我们经常会设置这样的根字号…

NFTScan | 10.09~10.15 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。 周期&#xff1a;2023.10.09~ 2023.10.15 NFT 热点资讯 01/ DeLabs&#xff1a;所有 DeGods 已重置回 Season1&#xff0c;用户可于本周将 y00ts 免费迁移至以太坊 10 月 9 日&#xff0c;DeGods & y…