百度搜索-url编码

Table of Contents

百度搜索编码的格式与国际上面其他搜索的格式有所不同,比如google的是UTF-8,但是百度使用的是GB2312编码。

应用场景

  1. 在爬虫当中我们经常需要组装url来进行页面的爬虫,这个时候我们就需要把搜索的关键字编码为url的形式,下面我们以python3代码为例讲解url的编码和解码:
# -*- coding: utf-8 -*-
from urllib.parse import quote, unquote

key_word = "购车";

# url编码
key_word_quote = quote(key_word.encode("GB2312"), 'gbk')
print(key_word_quote)
# url解码
print(unquote(key_word_quote, 'gbk'))