python 批量查百度收录

要使用Python批量查百度收录,可以使用requests库向百度发起请求,然后使用正则表达式或BeautifulSoup等工具来解析收到的HTML页面,以获得百度搜索引擎对相应网址的收录情况。

以下是一个简单的Python代码示例:

import requests
import re

url_list = [
‘http://www.example1.com’,
‘http://www.example2.com’,
‘http://www.example3.com’,
# … 添加更多要查询的网址
]

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3’}
params = {‘wd’: ”}

for url in url_list:
params[‘wd’] = ‘site:’ + url
r = requests.get(‘https://www.baidu.com/s’, headers=headers, params=params)
if r.status_code == 200:
html = r.text
match = re.search(r’百度为您找到相关结果约(.+?)个’, html)
if match:
count = match.group(1).strip().replace(‘,’, ”)
print(url, count)
else:
print(url, ‘收录情况未知’)
else:
print(url, ‘查询错误’)

这个代码示例会遍历url_list中的所有网址,并分别向百度搜索发起带有”site:url”的查询请求。收到响应后,它会使用re模块在HTML页面中查找收录结果,然后将查询结果打印出来。

需要注意的是,百度搜索页面的HTML结构可能会随着时间而改变,而且这个解析方式可能存在一些缺陷。如果你需要更加健壮的收录查询方式,可以考虑使用第三方的搜索查询API。