下面是一个简单的Python爬虫实例代码,使用requests库来发送HTTP请求和获取页面内容,以及BeautifulSoup库来解析HTML文档:
```python
import requests
from bs4 import BeautifulSoup
# 设置要爬取的网址
url = 'http://example.com' # 将这里替换为你要爬取的网址
# 发送HTTP请求并获取页面内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML文档
soup = BeautifulSoup(response.text, 'html.parser')
# 找到需要爬取的数据,这里以标题为例
titles = soup.find_all('h1') # 根据实际情况替换成你需要的标签选择器
# 输出标题内容
for title in titles:
print(title.text)
else:
print('请求失败,状态码:', response.status_code)
```
注意,这只是一个简单的示例代码,实际使用时需要根据具体需求进行修改。此外,爬虫程序需要遵守网站的爬虫协议和相关法律法规,避免对网站造成不必要的压力和侵犯他人的权益。