PHP的swoole扩展是一个高性能的网络通信框架,它可以让PHP开发者轻松地创建TCP/HTTP服务,来响应客户端的请求。但是,有些请求可能涉及到一些复杂和耗时的业务逻辑,如果在工作进程中直接处理,可能会影响服务器的并发能力。为了解决这个问题,swoole提供了两种异步执行任务的模型:task模型和多进程模型。
task模型是指在工作进程中,通过调用swoole_server->task()方法,将任务投递给task进程处理。task进程是一种特殊的工作进程,专门用于处理耗时的任务。task进程可以通过设置task_worker_num参数来指定数量。当task进程处理完任务后,可以通过调用swoole_server->finish()方法,将结果返回给工作进程。
多进程模型是指在工作进程中,通过调用swoole_process类,创建子进程来处理任务。子进程是独立的进程,可以使用swoole提供的同步和锁机制来保证数据访问的安全性。子进程可以通过设置process_num参数来指定数量。当子进程处理完任务后,可以通过调用swoole_process->write()方法,将结果写入管道中。
无论是使用task模型还是多进程模型,都可以提高服务器的并发处理能力,适合处理一些比较复杂和耗时的业务逻辑。swoole扩展为PHP开发者提供了一个强大而灵活的网络编程工具,让PHP不仅仅是一个Web开发语言。
<?php
// 引入swoole扩展
use Swoole\Http\Server;
use Swoole\Http\Request;
use Swoole\Http\Response;
// 创建一个TCP/HTTP服务
$server = new Server("0.0.0.0", 9523);
// 设置工作进程和任务进程的数量
$server->set([
'worker_num' => 4,
'task_worker_num' => 2
]);
// 注册请求处理回调函数
$server->on("request", function (Request $request, Response $response) use ($server) {
// 获取客户端传递的数据
$data = $request->get;
// 判断是否使用task模型或多进程模型
if (isset($data['mode']) && $data['mode'] == 'task') {
// 使用task模型,投递任务给task进程处理
$server->task($data);
// 返回响应给客户端,不关注任务执行结果
$response->end("Task mode: task has been delivered.");
} else {
// 使用多进程模型,创建子进程处理任务
$process = new Swoole\Process(function ($process) use ($data) {
// 在子进程中处理任务逻辑,比如写入数据库等
// 这里只是简单地打印数据
echo "Process mode: data is " . json_encode($data) . "\n";
// 处理完任务后,将结果写入管道中
$process->write("Process mode: task has been done.");
});
// 启动子进程
$process->start();
// 从管道中读取子进程返回的结果
$result = $process->read();
// 返回响应给客户端,包含任务执行结果
$response->end($result);
}
});
// 注册任务处理回调函数
$server->on("task", function ($server, $task_id, $src_worker_id, $data) {
// 在task进程中处理任务逻辑,比如写入数据库等
// 这里只是简单地打印数据
echo "Task mode: data is " . json_encode($data) . "\n";
// 增加一个使用代理IP采集百度关键词的任务逻辑
// 设置爬虫加强版代理IP
$proxy = "http://www.16yun.cn:8080";
$userpwd =“16YUN:16IP”;
// 设置curl选项,使用代理IP和User-Agent
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "https://www.baidu.com/s?wd=" . urlencode($data["keyword"])); // 拼接百度搜索URL,使用$data["keyword"]作为关键词
curl_setopt($ch, CURLOPT_PROXY, $proxy); // 使用爬虫加强版代理IP
curl_setopt($ch, CURLOPT_USERPWD, $userpwd); // 设置用户名和密码
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"); // 使用随机或固定的User-Agent
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // 将结果返回为字符串,而不是输出到屏幕上
curl_setopt($ch, CURLOPT_TIMEOUT, 10); // 设置超时时间为10秒
// 使用 -u 参数指定用户名和密码,假设用户名是 foo,密码是 bar
curl_setopt($ch, CURLOPT_USERPWD, "foo:bar"); // 或者使用 --netrc-file 参数指定一个包含用户名和密码的文件,假设文件名是 my-password-file
// curl_setopt($ch, CURLOPT_NETRC_FILE, "my-password-file");
// 执行curl请求,获取百度搜索结果页面的HTML内容
$html = curl_exec($ch);
curl_close($ch);
// 解析HTML内容,提取搜索结果的标题和链接等信息,可以使用正则表达式或第三方库等方法
// 这里只是简单地打印HTML内容的前100个字符
echo "Task mode: HTML content is " . substr($html, 0, 100) . "\n";
// 处理完任务后,将结果返回给工作进程,可以省略
return "Task mode: task has been done.";
});
// 注册任务完成回调函数
$server->on("finish", function ($server, $task_id, $data) {
// 在工作进程中接收任务执行结果,可以省略
echo "Task mode: result is " . $data . "\n";
});
// 启动服务
$server->start();
上述代码使用PHP的swoole扩展创建了一个TCP/HTTP服务,监听了9523端口,可以接收客户端的请求,并根据请求参数,使用task模型或多进程模型来异步执行爬虫采集百度搜索的任务,可以根据业务需要通过拓展实现更多个并发功能。