- 推荐文章
- 王宝龙-将开源PHP组件注册为服务提供者,以结巴分词为例
- 首先声明,这个文章是我自己用的
在 config/app.php里面
App\Library\Tool\ToolServiceProvider::class,
// App\Library\JiebaFenci\ChineseWordSegmentationServiceProvider::class,
App\Library\MySystemClass\MySystemProvider::class,
'Common' => App\Library\Tool\CommonFacade::class,
// 'MyRedis' => App\Library\Tool\MyRedisFacade::class,
'Jieba' => App\Library\JiebaFenci\Jieba::class,
// 'MySecurity' => App\Library\MySystemClass\SecurityFacade::class,
我做了计划任务
vi App\Console\Commands\Long.php
public function handle()
{
// 先取出最大的rel_id 和最大的id对比,id大,则有新的数据,小则没有新的数据,不执行任何信息
$rel_id_max = \DB::table('index_search')->max('rel_id');
$id_max = \DB::table('job_publish')->max('id');
// var_dump($id_max);
if ($id_max > $rel_id_max){
// 此时有新的数据,应该执行分词
// 取出job_publish中的标题和内容
$datas = \DB::table('job_publish')->where('id','>',$rel_id_max)->get(['id','title','desc']);
foreach ($datas as $data){
$keywords_str = $data->title.$data->desc; //拼接标题和描述
$keywords_arr = \Jieba::jieba()->cut($keywords_str); //分词
$keywords_str = implode(' ',$keywords_arr); //加入空格
$keywords_code = \Common::unicode_encode($keywords_str); //转uncode码
$keywords_code = str_replace('u32',' ',$keywords_code); // u32,代表空格
$insertinfo = ['type' => 1, 'rel_id' => $data->id,'keyword' => $keywords_code,'addtime' => date('Y-m-d H:i:s') ];
\DB::table("index_search")->insertGetId($insertinfo); //插入数据库
}
}
}
//实际用到的分词是
$keywords_str = $data->title.$data->desc; //拼接标题和描述
$keywords_arr = \Jieba::jieba()->cut($keywords_str); //分词
$keywords_str = implode(' ',$keywords_arr); //加入空格
$keywords_code = \Common::unicode_encode($keywords_str); //转uncode码
此处转码我们不知道空格会转成什么,我们可以先将空格打印
领 $keywords_str = ' ';
$keywords_code = str_replace('u32',' ',$keywords_code); // u32,代表空格
切记,可不是每个设备空格都是u32代表,我在ubuntu上测试的是u8192
查询的控制器写法
public function index(Request $request)
{
$search = $request->input('search');
// 1.如果search的查询不是空,则查询全文索引
if ($search !=null ){
$searchArr = \Jieba::jieba()->cut($search); //先把搜索的内容分词成为一个数组,即使一个词,分出来的也是数组
foreach ($searchArr as $search){
$word = \Common::unicode_encode($search);
$tmp = \DB::select("select rel_id from index_search where match(keyword) against('{$word}')"); //查询匹配结果
static $ids = array(); //此处要先声明,否则,如果$tmp为空。会报错,因为$ids没有值。
if ($tmp != null ){
// dd($tmp);
foreach ($tmp as $data){
// dd($data);
$ids[] = $data->rel_id; //把查询到的rel_id合并到一个数组
}
}
}
// 如果分词后的条件去数据库查询不到结果,则返回无结果
if (!$ids) return view('home')->with('jobpublishs','没有查询到相关结果,请重新输入搜索内容');
$ids = array_unique($ids); //把值相同的去掉
foreach ($ids as $id){
$jobpublishs[] = \DB::table('job_publish')->where('id',$id)->first();
}
return view('home',compact('jobpublishs'));
}
// 2.否则,search为空,判断条件查询是否存在
$where = $request->all();
if ($where==null){
$jobpublishs = DB::table('job_publish')->orderBy('starttime','desc')->get(); //没有查询条件则查询全部
}else{
$jobpublishs = DB::table('job_publish')->where($where)->orderBy('starttime','desc')->get(); //有条件则按条件查询
}
return view('home',compact('jobpublishs'));
}
- 本质需要的代码是
$searchArr = \Jieba::jieba()->cut($search); //先把搜索的内容分词成为一个数组
foreach ($searchArr as $search){
$word = \Common::unicode_encode($search);
$tmp = \DB::select("select rel_id from index_search where match(keyword) against('{$word}')"); //查询匹配结果
}
有时候我们输入的字虽然长,但它有可能是一个词。比如我输入郑州火车站
,它就是一个词,但是如果是郑州市火车站
,就会分词 郑州市
,火车站
,这才是我们需要的结果