使用PHP怎么通过中文字符比率来判断垃圾评论

介绍

本篇文章给大家分享的是有关使用PHP怎么通过中文字符比率来判断垃圾评论,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

<强>一、需求:

最近一段时间常常出现这类垃圾评论:一大段英文字符里夹杂一两个生僻汉字,包含了中文字符,而且又没包含啥中文的敏感词,所以就堂而皇之的通过了评论过滤。对这类评论的处理可以采取判断中文字符的比率来确认,但是也会存在一定的误判。

<强>二,解决方案:

要用到PHP的两个函数strlen和mb_strlen, strlen会把单个汉字长度认定为3,mb_strlen单个汉字长度为1。同一段字符通过两个函数取得的长度之差就是实际汉字字符数的二倍,除以二就得到实际的字符数,在与mb_strlen取得的长度求比值就得到汉字占总字符数的比率。

<强>三,实现代码:

代码如下:

$ len_all=strlen($评论[& # 39;文本# 39;]),,,,,,,,,,,,,,,,,,,,,,
, len_st=mb_strlen美元(美元)评论(& # 39;文本# 39;],& # 39;utf - 8 # 39;);
,如果((len_all - len_st美元)/(2 * len_st美元)& lt;0.5){
,,,,,,,$错误=爸形淖址儆诎俜种迨?,
,}

使用PHP怎么通过中文字符比率来判断垃圾评论