python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解

  

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

  

输入:我今天赚了10个亿,老百姓非常高兴。

  

输出:我今天赚了10个亿,老百姓非常高兴。

  

代码         def clean_space(文本):   ”“”“   处理多余的空格   ”“”   match_regex=re.compile (u ' [\ u4e00——\ \ u9fa5。::《》, \ (\) ()) {1} + (& # 63; & lt; ! [a-zA-Z]) | \ d + + | + \ d + | (a - z - z) + ')   should_replace_list=match_regex.findall(文本)   order_replace_list=排序(should_replace_list关键=λ我:len(我),反向=True)   因为我在order_replace_list:   如果我==u ' ':   继续   new_i=i.strip ()   文本=text.replace(我new_i)   返回文本      

python去除英文单词之间多余的空格

  

再保险。子(“+”、“s)

        进口再保险      s=毙畔⒈环⑾?+/- 100页,4.5 mb pdf格式文件)现在我必须等待直到我们的组长处理,学习html。”   re.sub (“+”、“s)      

' ' . join (s.split ())

        s=毙畔⒈环⑾?+/- 100页,4.5 mb pdf格式文件)现在我必须等待直到我们的组长处理,学习html。”      s=' ' . join (s.split ())   s      

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接

python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解