python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解 - 行业资讯

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

输入:我今天赚了10个亿,老百姓非常高兴。

输出:我今天赚了10个亿,老百姓非常高兴。

代码　　　　　　def clean_space(文本): 　　”“”“ 　　处理多余的空格　　”“” 　　match_regex=re.compile (u ' [\ u4e00——\ \ u9fa5。::《》, \ (\) ()) {1} + (& # 63; & lt; ! [a-zA-Z]) | \ d + + | + \ d + | (a - z - z) + ') 　　should_replace_list=match_regex.findall(文本) 　　order_replace_list=排序(should_replace_list关键=λ我:len(我),反向=True) 　　因为我在order_replace_list: 　　如果我==u ' ': 　　继续　　new_i=i.strip () 　　文本=text.replace(我new_i) 　　返回文本　　　　

python去除英文单词之间多余的空格

再保险。子(“+”、“s)

　　　　　　进口再保险　　　　s=毙畔⒈环⑾?+/- 100页,4.5 mb pdf格式文件)现在我必须等待直到我们的组长处理,学习html。” 　　re.sub (“+”、“s) 　　　　

' ' . join (s.split ())

　　　　　　s=毙畔⒈环⑾?+/- 100页,4.5 mb pdf格式文件)现在我必须等待直到我们的组长处理,学习html。” 　　　　s=' ' . join (s.split ()) 　　s 　　　　

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接