在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:
输入:我今天赚了10个亿,老百姓非常高兴。
输出:我今天赚了10个亿,老百姓非常高兴。
代码
def clean_space(文本): ”“”“ 处理多余的空格 ”“” match_regex=re.compile (u ' [\ u4e00——\ \ u9fa5。::《》, \ (\) ()) {1} + (& # 63; & lt; ! [a-zA-Z]) | \ d + + | + \ d + | (a - z - z) + ') should_replace_list=match_regex.findall(文本) order_replace_list=排序(should_replace_list关键=λ我:len(我),反向=True) 因为我在order_replace_list: 如果我==u ' ': 继续 new_i=i.strip () 文本=text.replace(我new_i) 返回文本
python去除英文单词之间多余的空格
再保险。子(“+”、“s)
进口再保险 s=毙畔⒈环⑾?+/- 100页,4.5 mb pdf格式文件)现在我必须等待直到我们的组长处理,学习html。” re.sub (“+”、“s)
' ' . join (s.split ())
s=毙畔⒈环⑾?+/- 100页,4.5 mb pdf格式文件)现在我必须等待直到我们的组长处理,学习html。” s=' ' . join (s.split ()) s
更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接