프로그래밍 언어/파이썬

re 모듈의 sub 메소드 사용법

hyeseong-dev 2021. 11. 28. 16:04

 

# re.sub 함수의 형태
- `re.sub(pattern, repl, string, count=0, flags=0)`   == `re.sub('패턴, '바꿀 문자열', '문자열', '바꿀횟수')`
- cunt는 음수가 아닌 정수, count가 0 또는 생략이면 찾은 문자열을 모두 치환.

### sub함수를 통해 문자열 내의 특수문자를 제거 하기
- clean_text함수에서 입력 문자열 inputStirng에 대해 입력된 특수문자들을 찾아 ''공백으로 치환하여 변환된 문자열을 반환한다.




```python
import re

def clean_text(inputString):
    text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)
    return text_rmv

```

#### 특수문자가 포함된 문자열을 clean_text함수에 적용하여 결과를 확인하면 아래와 같다.


```python
input = '네덜란드 광장서 퍼진 "무궁화 꽃이 피었습니다" [포착]'
string = clean_text(input)
print(string)
```

    네덜란드 광장서 퍼진  무궁화 꽃이 피었습니다   포착
   

문자열 내에 포함된 특수문자들이 공백으로 치환된 것을 확인 할 수 있다.  
   
특수문자를 공백으로 치환하여 위에 출력된 문자열에는 공백의 위치에 여러개의 공백이 포함되어 있다.  
여러개의 공백을 제거하고 하나의 공백으로 나타내도록 split / join 함수를 이용해 clean_text함수에 코드를 추가한다.  

### split/ join [reference] `https://clolee.tistory.com/18`



```python
import re

def clean_text(inputString):
    text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)
    result = ' '.join(text_rmv.split())
    return result
```


```python
input = '네덜란드 광장서 퍼진 "무궁화 꽃이 피었습니다" [포착]'
string = clean_text(input)
print(string)
```

    네덜란드 광장서 퍼진 무궁화 꽃이 피었습니다 포착