석사 논문을 쓸 당시 Doc2Vec 알고리즘을 사용하기 위해 text 데이터를 수집해 전처리 과정을 진행해야했다. 이때 가장 필요했던 것 중 하나가 적절한 함수와 그때그때 상황에 맞는 정규표현식. 정작 논문 쓸 당시에는 정규표현식을 잘 몰라서 시간을 굉장히 비효율적으로 사용할 수 밖에 없었는데, 지금도, 앞으로도 text 데이터는 쓸 일이 많기 때문에 한 번 정리해두려고 한다. base함수 와 stringr 패키지 함수 는 유사한 점이 많으므로 함께 정리한다.다만 stringr 패키지에 있는 함수명들이 직관적인 경우가 많아 개인적으로 더 선호하는 편이지만패키지 설치가 어려운 환경(회사 내부 서버 등)를 대비해 둘 다 정리한다. pattern이 있는 문자 찾기 grep(pattern, x, ...) : 기..