정규표현식 2

[R/Python] 정규표현식

정규표현식은 R 또는 Python에서만 사용하는 표현 방법이 아니라 기본적으로 프로그래밍에서 사용하게 된다. 가령, 어떤 사람의 정보가 홍길동 010-0000-0000 email@email.co.kr 와 같이 나뉜 text라면 email 주소를 찾아내고 싶을 때 쓸 수 있는 방법으로 정규표현식을 이용한 전처리 방법이 된다. R과 Python을 사용하고 있어 두 프로그램 상에서는 테스트 완료 후 글을 작성하였으나, 다른 프로그램에선 테스트하지 않았으므로 테스트가 필요할 수 있습니다. R에서 정규표현식(regex)를 사용하려면 아래 링크를 참조한다. [비정형 데이터 전처리를 위한 함수] 이 글에서는 Python을 기반으로 정규표현식을 적용해 나타나는 결과와 해석을 작성한다. 정규표현식 적용을 위해 기본 mo..

[R] 비정형(텍스트) 데이터 전처리를 위한 함수

석사 논문을 쓸 당시 Doc2Vec 알고리즘을 사용하기 위해 text 데이터를 수집해 전처리 과정을 진행해야했다. 이때 가장 필요했던 것 중 하나가 적절한 함수와 그때그때 상황에 맞는 정규표현식. 정작 논문 쓸 당시에는 정규표현식을 잘 몰라서 시간을 굉장히 비효율적으로 사용할 수 밖에 없었는데, 지금도, 앞으로도 text 데이터는 쓸 일이 많기 때문에 한 번 정리해두려고 한다. base함수 와 stringr 패키지 함수 는 유사한 점이 많으므로 함께 정리한다.다만 stringr 패키지에 있는 함수명들이 직관적인 경우가 많아 개인적으로 더 선호하는 편이지만패키지 설치가 어려운 환경(회사 내부 서버 등)를 대비해 둘 다 정리한다. pattern이 있는 문자 찾기 grep(pattern, x, ...) : 기..