데이터 가지고 놀기

  • 홈
  • 태그
  • 방명록

CheatSheet 1

[R] 비정형(텍스트) 데이터 전처리를 위한 함수

석사 논문을 쓸 당시 Doc2Vec 알고리즘을 사용하기 위해 text 데이터를 수집해 전처리 과정을 진행해야했다. 이때 가장 필요했던 것 중 하나가 적절한 함수와 그때그때 상황에 맞는 정규표현식. 정작 논문 쓸 당시에는 정규표현식을 잘 몰라서 시간을 굉장히 비효율적으로 사용할 수 밖에 없었는데, 지금도, 앞으로도 text 데이터는 쓸 일이 많기 때문에 한 번 정리해두려고 한다. base함수 와 stringr 패키지 함수 는 유사한 점이 많으므로 함께 정리한다.다만 stringr 패키지에 있는 함수명들이 직관적인 경우가 많아 개인적으로 더 선호하는 편이지만패키지 설치가 어려운 환경(회사 내부 서버 등)를 대비해 둘 다 정리한다. pattern이 있는 문자 찾기 grep(pattern, x, ...) : 기..

데이터분석가/Coding 2019.01.14
이전
1
다음
더보기
프로필사진

데이터 가지고 놀기

이것저것 조금씩 찍먹하는 호기심이 아직 살아있는 데이터 가지고 노는 애

  • 분류 전체보기 (7)
    • 데이터분석가 (2)
      • ADP & ADsP (1)
      • Coding (3)
    • 리뷰 (1)
    • Insight (0)
    • Algorithm (0)
      • Machine Learning (0)
      • Reinforcement Learning (0)
    • 프로젝트 (0)

Tag

Python, ADsP, ADsP후기, text mining, googleappsscript, calendar, R, 정규표현식, Spreadsheet, regex, gas, 대한민국휴일, regularexpression, 비정형데이터, CheatSheet, 공휴일,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바