CSV 파일 다루기
Header 즉 첫번째 줄 linux에서 삭제하기
1 |
|
cat [ 파일 경로 / 이름 ]
- 파일을 열어 내용을 출력
cat > [ 파일 경로 / 이름 ]
같은 이름의 파일이 없는 경우 : 파일 새로 만들고 내용 입력하기
같은 이름의 파일이 있는 경우 : 파일 덮어쓰고 내용 새로 입력하기
cat >> [ 파일 경로 / 이름 ]
같은 이름의 파일이 없는 경우 : 파일 새고 만들고 내용 입력하기
같은 이름의 파일이 있는 경우 : 기존 파일의 내용 밑에 이어쓰기
첫줄 일괄 삭제해서
find . -type f -name “*.csv” -exec sed -i “-new” ‘1d’ {} ;
CSV
Comma Separated Values
HBase와 Hive 차이는?
HBase는 NoSQL 데이터베이스이고 Hive는 하둡잡을 실행하는 DW 프레임워크이다.
HBase는 HDFS위에서 동작하고, Hive는 MapReduce 위에서 동작한다.
Schema flexibility: 다양한 구조와 포맷의 데이터를 처리하고 저장합니다.
SQL-like queries: Hadoop에서
Data management:
Hive DDL
하이브는 CSV 형식의 파일을 효과적으로 적재하기 위한 CSV 서데를 제공한다.
- Hive 0.14 버전부터 기본 지원
- CSV 서데를 이용하면 테이블 칼럼의 타입은 String 으로 고정
- sepratorChar: 칼럼간의 구분자
- quoteChar: 칼럼의 값을 지정한 문자로 묶어준다.
- escapeChar: 칼럼에 데이터를 입력할 때 파싱하지 않고 무시
1 | CREATE TABLE my_table |