<Hive> 하이브

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

내가 보려고 만든 블로그

<Hive> 하이브 본문

Data Engineering/Hadoop eco ( Hadoop, hive 등등)

<Hive> 하이브

정의김 2022. 10. 11. 21:18

등장 배경:

빅데이터 개념이 등장하면서 일단 데이터를 Data Lake에 던지고 보는 환경이 만들어짐. 이렇게 스키마 없이 저장된 데이터들을 편하게? 가져오기 위해 하이브가 등장하게 됨.

1. 하이브의 가장 큰 특징은 메타스토어에 스키마를 정의하고 저장된 데이터에 스키마를 입힐 수 가 있다.

2. 하이브 테이블에서 쿼리를 통해 데이터를 가져올때 파티션을 안걸면 혼쭐이 나는 경우가 많은데하이브 쿼리에서는 select * from where today ='20221010' 와 같이 컬럼처럼 사용하는 경우가 많지만 실제로 테이블에 컬럼으로 존재하는 것이 아니라 폴더 혹은 디렉토리가 파티션이 된다. 위 사진은 파티션이 today로 지정되있고 today = 20221010 이라는 파티션안에 000000_0 과 000000_0_copy_1 이라는 버킷이 보인다. (파일을 버킷이라고 함 하이브에서)

3. HIVEQL

sql과 거의 유사하지만 hdfs는 한 번 저장한 파일을 수정할 수 없기 때문에 update, Delete 등 사용이 불가능하며 insert를 할 때에도 덮어쓰기만 가능하다고 한다.

4. External table 과 managed table

External table은 hdfs에 존재하고 있는 파일에 대해 스키마를 입혀 실제 테이블 처럼 사용하는 것이다.( 파일이 생기지 않는다 추가적으로)

반면 , Managed table 은 생성하게 되면 default 설정 기준 hive/warehouse 라는 곳에 테이블이 생성되게 된다.