Detecting Nearly Duplicated Records in Location Datasets

07 Apr 2020 in Data Science on Paper

Detecting Nearly Duplicated Records in Location Datasets

지리 데이터셋에서 중복레코드 검출하기
ACM 2010에 게재됨

Continue reading

zeppelin 설치하기

17 Mar 2020 in Data Science on Hadoop

구축한 hadoop ecosystem에 zeppelin을 추가해보자.
zeppelin은 hadoop에 밀어넣은 데이터를 spark로 분석하고 시각화해주는 역할을 할 것이다.

Continue reading

sqoop 설치하기

17 Mar 2020 in Data Science on Hadoop

sqoop은 RDBMS to HADOOP 혹은 HADOOP to RDBMS를 쉽게 해주는 어플리케이션이다.
이러한 sqoop을 어떻게 설치하고 어떻게 실행하는지 알아보자.

Continue reading

singleton pattern (싱글톤 패턴)

17 Mar 2020 in Programming on Design Pattern

싱글톤패턴은 개인적으로 생각하기에는 개발자가 개발하면서 가장 많이 사용하게되고 가장 기본적인 디자인패턴인것같다.
싱글톤패턴에 대해 알아보자.

Continue reading

show and tell

17 Mar 2020 in Data Science on Paper

Show and Tell: A Neural Image Caption Generator

구글에서 2015 CVPR에서 발표한 논문. 말그대로 SHOW AND TELL(그림을 보고 뭔그림인지 말함).
Image Captioning에 대한 논문이다.
그림을 CNN에 넣어서 벡터화한다음에 그걸 RNN에 넣어서 decoding해서 caption을 생성함.

Continue reading

자주쓰는 Docker 명령어 정리

17 Mar 2020 in Programming on DevOps

docker build

이미지를 빌드한다

Continue reading

디렉토리 구조를 트리형태로 확인

17 Mar 2020 in Etc on etc

디렉토리 구조를 트리형태로 확인해보자

Continue reading

spark 클러스터링 모드로 분산처리하기

27 Jan 2020 in Data Science on Spark

여러 서버에 spark 설치하고 데이터를 분석하려면 spark를 클러스터로 묶어줘야한다.
아래와 같이 각 서버의 spark 환경설정파일을 수정하면 여러대의 spark를 cluster로 묶을 수 있다.
(반드시 묶고자하는 모든 서버의 spark 환경설정파일 모두 수정 )

Continue reading