Detecting Nearly Duplicated Records in Location Datasets
in Data Science on Paper
Detecting Nearly Duplicated Records in Location Datasets
지리 데이터셋에서 중복레코드 검출하기
ACM 2010에 게재됨
in Data Science on Paper
지리 데이터셋에서 중복레코드 검출하기
ACM 2010에 게재됨
in Data Science on Hadoop
구축한 hadoop ecosystem에 zeppelin을 추가해보자.
zeppelin은 hadoop에 밀어넣은 데이터를 spark로 분석하고 시각화해주는 역할을 할 것이다.
in Data Science on Hadoop
sqoop은 RDBMS to HADOOP 혹은 HADOOP to RDBMS를 쉽게 해주는 어플리케이션이다.
이러한 sqoop을 어떻게 설치하고 어떻게 실행하는지 알아보자.
in Programming on Design Pattern
싱글톤패턴은 개인적으로 생각하기에는 개발자가 개발하면서 가장 많이 사용하게되고 가장 기본적인 디자인패턴인것같다.
싱글톤패턴에 대해 알아보자.
in Data Science on Paper
구글에서 2015 CVPR에서 발표한 논문. 말그대로 SHOW AND TELL(그림을 보고 뭔그림인지 말함).
Image Captioning에 대한 논문이다.
그림을 CNN에 넣어서 벡터화한다음에 그걸 RNN에 넣어서 decoding해서 caption을 생성함.
in Programming on DevOps
docker build
이미지를 빌드한다
디렉토리 구조를 트리형태로 확인해보자
in Data Science on Spark
여러 서버에 spark 설치하고 데이터를 분석하려면 spark를 클러스터로 묶어줘야한다.
아래와 같이 각 서버의 spark 환경설정파일을 수정하면 여러대의 spark를 cluster로 묶을 수 있다.
(반드시 묶고자하는 모든 서버의 spark 환경설정파일 모두 수정 )