Using Random Forest Classifiers to Detect Duplicate Gazetteer Records (IEEE 2012)
in Data Science on Paper
Using Random Forest Classifiers to Detect Duplicate Gazetteer Records
IEEE에 2012년 발표된 논문.
중복검출에 Random forest 사용함.
스페인어?로 쓰여있어서 abstract민 겨우봤고..
result 표만 건짐;;
Author
Bruno Martins, Helena Galhardas e Nelson Gonçalves Technical University of Lisbon and INESC-ID
Av. Professor Cavaco Silva, 2744-016 Porto Salvo, Portugal
Abstract
장소명의 semantic relationship(의미 관계), place type(장소 유형), geospatial footprints울 통해 계산한 유사도 점수를 조합한 feature vector를 사용하여 Random Forest를 학습시켰고, 97.45%의 정확도를 얻었다.
(i) 이름의 유사성, (ii) 지형 공간 발자국 사이의 유사성, (iii) 유형 간의 유사성, (iv) 의미 관계 사이의 유사성, (v) 시간 간격 사이의 유사성. 을 feature로 사용한다.
Result