Using Twitter to Predict When Vulnerabilities will be Exploited
in Data Science on Paper
Using Twitter to Predict When Vulnerabilities will be Exploited
Twitter를 사용한 취약성 공격 시기 예측
Abstract
When a new cyber-vulnerability is detected, a Common Vulnerability and Exposure (CVE) number is attached to it. Malicious “exploits” may use these vulnerabilities to carry out attacks. Unlike works which study if a CVE will be used in an exploit, we study the problem of predicting when an exploit is first seen. This is an important question for system administrators as they need to devote scarce resources to take corrective action when a new vulnerability emerges. Moreover, past works assume that CVSS scores (released by NIST) are available for predictions, but we show on average that 49% of real world exploits occur before CVSS scores are published. This means that past works, which use CVSS scores, miss almost half of the exploits. In this paper, we propose a novel framework to predict when a vulnerability will be exploited via Twitter discussion, without using CVSS score information. We introduce the unique concept of a family of CVE-Author-Tweet (CAT) graphs and build a novel set of features based on such graphs. We define recurrence relations capturing “hotness” of tweets, “expertise” of Twitter users on CVEs, and “availability” of information about CVEs, and prove that we can solve these recurrences via a fix point algorithm. Our second innovation adopts Hawkes processes to estimate the number of tweets/retweets related to the CVEs. Using the above two sets of novel features, we propose two ensemble forecast models FEEU (for classification) and FRET (for regression) to predict when a CVE will be exploited. Compared with natural adaptations of past works (which predict if an exploit will be used), FEEU increases F1 score by 25.1%, while FRET decreases MAE by 37.2%.
새로운 사이버 취약성이 감지되면 CVE 번호가 첨부된다. 악의적인 공격을 수행하기 위해 이러한 취약성을 이용할 수 있다. CVE를 공격 사용할지 여부를 연구하는 작업과는 달리, 우리는 공격이 처음 보이는 시점을 예측하는 문제를 연구한다. 새로운 취약성이 나타날 때 시정조치를 취하기 위해 부족한 자원을 투입할 필요가 있기 때문에 시스템 관리자에게 중요한 과제. 또한, 과거의 연구에서는 CVSS 점수(NIST에서 발표한 것)를 예측에 사용할 수 있다고 가정하지만, 우리는 평균적으로 CVSS 점수가 발표되기 전에 실제 세상의 악용 중 49%가 발생한다는 것을 보여준다. CVSS 점수를 이용한 과거 작품들이 절반에 가까운 위업을 놓치고 있다는 얘기다. 본 논문에서는 CVSS 점수 정보를 사용하지 않고 트위터 토론을 통해 취약성이 악용될 시기를 예측하는 새로운 프레임워크를 제안한다. 우리는 CVE-Author-Tweet(CAT) 그래프군의 독특한 개념을 소개하고 그러한 그래프를 바탕으로 한 새로운 특징 집합을 구축한다. 우리는 트윗의 “핫니스”, CVE에서 트위터 사용자의 “전문가” 및 CVE에 관한 정보의 “이용가능성”을 포착하는 재발 관계를 정의하고, 고정점 알고리즘을 통해 이러한 재발 문제를 해결할 수 있음을 증명한다. 우리의 두 번째 혁신은 Hawkes 프로세스를 채택하여 CVE와 관련된 트윗/레트윗의 수를 추정한다. 위의 두 가지 새로운 특징을 사용하여, 우리는 CVE가 이용될 시기를 예측하기 위해 FEEU(분류용)와 FRET(회귀용) 두 개의 앙상블 예측 모델을 제안한다. 과거 작품의 자연적 적응(공격성 이용 여부를 예측)과 비교하면 FEEU는 F1 점수를 25.1% 증가시키고 FRET는 MAE를 37.2% 감소시킨다.