구글이 AI의 힘으로 파일 형식을 정확히 식별하는 툴 "Magika"를 오픈소스로 공개

구글 연구팀이, AI의 힘을 활용해 파일 형식을 빠르고 효율적으로 식별하는 도구 "Magika"를 개발해 오픈소스로 공개했는데, Magika는 99% 이상의 정밀도로 바이너리나 텍스트의 파일 타입을 검출해, CPU 상에서도 밀리초 이내에 실행할 수 있다고 한다.

 


현대 사회는 인터넷이나 컴퓨터 없이는 성립되지 않으며, 악의적인 공격자로부터 사용자를 보호하는 사이버 보안의 중요성은 그 어느 때보다 커지고 있지만, 사이버 보안의 큰 과제가 되고 있는 것이 "공격자는 단 하나의 취약성을 찾아 공격하면 되지만, 방어 측은 디지털 영역 전체에서 항상 최선의 방어책을 펼쳐야 한다"는 점. 사이버 공간은 공격자에게 유리한 상황이 되고 있어, 방어측은 대부분의 경우, 이미 존재하는 위협을 경감하는 것 밖에 할 수 없다는 것.

Google Cloud의 최고 정보 보안 책임자인 필 베너블스 씨 등은, 이 "방어 측 딜레마"라고 불리는 상황을, AI의 힘으로 역전시킬 수 있다고 주장하고 있다.,베너블스 씨 등은 "AI는 위협 감지, 악성코드 분석, 취약점 감지 및 수정, 사고 대응에 있어 보안 전문가 및 방어 담당자의 작업을 확장할 수 있습니다"라고 말한다.

그래서 구글 연구팀은, 새로 AI를 이용해 파일 형식을 빠르고 효율적으로 식별하는 도구 "Magika"를 개발해 오픈소스로 공개.

 


악의적 공격자는, 악성코드나 악의적 코드를 삽입한 파일을 정상적인 파일로 위장해, 메일에 첨부해 보내거나 다운로드하도록 한다. 위험한 파일을 경유한 공격을 막는 첫 단계로서 파일 형식을 정확하게 식별하는 것이 필요.

지금까지, 컴퓨터가 파일 형식을 식별하기 위한 소프트웨어의 대부분은 사람의 손에 의한 휴리스틱한 커스텀 룰에 의존해 왔는데, 수동적인 접근은 시간이 오래 걸리고 오류도 발생하기 쉬워 악의적인 공격자의 대책에 대해 그다지 신뢰성이 높지 않다는 것.



이에 비해 Magika는, 고도로 최적화된 맞춤형 딥러닝 모델을 사용하여 매우 높은 정확도로 파일 형식을 식별할 수 있는 도구가 되고 있다. 또 모델 크기가 1MB로 억제돼 있기 때문에, CPU 상에서도 밀리초 단위로 파일을 식별할 수 있다고 연구팀은 설명한다.

아래의 그래프는, Exif Tool이나 File magik등의 툴과 Magika의 정밀도를 비교한 벤치마크 결과를 나타낸 것으로, Magika의 성능은 다른 툴을 능가하는 것을 알 수 있다.

 

https://opensource.googleblog.com/2024/02/magika-ai-powered-fast-and-efficient-file-type-identification.html


덧붙여, Magika로 식별 가능한 파일 형식과 그 정밀도는 공식 페이지로부터 확인할 수 있고, 연구팀에 따르면 Magika는 대부분의 파일 형식에서 99% 이상의 정확도를 자랑하고 있다고 한다.