AI 훈련 데이터셋에서 발견된 보안 위협과 예방 전략

대규모 데이터 유출: AI 훈련 데이터셋에서 12,000개 비밀정보 노출

최근 사이버보안 연구자들이 AI 훈련에 사용된 데이터셋에서 수천 개의 로그인 자격증명과 비밀 정보들이 발견되었다고 합니다. 특히, 이 데이터셋은 Common Crawl이라는 비영리 조직이 제공하는 것으로, 방대한 웹 데이터의 아카이브를 무료로 접근할 수 있게 하는데요. 이 아카이브는 매달 수 페타바이트의 웹 데이터를 추가하며, 현재 약 250 페타바이트에 달한다고 합니다.

발견된 비밀 정보들

최근 Truffle Security 연구자들은 2.67억 개의 웹 페이지에서 약 400 테라바이트의 데이터를 분석했으며, 약 12,000개의 유효한 비밀정보(API 키, 비밀번호 등)가 하드코딩된 것을 발견했습니다. 이들 중 대다수는 AWS, MailChimp, WalkScore와 관련되었습니다. 특히 MailChimp의 경우, 거의 1,500개의 API 키가 프런트엔드 HTML과 JavaScript에 하드코딩되어 있는 것으로 드러났습니다.

개발 중 보안의식 부족

개발자가 개발 과정 중 편의를 위해 로그인 자격증명과 비밀정보를 코드 안에 남겨두는 경우가 많습니다. 문제는 이들이 종종 이 정보를 제거하는 것을 잊어버려 악의적인 행위자들이 이를 악용할 수 있는 뒤통로를 제공하게 된다는 겁니다. 트러플 팀에 따르면, 이러한 실수로 인해 악의적인 행위자들이 매우 쉽게 비밀 정보를 찾을 수 있다고 경고하고 있습니다.

LLM의 사용과 잠재적 위험

이보다 큰 문제는 Common Crawl의 아카이브가 OpenAI나 DeepSeek, Google, Meta 등의 주요 대형 언어 모델(LLM)의 훈련에 사용된다는 점입니다. 이러한 LLM은 원시 데이터가 아닌 민감한 정보를 걸러낸 데이터를 사용하지만, 얼마나 효과적으로 필터링이 이루어지는지는 여전히 의문입니다.

트러플 시큐리티는 영향 받은 벤더들에게 연락하여 손상된 키를 철회할 수 있도록 도움을 주고 있다고 합니다.

우리의 생각

이 사건은 IT 업계에 중요한 교훈을 남깁니다. 특히, 사이버 보안의 중요성과 코드 관리의 철저함을 강조하는데요. 문제를 사전에 방지할 수 있는 가장 좋은 방법은 개발 초기 단계부터 보안을 최우선시하는 것입니다. 이번 누출 사례는 개발자뿐만 아니라 AI 모델을 훈련시키는 조직들에게도 경각심을 불러일으킵니다.

이번 기사가 조금이나마 보안의 중요성을 인식시키는 계기가 되었길 바랍니다. 앞으로도 업데이트 소식과 방법들을 놓치지 않기 위해 저희 블로그를 자주 찾아주세요!