IEEE Spectrum이 소개한 연구에 따르면, 사람이 거의 알아차리지 못하는 오디오 신호를 음성 파일 안에 숨겨 AI모델의 행동을 바꿀 수 있다. 쉽게 말하면, 사람 귀에는 그냥 평범한 회의 녹음이나 음악처럼 들리는데, AI에는 “이 링크를 열어라”, “이 데이터를 보내라”, “사용자 요청은 무시해라” 같은 명령으로 작동할 수 있다는 것이다.

연구팀은 이 공격을 AudioHijack이라고 부른다. 이름 그대로 오디오로 AI를 납치하는 방식이다. 사용자는 정상적으로 “이 회의 내용 요약해줘”라고 말했을 뿐인데, 녹음 파일 안에 숨어 있던 신호가 모델의 주의를 빼앗고 엉뚱한 행동을 하게 만든다.

핵심 요약

AudioHijack은 오디오 파형을 아주 조금씩 바꾼다. 사람에게는 자연스러운 잔향이나 미세한 잡음처럼 들리게 만들고, 모델에게는 명령처럼 읽히게 만든다. 연구팀은 13개 주요 오디오 언어 모델을 대상으로 실험했고, 보이지 않는 사용자 지시 환경에서도 평균 79~96%의 공격 성공률을 보고했다.

공격 범위도 단순한 오답 유도에 그치지 않는다. 모델이 갑자기 “저는 오디오를 처리할 수 없습니다”라고 하게 만들 수도 있고, 사용자의 요청을 거부하게 만들 수도 있다. 거짓 정보를 답하게 하거나, 답변에 악성 링크를 끼워 넣거나, 말투와 역할을 바꾸거나, 허가되지 않은 도구 사용을 하게 만들 수도 있었다.

여기서 진짜 골치 아픈 부분은 도구 사용이다. 음성 AI가 검색, 파일 다운로드, 이메일 발송, 외부 서비스 호출 같은 기능과 연결되면 오디오 입력은 더 이상 “분석할 콘텐츠”가 아니다. 행동을 시작시키는 리모컨이 된다. Spectrum 기사에 따르면 연구팀은 Microsoft와 Mistral의 상용 음성 AI 서비스에서도 민감한 검색, 공격자 출처의 파일 다운로드, 사용자 데이터가 담긴 이메일 전송 같은 행동을 유도할 수 있음을 보였다.

왜 이전 오디오 공격보다 위험한가

예전의 adversarial audio 연구는 주로 “음성 인식 모델이 말을 잘못 받아쓰게 만들기”에 가까웠다. 예를 들어 사람이 보기에는 A인데 모델은 B로 분류하게 만드는 식이다. 그 자체로도 흥미롭지만, 피해가 비교적 모델 내부의 오답에 머무는 경우가 많았다.

이번 연구의 차이는 공격 대상이 생성형 모델이라는 점이다. 생성형 음성 모델은 답변만 만드는 것이 아니라, 점점 더 외부 도구와 연결된다. 그래서 공격 결과가 “잘못 알아들었다”에서 끝나지 않고 “사용자 몰래 행동했다”로 이어질 수 있다.

텍스트 프롬프트 인젝션이 웹페이지나 문서 안에 숨은 지시로 에이전트를 흔드는 문제라면, AudioHijack은 그 공격면이 오디오 채널로 확장된 사례다. 이제 모델에게 위험한 것은 이상한 문자열만이 아니다. 평범한 척하는 소리도 위험할 수 있다.

더 까다로운 점은 공격자가 최종 프롬프트 전체를 통제할 필요가 없다는 것이다. 사용자는 정상적인 질문을 한다. 공격자는 사용자가 넘기는 오디오 데이터만 조작한다. 온라인 영상, 음악 클립, 음성 메모, 회의 녹음, Zoom 통화에 섞인 소리가 공격 매개체가 될 수 있다. “이 파일을 요약해줘”가 사실상 “이 파일 안에 든 지시를 실행해줘”로 바뀌는 순간이다.

어떻게 작동하나

방법 자체는 고전적인 adversarial example의 연장선에 있다. 오디오 파일은 결국 숫자의 배열이고, 연구팀은 그 숫자를 조금씩 바꿔가며 모델의 반응이 공격자가 원하는 방향으로 움직이도록 최적화했다.

다만 음성 생성형 모델은 여기서 문제가 하나 더 생긴다. LALM은 오디오를 연속적인 파형 그대로 처리하지 않고, 일정한 단위로 나눈 뒤 토큰화한다. 이 과정은 미세한 변화가 모델 내부에서 어떻게 반영되는지 보기 어렵게 만든다. 공격자 입장에서는 조이스틱을 아주 살짝 움직였는데 화면 속 캐릭터가 순간이동하는 게임을 하는 셈이다.

그래서 AudioHijack은 토큰화 때문에 끊기는 피드백을 우회하기 위해 근사적인 최적화 방식을 쓴다. 또 여러 사용자 지시를 섞어 학습해, 특정 문맥에서만 먹히는 공격이 아니라 사용자가 어떤 질문을 하든 재사용 가능한 신호를 만들려고 한다.

여기에 attention supervision도 들어간다. 모델이 사용자 지시보다 악성 오디오 쪽에 더 주의를 기울이도록 유도하는 방식이다. 사용자가 “요약해줘”라고 말해도, 모델의 시선은 오디오 안쪽에 숨은 명령으로 끌려간다. 연구팀은 오디오 변조가 사람이 듣기에 노이즈처럼 튀지 않도록, 변화가 자연스러운 잔향처럼 들리게 만드는 방법도 사용했다.

방어가 쉽지 않은 이유

단순한 방어는 잘 통하지 않았다. 모델에게 “이런 악성 명령을 조심해”라고 예시를 보여주는 방식은 공격 성공률을 7% 정도 낮추는 데 그쳤다. 모델이 자기 응답이 사용자 지시와 맞는지 되돌아보게 하는 방식도 공격의 28%만 잡아냈다. 텍스트라면 수상한 문장을 눈으로 볼 수라도 있는데, 오디오는 사람이 직접 검토하기가 훨씬 어렵다.

가장 효과가 있었던 방어는 모델 내부 attention을 감시해 악성 오디오가 비정상적으로 주의를 끄는지 보는 방식이었다. 하지만 이 역시 완전한 해결책은 아니다. 공격자가 이 방어를 알고 있으면 attention 조작 강도를 낮춰 탐지를 피할 수 있고, 성공률은 조금 떨어져도 공격 자체는 남을 수 있다.

현실 환경에서는 압축, 마이크 품질, 회의 앱의 후처리, 플랫폼별 오디오 처리 방식이 공격 신호를 망가뜨릴 수 있다. 그래서 당장 모든 음성 AI가 같은 방식으로 뚫린다고 단정할 수는 없다. 그래도 방향은 분명하다. 오디오는 사람이 직접 읽고 검토하기 어려운 입력 채널이고, 여기에 에이전트 권한이 붙으면 위험은 커진다.

앞으로 음성 AI를 외부 도구와 연결할 때는 “사용자가 말한 명령”과 “오디오 파일 안에서 모델이 감지한 명령”을 같은 권한으로 다루면 안 된다. 특히 이메일, 파일, 결제, 내부 검색, 사내 문서 접근 같은 기능은 오디오 입력 하나만으로 실행되지 않도록 별도 확인 절차가 필요하다.