주말에 별생각 없이 인터넷을 뒤적이다가 좀 묘한 글을 하나 읽었습니다. AI 얼굴인식 기술이 어떤 사진들로 만들어지는지 추적하는 프로젝트였는데, 읽다 보니 남 얘기가 아니더군요. 오늘은 그 이야기를 좀 해보려고 합니다.
시작은 단순한 호기심이었습니다
요즘 AI가 얼굴을 참 잘 알아봅니다. 사진첩이 알아서 친구별로 사진을 묶어주고, 공항에서도 얼굴로 통과하고요. 그게 어떻게 가능한 건지 한 번도 진지하게 생각해본 적이 없었습니다. 그냥 똑똑하니까 되는 거겠거니 했지요.
그런데 원리는 의외로 사람과 비슷했습니다. 아기가 사람 얼굴을 익히는 과정과 똑같습니다. 더 많은 사람의, 더 다양한 각도와 표정과 조명의 사진을 봐야 잘 구분하게 됩니다. 그래서 AI를 만드는 회사나 연구실은 얼굴 사진을 어마어마하게 모읍니다. 구글은 2억 장, 페이스북은 5억 장을 썼다고 합니다. 숫자가 너무 커서 감도 안 옵니다.
여기서 제 호기심은 자연스럽게 다음 질문으로 넘어갔습니다. 그 사진들 다 어디서 났을까?
답이 좀 불편했습니다
답은 이렇습니다. 일단 사람 이름 명단을 쫙 만듭니다. 그다음 그 이름을 구글 이미지 검색에 넣고, 나오는 사진을 한 명당 수십 장씩 자동으로 내려받습니다. 그게 끝입니다. 그렇게 모은 얼굴로 AI를 학습시키는 것이지요.
제가 본 게 두 개의 데이터 묶음이었는데, 하나는 마이크로소프트가 2016년에 만든 것입니다. 무려 천만 장 가까운 얼굴이 들어 있었습니다. 다른 하나는 그걸 본떠서 더 크게 만든 것이었는데, 사진이 2억 6천만 장이라고 합니다. 재밌는 건 두 번째 데이터의 이름 명단 절반이 첫 번째에서 그대로 가져온 거라는 점이었습니다. 한번 만들어진 명단이 계속 다음 데이터로 굴러가는 구조더군요.
명단을 "셀럽 명단"이라고 부르긴 하는데, 막상 들여다보면 우리가 아는 할리우드 배우만 있는 게 아닙니다. 기자, 작가, 활동가, 교수처럼 그냥 직업상 온라인에 이름이 좀 떠 있는 사람들이 잔뜩 섞여 있습니다. 본인들은 자기 얼굴이 거기 들어간 줄도 몰랐을 겁니다. 누가 동의를 구한 적이 없으니까요.
기술은 좋아졌는데, 찜찜한 건 그대로
그래도 발전이 없지는 않았습니다. 검색으로 사진을 긁으면 엉뚱한 사람이 섞여 들어가기 마련인데, 옛날 데이터는 그게 절반이나 됐다고 합니다. "김철수" 폴더에 다른 김철수가 잔뜩 들어 있는 셈입니다. 요즘 건 AI가 알아서 잘못된 사진을 걸러내서 오류가 10% 아래로 떨어졌습니다.
근데 솔직히 그게 핵심은 아닌 것 같습니다. 사진을 더 깔끔하게 정리했다는 거지, 애초에 동의 없이 긁어왔다는 사실 자체는 똑같습니다. 검색에 뜨는 사진은 대부분 사진작가나 스톡 사진 회사 소유라 저작권 문제도 그대로입니다. 한번 인터넷에 풀린 데이터는 회수도 안 됩니다. 원본을 만든 회사가 "이제 그만 쓸게요" 하고 사이트를 닫아도, 이미 받아간 사본이 전 세계 하드디스크에 흩어져서 계속 돌아다닙니다.
좋아진 건 정리 기술이고, 그대로인 건 사람 마음 같은 것입니다. 동의를 안 구한다는 점, 남의 사진을 쓴다는 점, 한번 퍼지면 못 거둔다는 점.
약간 신경 쓰이기 시작..
읽고 나니까 제 인스타가 떠올랐습니다. 블로그에 올린 셀카와 여행 사진도 같이요. 제가 무슨 유명인은 아니지만, 온라인에 이름과 얼굴이 같이 노출된 적이 한두 번이 아닙니다. 명단 만드는 기준이 "검색에 나오느냐"라면, 솔직히 저도 안전지대는 아닌 것 같았습니다.
당장 뭘 어떻게 할 수 있냐고 하면, 사실 별로 없습니다. 이미 올린 사진을 다 지운다고 흔적이 사라지는 것도 아닙니다. 그냥 앞으로 사진 올릴 때 한 번 더 생각하게 됐다는 정도입니다. 공개 계정과 비공개 계정을 좀 나눠 쓰게 됐고, 얼굴 정면이 너무 또렷하게 나온 사진은 한 번 더 망설이게 되더군요.
한 가지 알아둬서 나쁠 게 없는 건, 한국에서는 얼굴 같은 생체정보를 개인정보보호법에서 좀 더 민감하게 다룬다는 점입니다. 그렇다고 외국 회사가 긁어간 데이터까지 다 막아주진 못하지만, 적어도 국내에서 내 동의 없이 얼굴 데이터를 쓰는 건 문제 삼을 여지가 있습니다.
오늘의 결론 아닌 결론
거창하게 마무리하긴 좀 그렇습니다. 그냥 주말에 글 한 편 읽고 "아, 내 얼굴도 어딘가 데이터 더미에 섞여 있을 수 있겠구나" 하고 처음으로 실감한 하루였습니다. 무섭다기보단, 평소에 너무 무심했구나 싶었습니다.
오늘부터 사진 올릴 때 0.5초만 더 생각해볼 수 있다는 것, 요즘 얼굴인식 기술의 토대가 어디서부터 발전했는지 지식의 폭을 한층 더 넓히게 된 시간이였습니다.
오늘 나온 약어 뜻풀이
- AI (Artificial Intelligence, 인공지능): 사람처럼 학습하고 판단하도록 만든 컴퓨터 기술. 여기서는 얼굴을 알아보는 얼굴인식 AI를 말합니다.
- MS-Celeb-1M (MS1M): 마이크로소프트(MS)가 2016년에 공개한 셀럽(Celebrity) 얼굴 데이터로, 약 천만(1M) 장 규모라 이런 이름이 붙었습니다. 이 글에서 말한 "첫 번째 데이터"입니다.
- WebFace260M: 위 데이터를 본떠 더 크게 만든 얼굴 데이터로, 사진이 2억 6천만(260M) 장이라 이런 이름입니다. "두 번째 데이터"가 이것입니다.
- IMDB (Internet Movie Database): 영화·배우 정보를 모아둔 유명 사이트. 데이터 만들 때 인물 이름 명단을 여기서 많이 가져왔습니다.
- 데이터셋 (Dataset): AI를 학습시키려고 모아둔 데이터 묶음. 여기서는 얼굴 사진 모음을 뜻합니다.
참고로 M은 영어 million, 즉 백만을 뜻하는 약자입니다. 1M은 백만, 260M은 2억 6천만쯤 된다고 보면 됩니다.