데이터 라이선싱: AI 제품을 가로막는 진짜 제약
많은 AI 제품에서 가장 어려운 부분은 모델이 아니라 그 데이터를 애초에 써도 되는가입니다. 무엇이 만들어질지 조용히 결정하는 제약을 알기 쉽게 살펴봅니다.
전도유망하던 AI 제품이 멈춰 설 때, 그 원인은 모델이나 프롬프트, 예산이 아닌 경우가 많습니다. 그보다 더 조용한 문제, 즉 누군가 마침내 "이 제품이 의존하는 데이터를 지금의 목적에 법적으로 써도 되는가"를 묻고, 그 답이 "안 된다" 혹은 "복잡하다"로 돌아오는 경우입니다. 데이터 라이선싱은 무엇이 실제로 출시될 수 있는지를 무대 뒤에서 결정하는 제약입니다. 이 글은 AI 제품을 만들거나 평가하는 분들을 위해 그 주제를 알기 쉽게 풀어낸 것이며, 법률 자문을 대신하지는 않습니다.
라이선싱이 결정적 제약인 이유
오늘날의 AI 기능은 데이터로 움직입니다. 학습용 말뭉치, 참고 문서, 실시간 피드, 이미지, 코드 등이 그렇습니다. 이들에는 각각 소유자와 이용 조건이 있습니다. 데이터를 기술적으로 쓸 수 있느냐는 결코 문제가 되지 않습니다. 피드를 복사하는 일은 별것 아니니까요. 진짜 문제는 그 조건이 당신의 구체적인 용도를 허용하느냐이며, 특히 그 용도가 상업적이거나 재배포를 수반할 때 그렇습니다.
함정은 기술적으로 쉬운 길과 법적으로 허용된 길이 종종 갈린다는 데 있습니다. API는 그 약관이 재게시를 금지하는 데이터라도 기꺼이 돌려줍니다. 데이터셋은 상업적 이용을 제한하는 라이선스가 걸려 있어도 깔끔하게 다운로드됩니다. "작동한다"와 "허용된다" 사이의 이 간극이야말로 제품이 뒤늦게, 그리고 값비싸게 취소되는 지점입니다.
실제로 중요한 질문들
AI 제품에 데이터를 공급하는 어떤 출처든, 그것을 쓸 수 있는지를 결정하는 네 가지 질문이 있습니다.
- 상업적 이용. 라이선스가 이 데이터로 만든 제품으로 돈을 버는 것을 허용하는가? 많은 공개 데이터셋은 연구용으로는 무료이지만 상업적 이용은 제한합니다.
- 재배포. 데이터를, 또는 그것에서 가깝게 파생된 무언가를 사용자에게 전달하는 것이 허용되는가? 유료 고객에게 피드를 보여주는 것은, "단지" 표시할 뿐이라도 재배포에 해당합니다.
- 2차적 저작물(파생물). 데이터를 변형하고 그 위에 무언가를 쌓아 올릴 수 있는가? 일부 라이선스는 이용은 허용하되 변형된 버전을 금지하거나, 파생물이 동일한 라이선스를 따르도록 요구합니다.
- 출처 표시와 동일조건변경허락. 출처를 밝혀야 하는가? 당신의 결과물도 동일한 조건으로 공개해야 하는가? 둘 다 흔한 조건이며, 간과하기 쉽고 나중에 끼워 맞추기는 까다롭습니다.
모든 출처에 대해 이 네 가지를 정직하게 답하면, 라이선싱과 관련된 뜻밖의 사고는 대부분 사라집니다.
흔한 라이선스 계열 읽기
모든 라이선스를 외울 필요는 없지만, 계열을 알아보는 것은 도움이 됩니다.
- 허용적(permissive) 오픈 라이선스(코드에서의 MIT나 Apache 등)는 상업적 이용을 포함해 폭넓은 사용을 허용하며, 대개 고지 사항을 유지하기만을 요구합니다. 가장 활용하기 쉬운 부류입니다.
- 카피레프트 / 동일조건변경허락(GPL 계열이나 Creative Commons ShareAlike 등)은 이용은 허용하되 파생물이 동일한 라이선스를 따르도록 요구합니다. 어떤 프로젝트에는 괜찮지만, 독점 제품에는 치명적입니다.
- 비상업 라이선스(CC BY-NC 등)는 이용은 허용하되 그것으로 돈을 버는 것은 금지합니다. 많은 제품이 이 조건에 조용히 걸려 탈락합니다.
- 모든 권리 보유 / 독점 약관, 대부분의 API 이용약관이 여기에 해당하며, 무엇을 할 수 있는지가 표준 라이선스가 아니라 계약서에 명시됩니다.
가장 흔한 단 하나의 실수는 "공개되어 있음"을 "자유롭게 써도 됨"으로 취급하는 것입니다. 보인다는 것은 라이선스가 아닙니다. 당신이 읽을 수 있는 페이지라도 여전히 모든 권리가 보유된 상태일 수 있습니다.
이용약관의 함정
API는 특별한 주의가 필요합니다. 그 약관이 명백해 보이는 용도와 어긋나는 경우가 많기 때문입니다. 데이터 API는 당신 계정이나 내부 용도로는 정보를 가져오는 것을 허용하면서도, 당신이 판매하는 제품 안에서 그 데이터를 재배포하는 것은 명시적으로 금지할 수 있습니다. 많은 창업자가 규모를 키우려 할 때에야 이를 발견합니다. 작은 규모에서는 아무도 확인하지 않기 때문이죠. 이용약관이 API의 진짜 라이선스입니다. 만들고 나서가 아니라 만들기 전에 읽으세요.
라이선싱이 AI와 만나는 지점
AI에 특유한 두 가지 주름은 짚어둘 만합니다.
- 학습 데이터의 출처. 데이터를 파인튜닝하거나 학습에 쓰면, 그 데이터의 라이선스가 당신이 만든 것에 따라붙을 수 있습니다. "그냥 찾은 걸로 학습했다"는 말은 점점 답을 요구받는, 그리고 위험한 주장이 되고 있습니다.
- 출력물과 하위 권리. 일부 모델·데이터 라이선스는 입력뿐 아니라 출력을 가지고 무엇을 할 수 있는지에도 조건을 둡니다. "모델이 만들어낸 것은 누구의 소유인가"라는 질문의 답은 모델과 그 뒤의 데이터, 양쪽의 조건에 달려 있습니다.
실무적인 작업 흐름
최악의 결과를 피하기 위해 변호사가 될 필요는 없습니다. 방어 가능한 절차는 이렇습니다.
- 모든 데이터 출처를 목록화하세요. 눈에 띄지 않는 것까지 포함해서요.
- 각 출처의 라이선스나 약관을 기록하세요. 링크와 함께 한곳에 모아둡니다.
- 네 가지 질문에 답하세요. 상업적 이용, 재배포, 파생물, 출처 표시/동일조건변경허락을 출처별로 따져봅니다.
- 비상업, 동일조건변경허락, 또는 API 약관의 지배를 받는 항목에 표시를 해두세요. 그 위에 무언가를 쌓기 전에 더 면밀히 검토하기 위해서입니다.
- 출시 전에 실제 법률 검토를 받으세요. 돈이나 재배포가 얽혀 있다면 더욱 그렇습니다. 이 단계는 비용 이상의 값어치를 합니다.
정리
많은 AI 제품에서 가장 중요한 제약은 기술적인 것이 전혀 아닙니다. 제품이 돌아가게 하는 데이터를 써도 되느냐, 바로 그것입니다. 능력은 늘 거기에 있지만 허락은 그렇지 않습니다. 라이선싱을 일급 설계 입력으로 다루세요. 출처를 목록화하고, 네 가지 질문을 던지고, "공개되어 있음"은 라이선스가 아님을 존중하세요. 그러면 가장 값비싼 종류의 뒤늦은 사고, 즉 다 완성해 놓고도 출시할 수 없는 제품을 피할 수 있습니다.
본 글은 일반 정보이며 법률 자문이 아닙니다. 구체적인 상황은 자격을 갖춘 변호사와 상담하시기 바랍니다.
