본문 바로가기
IT박사

이탈리아, 챗GPT(ChatGPT) 개인 정보 보호 문제점으로 인한 규제!

by GDBS 2023. 4. 19.
반응형
728x170

챗GPT 개인 정보 보호 문제점

 최근 이탈리아에서 Open AI의 생성 텍스트 도구를 금지한 것은 챗GPT(ChatGPT)의 규제 문제의 시작일 수 있습니다. 

OpenAI가 2020년 7월 GPT-3를 출시했을 때  대규모 언어 모델을 교육하는 데 사용되는 데이터를 엿볼 수 있었습니다. 기술 문서 에 따르면 웹, Reddit 게시물, 책 등에서 스크랩한 수백만 페이지가 생성 텍스트 시스템을 만드는 데 사용됩니다  . 이 데이터에는 온라인에서 자신에 대해 공유하는 일부 개인 정보가 포함되어 있습니다. 이 데이터는 이제 OpenAI를 문제에 빠뜨리고 있습니다. 

연관글
빙챗 vs 챗GPT(GPT-4) 중 어떤 것이 더 좋은지 빙챗에게 물어봤더니...

 

이탈리아 챗GPT 규제

3월 31일, 이탈리아의 데이터 규제 기관은  OpenAI가 훈련 데이터에 포함된 수백만 명의 이탈리아인의 개인 정보 사용을 중단할 것을 요구하는 임시 긴급 결정을 내렸습니다 . 규제 기관인 Garante per la Protezione dei Dati Personali에 따르면 OpenAI는 챗GPT(ChatGPT)에서 사람들의 개인 정보를 사용할 법적 권리가 없습니다. 이에 대해 OpenAI는 추가 조사 중인 공무원에게 응답을 제공하는 동안 이탈리아 사람들이 챗봇에 액세스하는 것을 차단했습니다. 

반응형

 

이 조치는 서양 규제 기관이 챗GPT(ChatGPT)에 대해 취한 첫 번째 조치이며 종종 방대한 양의 인터넷 데이터에서 훈련되는 거대한 생성 AI 모델 생성에 대한 개인 정보 보호 긴장을 강조합니다. 아티스트 와  미디어 회사가 제너레이티브 AI 개발자가 자신의 작품을 무단으로 사용했다고 불평한 것처럼  데이터 규제 기관은 이제 사람들의 개인 정보에 대해 동일한 말을 하고 있습니다.

유사한 결정이 유럽 전역에서 뒤따를 수 있습니다. 이탈리아가 조사를 발표한 이후 프랑스,  ​​독일, 아일랜드 의 데이터 규제 기관 은 Garante에 연락하여 조사 결과에 대한 추가 정보를 요청했습니다. 개발을 모니터링하고 있는 노르웨이 데이터 보호 당국의 국제 책임자인 Tobias Judin은 "비즈니스 모델이 인터넷에서 찾을 수 있는 모든 것을 긁어모으는 것이라면 여기에 정말 중요한 문제가 있을 수 있습니다."라고 말합니다. Judin은 불법적으로 수집될 수 있는 데이터를 기반으로 모델이 구축되면 누구나 해당 도구를 합법적으로 사용할 수 있는지에 대한 의문을 제기한다고 덧붙입니다.

 

OpenAI에 대한 이탈리아의 타격은 대형 AI 모델에 대한 조사가 꾸준히 증가함에 따라 발생합니다. 3월 29일, 기술 리더들은  미래에 미칠 영향을 두려워하여 챗GPT(ChatGPT)와 같은 시스템 개발을 중단할 것을 촉구했습니다 . Judin은 이탈리아의 결정이 더 즉각적인 우려를 강조한다고 말합니다. "본질적으로 우리는 지금까지의 AI 개발이 잠재적으로 엄청난 단점을 가질 수 있음을 보고 있습니다."라고 Judin은 말합니다.


조직이 사람들의 개인 데이터를 수집, 저장 및 사용하는 방식을 다루는  유럽의  GDPR 규칙 은 대륙 전체에서 4억 명이 넘는 사람들의 데이터를 보호합니다. 이 개인 데이터는 사람의 이름에서 IP 주소에 이르기까지 무엇이든 될 수 있습니다. 누군가를 식별하는 데 사용될 수 있다면 개인 정보로 간주될 수 있습니다. 미국의 여러 주 수준의 개인 정보 보호 규칙과 달리 GDPR의 보호는 사람들의 정보를 온라인에서 자유롭게 사용할 수 있는 경우에 적용됩니다. 요컨대, 누군가의 정보가 공개되었다고 해서 정보를 비우고 원하는 대로 무엇이든 할 수 있다는 의미는 아닙니다.

이탈리아의 Garante는 챗GPT(ChatGPT)가 GDPR에 따라 네 가지 문제가 있다고 생각합니다. 정확하지 않은 사람들에 대한 정보를 제공할 수 있습니다. 그리고 사람들은 자신의 데이터가 수집되었다는 말을 듣지 못했습니다. 아마도 가장 중요한 것은 챗GPT(ChatGPT)를 교육하는 데 사용되는 방대한 양의 데이터에서 사람들의 개인 정보를 수집하는 데 "법적 근거가 없다"고 주장하는 네 번째 주장입니다.

영국 뉴캐슬 대학의 법, 혁신 및 사회학 교수인 릴리안 에드워즈는 “이탈리아인들은 허세를 부리고 있습니다. "EU에서는 이것이 데이터 보호법 위반이라는 것이 꽤 명백해 보였습니다."

대체로 회사가 GDPR에 따라 사람들의 정보를 수집하고 사용 하려면 누군가가 권한을 부여하는 것부터 계약의 일부로 필요한 정보에 이르기까지 6가지 법적 정당성 중 하나 에 의존해야 합니다  . Edwards는 이 경우 본질적으로 두 가지 옵션이 있다고 말합니다. OpenAI가 하지 않은 사람들의 동의를 얻거나 사람들의 데이터를 사용하는 데 "합법적인 이익"이 있다고 주장하는 것은 "매우 어렵습니다"라고 Edwards는 말합니다. Garante는 WIRED에 이 방어가 "부적절"하다고 생각한다고 말했습니다.

OpenAI의  개인 정보 보호 정책은 교육 데이터에서 사람들의 개인 정보를 사용하는 법적 이유를 직접 언급하지 않지만 서비스를 "개발"할 때 "합법적인 이익"에 의존한다고 말합니다. 회사는 WIRED의 논평 요청에 응답하지 않았습니다. OpenAI는 GPT-3와 달리 챗GPT(ChatGPT)에 들어간 학습 데이터에 대한 세부 정보를 공개하지 않았으며  GPT-4는 몇 배 더 클 것으로 생각 됩니다  .

그러나  GPT-4의 기술 문서에는 개인 정보 보호 섹션이 포함되어 있는데, 여기에는 훈련 데이터에 여러 출처에서 제공되는 "공개적으로 사용 가능한 개인 정보"가 포함될 수 있다고 나와 있습니다. 이 논문은 OpenAI가 사람들이 개인 정보를 요구하는 것을 막고 "가능한 경우" 훈련 데이터에서 사람들의 정보를 제거하는 "미세 조정" 모델을 포함하여 사람들의 개인 정보를 보호하기 위한 조치를 취한다고 말합니다.

"정규 알고리즘에서 매우 정교한 AI에 이르기까지 모든 분야에서 사용하기 위해 교육 데이터 세트를 위해 데이터를 합법적으로 수집하는 방법은 지금 해결해야 하는 중요한 문제입니다. 끝났습니다.”라고 법률 회사 Loeb and Loeb의 파트너인 Jessica Lee는 말합니다.

Replika 챗봇에 대한 이탈리아 규제 기관의 조치는  OpenAI의 데이터 관행을 조사하는 많은 사례 중 첫 번째가 될 가능성이 있습니다. GDPR을 통해 유럽에 기반을 둔 회사는 모든 불만 사항을 처리할 한 국가를 지정할 수 있습니다. 예를 들어 아일랜드는 Google, Twitter 및 Meta와 거래합니다. 그러나 OpenAI는 유럽에 기반을 두고 있지 않습니다. 즉, GDPR에 따라 모든 개별 국가가 OpenAI에 대해 불만을 제기할 수 있습니다. 

챗GPT 학습 모델 데이터

OpenAI는 혼자가 아닙니다. 전문가들은 이탈리아 규제 기관이 제기한 많은 문제가 기계 학습 및 생성 AI 시스템의 모든 개발의 핵심에 영향을 미칠 가능성이 있다고 말합니다. EU는  AI 규정을 개발하고 있지만, 지금까지 프라이버시와 관련하여 기계 학습 시스템 개발에 대해 취한 조치는 비교적 거의 없었습니다.

옥스퍼드 AI 윤리 연구소의 수석 연구원이자 데이터 관행에 관한 저자인 Elizabeth Renieris는 "이 기술의 구성 요소의 기초에는 이러한 부패가 있습니다. 그리고 저는 그것을 치료하기가 매우 어려울 것이라고 생각합니다."라고 말했습니다  . 그녀는 기계 학습 시스템 교육에 사용되는 많은 데이터 세트가 수년 동안 존재해 왔으며 이를 통합할 때 개인 정보 보호 고려 사항이 거의 없었을 가능성이 있다고 지적합니다. 



Renieris는 "데이터가 궁극적으로 GPT-4와 같은 방식으로 전달되는 방식에 대한 계층화와 복잡한 공급망이 있습니다."라고 말합니다. "설계상 또는 기본적으로 어떤 유형의 데이터 보호도 없었습니다." 2022년, 10년 동안 AI 모델 훈련을 도운 널리 사용되는 이미지 데이터베이스의 작성자는  데이터 세트에서  사람들의 얼굴 이미지를 흐리게 처리해야 한다고 제안했습니다.

유럽과 캘리포니아에서는 개인 정보 보호 규칙을 통해 정보가 정확하지 않은 경우 정보를 삭제 하거나  수정하도록 요청할 수 있습니다  . 그러나 부정확하거나 누군가가 원하지 않는 것을 AI 시스템에서 삭제하는 것은 간단하지 않을 수 있습니다. 특히 데이터의 출처가 불분명한 경우에는 더욱 그렇습니다. Renieris와 Edwards는  GDPR이 사람들의 권리를 옹호하는 것을 포함하여 장기적으로 이에 대해 무엇이든 할 수 있을지 의문을 제기합니다. Newcastle University의 Edwards는 "이렇게 매우 큰 언어 모델로 어떻게 그렇게 하는지에 대한 실마리가 없습니다."라고 말합니다. "그들은 그것에 대한 준비가 없습니다."

지금까지 이전에 Weight Watchers로 알려진 회사가  미국 연방 무역 위원회로부터 사용 권한이 없는 데이터에서 생성된 알고리즘을 삭제하라는 명령을 받았을 때 적어도 하나의 관련 사례가 있었습니다. 그러나 조사가 강화되면 그러한 명령이 더 보편화될 수 있습니다. 노르웨이 데이터 규제 기관의 Judin은 "분명히 기술 인프라에 따라 훈련에 사용된 모든 개인 데이터의 모델을 완전히 지우는 것이 어려울 수 있습니다."라고 말합니다. "만약 불법적으로 수집된 개인 데이터로 모델을 훈련했다면 본질적으로 모델을 사용할 수 없게 될 것입니다." 

 

 

챗GPT 관련글 : 

 

 

728x90
반응형

댓글