AI의 발전이 우리들에게 도움을 주는 부분도 있지만 반면 인터넷이 점점 병들어 가고 있다는 생각을 전부터 해왔었다.
그 내용에 대해 정확히 설명해 주는 영상이 며칠 전에 올라와서 공유해 본다.
영상의 내용대로다.
내가 열심히 만든 음악, 열심히 그린 그림을 AI가 학습해서 모방한 결과물을 바로 찍어내면 창작자 입장에서는 얼마나 김이 빠지겠는가.
우리 같은 블로거들 입장에서도 내가 열심히 내 지식으로 직접 쓴 글을 AI가 아무런 대가 없이 가져가서 AI에게 질문하는 사람들에게 그 정보를 그냥 알려준다면..
더 이상 블로그에 글을 쓸 의미가 없어질 것이다.
'재주는 곰이 부리고 돈은 되놈이 번다'고 딱 그런 꼴이다.
그래서 오늘은 챗GPT나 구글의 제미나이Gemini, 그리고 중국의 딥시크DeepSeek등이 나의 블로그에 올린 글들을 가져가지 못하도록 하는 방법을 알아보겠다.
맞춤 robots.txt를 사용하자
블로그가 처음이 아니라면 robots.txt 파일에 대해서 대충은 알 것이다.
이 파일은 웹사이트의 루트 디렉터리에 위치하며, 검색 엔진 및 기타 봇들에게 어떤 페이지를 수집해도 되고, 어떤 페이지는 안 되는지 지시하는 역할을 한다.
여기에 AI 봇들이 블로그의 글을 수집하지 못하도록 막으면 된다.
하지만 한 가지 알아둬야 할 점은, robots.txt는 크롤러에게 "이 페이지는 크롤링 하지 말아주세요."라고 요청하는 일종의 신사 협정일 뿐이다.
악의적인 봇들은 이 규칙을 무시하고 데이터를 가져갈 수 있다는 점을 유의해야 한다.
개인이 직접 개발한 블로그라면 AI 봇들의 접근을 확실히 차단하는 방법이 있겠지만, 구글이나 티스토리, 네이버 등에서 빌려 쓰고 있는 블로그라면 이런 기능을 구현할 방법이 딱히 없다.
(워드프레스는 AI 봇을 차단할 수 있는 플러그인이 있다고 어디서 읽은 것 같지만, 내가 직접 해보지는 않아서 모르겠다.)
설명이 길었다.
구글 블로그 관리 페이지에서 '설정'으로 들어가서 '맞춤 robots.txt 사용 설정'의 토글스위치를 켠다.
그러면 그 아래에 있던 '맞춤 robots.txt'가 활성화가 된다.
클릭하면 여기를 통해 직접 robots.txt 파일을 작성할 수 있다.
맞춤 robots.txt에 넣을 규칙
User-agent: GPTBot
Disallow: /
User-agent: DeepSeekBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: WRTNBot
Disallow: /
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://본인 블로그의 도메인/sitemap.xml
위의 규칙에서 하단의 Sitemap만 본인에게 맞게 수정하고 그대로 복사해서 붙여 넣고 저장하자.
위의 지시문들에 대해서 설명하자면 다음과 같다.
User-agent: 어떤 봇에 대한 규칙인지 지정하는 지시문Disallow: 접근을 허용하지 않는 경로를 지정하는 지시문Allow: 접근을 허용하는 경로를 지정하는 지시문
User-agent: *
Disallow: /search
Allow: /
위의 내용으로 이 지시문을 해석해 보자면,
모든 로봇에 대하여 수집을 허용으로 설정하지만, /search 경로만은 접근을 허용하지 않는다는 의미다.
그렇다면 그 위로 수많은 봇들에 대해 수집을 허용하지 않도록 설정되어 있다는 것을 알 수 있는데, 각각 어떤 봇들인지 설명하겠다.
- GPTBot: 딱 봐도 알 수 있다. 가장 유명한 OpenAI의 ChatGPT가 사용하는 봇이다.
- DeepSeekBot: 중국의 DeepSeek가 사용하는 봇이다.
- Google-Extended: 구글의 Gemini를 비롯한 AI 모델이 사용하는 봇이다.
- ClaudeBot: Anthropic의 클로드가 사용하는 봇이다.
- WRTNBot: 요즘 TV에서 광고하고 있는 뤼튼이 사용하는 봇이다.
그런데 위 목록에서 DeepSeekBot에 대해서 더 설명을 하자면,
딥시크는 GPTBot이나 WRTNBot처럼 자사 AI 모델 학습을 위한 전용 크롤러의 이름을 공식적으로 밝히지 않았다고 한다.
하지만 딥시크의 크롤러의 이름을 DeepSeekBot으로 추정하는 이유는 구글에서 검색해 보니 딥시크의 크롤러를 DeepSeekBot이라고 써놓은 글들이 보였고, 무엇보다 그 유명한 잡코리아의 robots.txt 파일에 DeepSeekBot에게 수집을 허용하지 않는다는 지시문을 발견했기 때문이다.
robots.txt의 규칙 적용 방식
이런 의문이 생길 수도 있다.
"robots.txt에서 GPTBot이나 DeepSeekBot에게는 Disallow: / 지시문으로 글을 수집할 수 없게 했지만, 마지막에 User-agent: * Allow: / 지시문으로 모든 로봇에게 수집을 허용하면, 결국에는 위에서 막았었던 GPTBot이나 DeepSeekBot도 글을 수집해 갈 수 있는 것 아냐?"
결론부터 말하자면 아니다.
User-agent: * Allow: / 규칙이 앞선 특정 봇에 대한 규칙을 무시하지 않는다.
robots.txt 파일은 위에서부터 순서대로 읽히는 것이 아니라, 가장 구체적인 규칙을 우선적으로 적용한다.
1. 특정 봇 규칙이 먼저 적용된다
GPTBot이 블로그에 방문하면, robots.txt 파일에서 자신의 이름(User-agent: GPTBot)을 찾는다.
그리고 해당 봇에게만 적용되는 규칙(Disallow: /)을 발견하면, 그 규칙을 따르게 된다.
다른 일반 봇들을 위한 규칙은 GPTBot에게는 적용되지 않는다.
2. 와일드카드 규칙은 특정 규칙이 없을 때 적용된다
User-agent: * 규칙은 robots.txt 파일에 자신의 이름이 명시되지 않은 모든 봇에게 적용된다.
구글의 일반 검색 봇인 Googlebot이나 네이버의 Yeti와 같은 봇들은 GPTBot처럼 특정 규칙이 없으므로, User-agent: * 규칙을 따르게 된다.
따라서 위에서 보여준 robots.txt 파일의 규칙은
GPTBot이나 DeepSeekBot 등은 Disallow: / 규칙을 따라 블로그를 크롤링하지 않고,
Googlebot은 Allow: / 규칙을 따라 블로그를 크롤링하게 된다.
이러한 방식 덕분에 원하는 대로 특정 AI 봇만 차단하고, 일반 검색 엔진은 허용하는 것이 가능하다.
위에서도 설명했지만, 이것으로 확실하게 나의 글이 AI 학습에 이용되지 않을 것이라고 확신할 수는 없다.
우리는 이름도 못 들어본 새로운 AI 모델들이 계속해서 쏟아져 나오고 있기 때문이다.
그걸 매번 robots.txt에 추가하는 것은 만만치 않은 일이다.
또 그렇게 한다고 하더라도 robots.txt를 무시하는 악성 봇이 있을 수 있다.
하지만 적어도 사람들이 자주 사용하는 유명한 AI의 봇들만은 우리들의 글을 가져가지 못하도록 예방할 수는 있을 것이다.
응원이나 피드백이 담긴 댓글은 제가 계속 블로그를 해나갈 수 있는 원동력이 됩니다. 😊
지인에게 보여주고 싶은 글이었다면 URL을 복사해서 메신저나 소셜 미디어에 공유해 주세요.


0 Comments
댓글 쓰기
🔸 댓글은 블로그 운영자의 승인 후에 블로그에 표시됩니다.
🔸 비로그인 방문자 분께서는 '익명'보다 이름/URL로 댓글을 남겨주시면 감사하겠습니다. (URL은 생략 가능합니다.)
🔸 구글 로그인 방문자는 '알림 사용'에 체크를 하시면, 남겨주신 댓글에 대한 답글 알림을 메일로 받아볼 수 있습니다. 📩