크롤링 상업적 이용 - keulolling sang-eobjeog iyong

이전 글에서 웹사이트를 크롤링(웹스크래핑)할 때 참고해야하는 robots.txt에 대해서 알아보았습니다.
이전 글을 읽어보지 않았다면 이전 글을 읽은 다음에 이 글을 읽는 것을 추천합니다.

이전 글

robots.txt 확인하고 크롤링(웹스크래핑) 하고 계신가요?

많은 분들이 프로그래밍 언어를 사용해 만든 크롤러, 또는 웹스크래퍼를 이용해서 인터넷 사이트에 있는 웹 사이트의 정보들을 수집합니다. 이러한 행위를 크롤링, 또는 웹스크래핑이라고 하는

redfox.tistory.com

크롤링 상업적 이용 - keulolling sang-eobjeog iyong

robots.txt에 대해 이야기하면서 크롤링이 불법 행위가 아니라는 말을 했었는데요.
그런데, 크롤링을 어떻게 하느냐에 따라서 불법 행위로 고소를 당할 수도 있다는 것을 아시나요?

읽기 전에

해당 글은 비전문가의 개인적인 관점을 기준으로 작성되었음을 밝힙니다.

크롤링으로 인해 고소를 당한 사례

크롤링이 불법이 아닌데, 크롤링을 하다가 고소를 당하고, 불법이라는 판결까지 받게 되다니 앞뒤가 맞지 않는 말처럼 보이는데요.
먼저 불법 크롤링으로 인해 소송을 당하고 판결까지 난 사례들을 보겠습니다.

채용정보 무단복제 ‘사람인HR’, 잡코리아에 120억 지급 - 시장경제

채용공고 불법 복제 및 게재하는 웹크롤링 행위를 두고 10여 년간 갈등을 빚어온 사람인과 잡코리아가 마침내 합의를 이뤘다.사람인은 웹크롤링 소송 합의금으로 잡코리아에 120억을 지불했다.

www.meconomynews.com

크롤링 상업적 이용 - keulolling sang-eobjeog iyong

여기어때, 야놀자 DB 무단수집 위법 판결…심명섭 전 대표 1심 집유

위드이노베이션(여기어때)가 경쟁업체 야놀자 숙박정보 데이터베이스(DB)를 무단 크롤링(분산 데이터 추출 기술)한 행위가 위법하다는 법원 판단이 나왔다. 서울중앙지법 형사5단독 신민석 판사

www.etnews.com

크롤링 상업적 이용 - keulolling sang-eobjeog iyong

크롤링 행위로 왜 고소를 당하게 되었을까?

이전 글에서 말했던 것처럼 '크롤링'하는 '행위' 자체는 불법이 아닙니다.
공개된 웹사이트를 사람이 직접 탐색하는 것이나, 프로그램인 크롤링 봇이 웹사이트를 탐색하는 것에는 사이트를 방문하고, 서버에 정보를 요청한다는 것은 동일하기 때문인데요.

위 소송 사례들을 보면 파나결의 요점이 크롤링을 하는 행위보다는 크롤링한 데이터를 가지고 추가적인 작업을 한 것에 대해 판결이 내려졌습니다.

사람인의 경우 잡코리아에 게시되는 채용정보들을 크롤링한 다음 해당 내용을 그대로 복제해서 자신들의 사이트에 게시한 것에 대해서,
여기어때의 경우 역시 야놀자에서 제공하는 데이터들을 복제하고, 서버에 장애를 일으켜 정상 영업을 방해한 혐의도 받았다고 나와있습니다.

1. 크롤링한 데이터를 기반으로 타인에게 서비스를 제공, 이득을 얻는 행위

2. 데이터를 크롤링하면서 대상 서버에 무리한 트래픽 요청으로 인한 해당 사이트 이용자들의 정상적인 서비스 이용 방해

제 생각에 각 판결들의 요점은 위 2가지로 보입니다.

즉, 좀더 유용하게 데이터를 수집하고 활용하기 위해 크롤링을 하는 '행위'는 용납될 수 있지만, 이렇게 크롤링을 하는 행위가 대상 서버에 무리한 트래픽 요청을 하는 것으로 인해 다른 이용자들의 정상적인 이용을 방해를 하게 되는 경우와
사이트에서 자체적으로 생산 및 배포하는 것으로 이익을 창출해내는 데이터를 임의로 수집한 다음 자신의 이익을 위해 사용하게 되는 경우 불법적인 이용으로 인식되는 것 같습니다.

두 가지 모두 누군가에게 금전적인 손실을 입게 만들었거나, 또는 상대방에게 데이터 사용에 대한 동의 없이 임의로 데이터를 가공한 것을 이용해 금전적인 이익을 보았을 경우 이를 위법하다고 보게 되는 겁니다.

특히 사이트에서 수집할 수 있는 데이터의 경우 대부분의 사이트에서 해당 사이트에서 수집한 데이터를 재가공하여 타인에게 제공하는 행위를 금지하는 항목을 서비스 이용 규정에 명시해 놓은 곳이 많습니다.

아래는 네이버의 이용 약관 중 일부를 캡쳐해온 것입니다.

크롤링 상업적 이용 - keulolling sang-eobjeog iyong
크롤링 상업적 이용 - keulolling sang-eobjeog iyong

Successfully reported this slideshow.

누구도 알려주지 않는 크롤링의 함정

누구도 알려주지 않는 크롤링의 함정 by Hong3

크롤링 상업적 이용 - keulolling sang-eobjeog iyong

누구도 알려주지 않는 크롤링의 함정 by Hong3

크롤링 상업적 이용 - keulolling sang-eobjeog iyong
크롤링 상업적 이용 - keulolling sang-eobjeog iyong

  1. 1. 누구도 알려주지 않는 크롤링의 함정 (주)헤렌 1타강사 Hong3
  2. 2. 크롤링(Crawling) 크롤링이란 단어는 웹 크롤러(crawler)라는 단어 에서 시작 크롤러란 조직적, 자동화된 방법으로 웹을 탐색, 수집하는 행위 또는 프로그램 ex) 구글,네이버등의 검색엔진 결과 데이터를 수 집하기 위한 봇(bot)
  3. 3. 스크래핑(Scraping) 웹 사이트의 내용을 긁어다 원하는 형태로 가공 하는 것. 웹 사이트에서 정보를 추출하는 행위 또는 프로 그램 ex) 상품별 가격을 알기 위해 해당 상품을 파는 페이지 들의 가격을 추출 하는 행위
  4. 4. 크롤링과 스크래핑은 다릅니다. 하지만 우리는 보편적으로 크롤링 = 스크래핑 으 로 이해하고 사용합니다. 이번 자료에서는 설명을 위해 크롤링 = 스크래핑 으로 통칭합니다.
  5. 5. 이번 스터디에서는 누구도 알려주지 않는 크롤 링의 함정 합법적인 크롤링과 불법적인 크롤링에 대해 사례를 통해 알아보겠습니다.
  6. 6. 합법적인 크롤링과 불법적인 크 롤링
  7. 7. 합법? 불법? 합법의 부정어는 불법 합법 : 법령이나 규범에 적합 -> 비범죄 불법 : 법에 어긋남 -> 범죄 TMI) 합법과 불법의 사이에는 탈법이라는게 존재
  8. 8. 합법적인 크롤링 사이트 운영자의 의사에 반하지 않은 크롤링을 의미
  9. 9. 불법적인 크롤링 불법적인 크롤링은 사이트 운영자의 의사에 반 하거나 또는 실정법을 어긴 크롤링을 의미
  10. 10. 그럼 구분은 어떻게?웹 사이트에서 웹서버의 홈디렉토리에 위치한 robots.txt 파일에 포괄 적인 크롤링 금지 또는 특정 검색엔진의 크롤링 금지, 특정 디렉토리 에 대한 크롤링 금지 등을 표시하였음에도 불구하고, 그 표시를 무시 하고 크롤링을 하였다면 이는 사이트 운영자의 의사에 반한 크롤링에 해당함 웹사이트 운영자는 robots.txt 외에 메인페이지의 하단, 약관 등에 크롤 링 금지를 표시할 수도 있다. 이를 무시하고 크롤링이 이루어졌다면 이 역시 사이트 운영자의 의사 에 반한 크롤링이라고 할 수 있다.
  11. 11. 크롤링으로 인한 분쟁1.엠파스 열린검색 (검색하면 다 검색엔진의 결과도 다 나왔음 -> robots.txt 를 무시) -> 법적 분쟁 X 2.리그베다위키와 엔하위키의 법적 분쟁 (엔하위키가 리그베다위키 를 미러링 하여 정보를 수집) -> 리그베다위키 승소 3. 잡코리아와 사람인의 법적 분쟁 -> 사람인 승소 4. 여기어때와 야놀자의 니가가라 2위싸움 -> 19년 현재 진행중 TMI) 2,3번의 승소를 이끈건 법무법인 민후 여러분도 법적분쟁에 말리게 된다면…
  12. 12. 잡코리아와 사람인의 법적 분쟁 사건의 개요
  13. 13. 잡코리아와 사람인의 법적 분쟁 1.사람인은 잡코리아의 정보를 크롤링하여 정보를 수집 수집도중 사람인에 게시되지 않은 정보를 발견하였을 때 해당 회사에 연락하여 자신의사이트에 게시해도 되냐고 물어보고 허락했을 경우 해당 구인공고를 자신의 사이트에 등록함
  14. 14. 잡코리아와 사람인의 법적 분쟁 2. 잡코리아는 기분이 너무 나쁨 x나 힘들게 구했는데 경쟁사는 너무나도 쉽게 구인공고를 구함 코리아는 robots.txt에 네이버,구글등의 검색엔진에게는 크롤링을 허가한 상 모든정보를 가져가라고 허락하지는 않았다고함
  15. 15. 잡코리아와 사람인의 법적 분쟁 3. 문제는 사람인의 크롤러는 잡코리아의 robots.txt에 접근 한적이 없었음 다지를 캐는 사람인의 크롤러를 보다 못한 잡코리아는 사람인의 IP를 차단 하지만 사람인은 VPN을 사용하여 또 다시 크롤링을 함
  16. 16. 잡코리아와 사람인의 법적 분쟁 법적분쟁
  17. 17. 잡코리아와 사람인의 법적 분쟁 잡코리아는 2008년 사람인을 고소함 그리고 9년이 지난 2017년에 법적분쟁은 마무리되었음
  18. 18. 잡코리아와 사람인의 법적 분쟁 결과는 잡코리아의 승소 법정은 사람인의 행위는 부정경쟁행위에 해당 구인공고 396건을 폐기하고 건당 50만원씩 1억9천800만원을 배상하라고 판결 사람인은 항소 했으나 오히려 죄와 벌금만 늘어나고 또 패배 물론 3심도 신청했지만 기각 되어 법적분쟁이 종료됨
  19. 19. 잡코리아와 사람인의 법적 분쟁 사람인의 주장 1. 웹크롤링은 불법이 아님 2. 수집한 정보를 무작정 올린것도 아니고 구인회사의 허락을 받았음 3. 목적글은 사이트 운영자가 저작권 행사할 수 없음 의 저작권행사는 글을 작성한 사람이 본문내용에 저작권 권리 행사글을 첨부 따라서 저작권 권리 행사글이 없는 목적글은 긁어도 불법이 되지 않음
  20. 20. 잡코리아와 사람인의 법적 분쟁 당시 법원의 판례(1심) “원고(잡코리아)는 자신의 정체를 명시하고 원고 웹사이트를 출처로 표시하는 아웃링크 기능을 통해 이용자를 원고 웹 “피고는 가상사설망을 쓰는 VPN 업체를 통해 IP를 여러 개 로 분산한 뒤 검색로봇의 User-Agent에 피고의 정체를 명 “피고가 원고 웹사이트의 HTML 소스를 기계적인 방법 을 사용해 대량복제하여 피고 웹사이트에 게재하고 자신의 영
  21. 21. 잡코리아와 사람인의 법적 분쟁 2심에서 사람인은 네임드 법무법인 김앤장을 데리고옴 하지만 잡코리아는 데이터베이스권 침해라는 내용을 추가하여 대응
  22. 22. 잡코리아와 사람인의 법적 분쟁 잡코리아의 주장 코리아 웹사이트는 저작권법상 데이터베이스에 해당하고, 잡코리아는 그 웹 트의 제작이나 그 소재(채용정보)의 갱신/검증 또는 보충에 인적 또는 물적으 했으므로 잡코리아 웹사이트에 대해 데이터베이스 제작자의 지위와 권리를
  23. 23. 잡코리아와 사람인의 법적 분쟁 당시 법원의 판례(항소심) 인적 또는 물적으로 상당한 투자를 했고 그 소재의 갱신/검증 또는 보충을 위하여도 인적 또는 물적으로 상당한 투자를 게재행위에 의해 저작권법 제93조 제2항, 제1항에서 정하고 있는 원고의 데이터베이스 제작자의 권리가 침해됐다고 보 따라서 피고인 사람인HR은 잡코리아 웹사이트의 채용정보들을 모두 폐기할 의무가 있다"
  24. 24. 잡코리아와 사람인의 법적 분쟁 사람인은 1심에서 끝나면 약 2억원에 퉁칠수 있었으나 데이터베이스권 침해까지 포함하여 4억5천만원을 배상하게 됨
  25. 25. 잡코리아와 사람인의 법적 분쟁 소송을 담당한 법무법인 민후 김경환 대표변호사는 "이번 사건은 사용자제
  26. 26. 불법적인 크롤링 자체로 처벌을 받지는 않았음 하지만 크롤링을 통하여 얻은 데이터로 인한 법적분쟁이 발생하였고 처벌을 받았음(불공정경쟁행위,데이터베이스권 침해,저작권)
  27. 27. 결론 1. 덮어놓고 긁다보면 거지꼴을 못면한다. 2. 법적분쟁이 발생한다면(했다면) 법무법인 민후를 찾아가자
  28. 28. 출처 1.https://byline.network/2016/02/1-64/ 2. http://m.ddaily.co.kr/m/m_article/?no=151940 3.https://m.news.naver.com/read.nhn?mode=LSD&sid1=001&oid=092&aid= 4.http://biz.newdaily.co.kr/site/data/html/2017/11/09/2017110910056.html
  29. 29. :wq