UPDATED. 2024-04-26 19:26 (금)
튜닙-숭실대 혐오 발언 데이터셋 연구 EMNLP에 게재
튜닙-숭실대 혐오 발언 데이터셋 연구 EMNLP에 게재
  • 최아름 기자
  • 승인 2023.10.24 17:57
  • 댓글 0
이 기사를 공유합니다

튜닙 '튜니브리지' 윤리성 판별 API 실사용 예시. [자료=튜닙]
튜닙 '튜니브리지' 윤리성 판별 API 실사용 예시. [자료=튜닙]

[정보통신신문=최아름기자]

튜닙-숭실대 공동 연구팀이 작성한 논문 ‘K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific and Fine-Grained Offensiveness Ratings’이 자연어처리 분야 최고 저명 학술대회 EMNLP 2023 Findings 에 게재된다.

연구팀은 혐오 발언 탐지를 위해, 대상별 공격성 점수를 단계별로 측정하는 것을 제안했다. 이를 통해, 욕설 등 명시적인 형태의 혐오 발언뿐 아니라, 비꼬기 등 암시적인 형태의 혐오 발언 탐지가 가능하도록 라벨링 가이드라인을 구축했고, 이를 바탕으로 한국어 라벨링 데이터셋 K-HATERS 를 완성했다. 데이터셋 규모는 약 20만건으로 현재 존재하는 혐오 탐지 한국어 데이터셋 중 가장 크다. 연구팀은 제안 데이터로 학습한 혐오 탐지 모델로 뉴스 기사에 달린 댓글 분석을 수행했고, 정치 섹션 및 세계 섹션에 혐오를 담은 댓글이 많이 나타나는 경향성을 발견했다. 이 때, 해당 댓글은 정치, 종교 관련 대상을 주요 타겟으로 삼는 경향성을 보였다.

박규병 튜닙 대표는 “최근 생성형 AI의 윤리성 이슈가 대두되고 있는 시점에서 이번 혐오발언 탐지 데이터셋 관련한 공동 연구 논문이 저명한 EMNLP에 게재되는 것은 의미가 크다. 튜닙이 창업 초기부터 이 부분에 대해 기울인 노력을 인정받게 된 것 같아 기쁘다”며, “앞으로도 서비스중인 챗봇 서비스들의 윤리성 강화를 위해 노력하겠다”라고 밝혔다.

박건우 숭실대 교수는 “온라인 환경에 만연한 혐오 발언을 그 강도를 고려해 탐지할 수 있도록 하는 데이터셋을 구축했다는 점에서 그 의의를 지닌다. 연구자 및 학생 분들이 널리 사용해 주셨으면 좋겠다” 라고 밝혔다. 또한, “ChatGPT 등 초거대 언어 모델이 생성하는 발화에 담긴 혐오 또는 편향성 등을 검증하기 위한 도구로도 사용될 수 있을 것”이라고 강조했다.

해당 데이터셋은 12월 논문 출판 이후 오픈데이터셋 홈페이지(https://open.selectstar.ai)를 통해 공개될 예정이다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • [인터넷 신문 등록 사항] 명칭 : ㈜한국정보통신신문사
  • 등록번호 : 서울 아04447
  • 등록일자 : 2017-04-06
  • 제호 : 정보통신신문
  • 대표이사·발행인 : 함정기
  • 편집인 : 이민규
  • 편집국장 : 박남수
  • 서울특별시 용산구 한강대로 308 (한국정보통신공사협회) 정보통신신문사
  • 발행일자 : 2024-04-26
  • 대표전화 : 02-597-8140
  • 팩스 : 02-597-8223
  • 청소년보호책임자 : 이민규
  • 사업자등록번호 : 214-86-71864
  • 통신판매업등록번호 : 제 2019-서울용산-0472호
  • 정보통신신문의 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재·복사·배포 등을 금합니다.
  • Copyright © 2011-2024 정보통신신문. All rights reserved. mail to webmaster@koit.co.kr
한국인터넷신문협회 인터넷신문위원회 abc협회 인증 ND소프트