□ 가짜 뉴스 탐지에 대한 관심이 증가하면서, 이를 효과적으로 탐지하는 텍스트 분류 모델 개발도 활발히 이루어지고 있다. 전북대학교 소프트웨어공학과 조재혁 교수, 현준서(학사과정), 유서현(박사과정)은 LIAR와 FakeNewsNet 데이터셋을 대상으로, TF-IDF, Word2Vec, BERT와 같은 다양한 임베딩 기법을 사용하여 텍스트를 수치화하고, SVM과 Bi-LSTM을 이용해 분류하는 모델을 개발했다.
□ 이 연구에서는 최적의 모델 성능을 달성하기 위해 최신의 하이퍼 파라미터 최적화 방법인 Bayesian Optimization-Hyperband(BOHB)를 적용했다. BOHB는 기존에 사용되던 Hyperband 방법에 Bayesian Optimization을 결합하여, 예산을 효율적으로 분배하면서도 더 정교한 매개변수 조합을 탐색할 수 있는 기법이다. Hyperband가 초기 매개변수 후보를 랜덤으로 설정하는 데 반해, BOHB는 Bayesian Optimization을 통해 초기 후보를 더욱 효율적으로 선택하여 성능을 향상시킨다.
□ BOHB는 Hyperband에 Bayesian Optimization을 결합한 방법이다. Hyperband는 매개변수 조합 후보를 줄여나가는 대신 예산을 늘리면서 최적의 조합을 찾는 알고리즘이다. 이 찾는 과정을 반복할 때 초기 조합 후보를 랜덤으로 설정했으나 BOHB는 Bayesian Optimization 방식으로 초기 조합 후보를 선택해 더 합리적인 방식으로 조합 후보를 이끌어낸다.
□ 연구 결과, LIAR 데이터셋에서 BERT-SVM 조합의 정확도가 21% 상승했고, FakeNewsNet 데이터셋에서도 10% 상승했다. 이는 BOHB가 기존의 Hyperband보다 더 효과적인 하이퍼 파라미터 최적화 방법임을 입증하며, 가짜 뉴스 탐지 모델의 성능 향상에 실질적으로 기여했다. 해당 연구는 KCI 등재 학술지인 Journal of Platform Technology에 2024년 8월 31일 게재되었으며, 한국환경산업기술원과 환경부의 지원을 받아 수행하였다.