I. Introduction
연구 동향에 대한 분석은 연구자가 해당 분야의 연구 성과를 고찰하고 현재 상황 을 파악하여 미래 연구의 방향성을 제시하기 위한 기초 자료를 제공하는 것으로, 해당 분야 연구 발전을 위해 도움이 되는 연구라 할 수 있다. 해당 연구 분야에서 향후 진행해야 할 연구 방향의 주제는 과거 연구에 대 한 지식과 미래에 필요하다고 생각되는 지식의 발견 과 관련되어 있으므로, 과거에 진행된 연구들에 대한 지속적인 검토가 필요하다. 학위논문과 학술지는 연 구 동향을 분석하기 위한 대상으로 그중 학술지에 대 한 연구 경향 분석은 관심 연구 분야의 변화 및 학문 적 발전을 한 눈에 볼 수 있으며, 해당 연구 분야의 미래 관심 분야를 예측해 볼 수도 있어(Lee, Shin, & Chae, 2022) 다수의 연구에서 학술지를 대상으로 연 구 동향을 분석하고 있다.
지금까지 연구 동향 분석은 연구자가 논문을 직접 수집하여 읽은 후, 선행연구를 참고하여 직접 분류하 여 분석하는 내용분석 방법이 주로 사용되었다. 그러 나 현실적으로 수백 편에 이르는 학술논문에 대해 깊 이 있는 분석에 어려움이 있으며, 연구자의 편견에 의 한 개입이 문제가 될 수 있을 뿐 아니라 공동 연구자 간의 서로 다른 평가 기준으로 인해 신뢰도와 타당도 가 낮아질 수 있다는 단점이 있다(E. Kim, 2022;Lee, 2021). 또한, 내용분석은 주로 기술 통계적인 부분을 제시하고 있어 연구주제들이 어떻게 연결되고 있으 며, 중심 주제가 무엇인지를 파악하는 데 한계가 있다 (Choo & Oh, 2020). 빅데이터를 처리할 수 있는 기술 이 향상됨에 따라 2000년 중반 이후 국내․외에서는 컴퓨터를 이용한 텍스트 마이닝 방법이 전통적인 내 용분석 방식에서 발생할 수 있는 정보의 왜곡이나 누 락의 발생을 보완하고, 연구자의 주관적 견해로 인한 분석 신뢰도와 타당도의 문제를 해결하기 위한 방법 으로 사용되고 있다(Choi, 2021;E. Kim, 2022).
토픽 모델링은 최근 다양한 분야의 학계에서 연구 동향을 분석하는 방법으로 활용되는 텍스트 마이닝 방법이다. 다양한 기법 중 자연어 처리를 위한 비지도 머신러닝 기법인 LDA(latent dirichlet allocation)는 텍 스트 문서 모음에서 잠재된 토픽을 발견하기 위한 생 성 및 확률적 토픽 모델로, 기본 가정은 주제가 의미 론적으로 관련된 단어 동시 발생을 포착한다는 것이 다. 다른 텍스트 마이닝 방법보다 우수한 성능을 보이 는 것으로 알려진 LDA 토픽 모델링의 특성은 감독되 지 않고 완전히 통계적이므로 모델의 사전 지식을 활 용하지 않는다는 것으로, 대규모 문서 컬렉션에서 효 과적이고 다양한 텍스트 처리 작업에 널리 적용되는 것으로 입증되어 문서 분석에 널리 사용되는 강력한 기술이다(Allahyari & Kochur, 2016;Mühlroth & Grottke, 2022).
오래전부터 의류학에서도 여러 연구자에 의해 의류 학 전반에 관한 연구 동향뿐 아니라 의류학 안에서의 특정 영역이나 학술지를 대상으로 연구 동향 분석에 관한 연구가 진행됐다. 그러나 아웃도어웨어 연구 동 향에 관한 분석은 2016년에 진행된 연구(Kim, 2016) 가 유일하며, 연구자가 직접 선행 연구자의 논문 분류 방법을 참고하여 자료를 분류한 후 연구 동향을 분석 한 내용분석 방법을 사용하였다. 이에 본 연구는 수천 개의 논문을 분석하여 주요 주제를 추출하고 연구의 변화를 정량적으로 추적할 수 있는(Odden, Marin, & Rudolph, 2021) 것으로 알려진 LDA 토픽 모델링을 이용하여 아웃도어웨어에 대한 연구 동향을 분석하고 자 한다.
본 연구를 위한 데이터의 수집은 아웃도어와 등산 복을 주제로 한국교육학술정보원에서 제공하는 데이 터베이스(RISS)에서 수집하였으며, 2002년 1월 1일부 터 2022년 10월 31일까지 게재된 총 227편의 국내 학 술논문을 대상으로 하였다. 본 연구의 결과가 아웃도 어웨어 관련 연구의 흐름을 알아보고, 주요 연구주제 를 규명함으로써 관련 연구의 발전을 위한 기초 자료 로 활용되어 후속 연구에 도움이 되기를 바란다.
Ⅱ. Literature Review
1. Analysis of research trend in the apparel study
학술지에 관한 연구 동향 분석은 연구주제의 흐름 과 중요도를 판단하고 부족한 연구 분야를 파악하여 새로운 연구 분야를 찾을 수 있는 유용한 방법(Jang & Jung, 2021)으로, 의류학 분야에서도 학술지에 게재된 논문을 대상으로 여러 연구자에 의해 연구 동향 분석 에 관한 연구가 오래전부터 진행되었다. Kim(1990)은 학술지에 논문이 처음 발표된 1958년부터 1989년까 지 30년간의 한국 복식에 관한 연구 동향을 논문이 발 표된 시기와 한국 복식의 시대별로 분류하여 분석하 였는데, 조선 시대의 논문이 169편으로 가장 많았으 며 그중 1980년대 발표된 논문이 85편으로 나타났다. Jung, Park, and Hwang(1991)은 1959년에 창간된 대 한가정학회지를 시작으로 1977년의 한국의류학회지, 1979년의 복식 등 의류학 전문 학회지가 창간된 1959 년부터 1990년 6월까지 한국 의류학연구 동향을 의복 구성학, 피복 과학, 복식 의장학, 복식사, 의상 사회심 리학, 의류 상품학, 기타 등 7개 분야로 분류해 분석하 였으며, 이 중 피복 과학 분야의 연구가 35.0%로 가장 높은 것으로 나타난 바와 같이 1990년대에 이미 의류 학의 발전을 위해 선행 연구자들의 연구 동향 분석에 관한 연구가 시작되었다.
의류학에서의 연구 동향 분석은 크게 특정 학회지 에 대한 분석과 복종 및 세부영역에 대한 분석, 특정 주제에 대한 분석으로 나눌 수 있다. 학회지의 연구 동향을 분석한 연구로는 “복식문화연구(The Research Journal of the Costume Culture, RJCC)”와 해외 학술 지 “Fashion Theory”를 대상으로 논문의 페이지 수, 저자 수, 연구의 대상 및 연구와 관련된 시대 등을 빈 도를 기준으로 비교 분석한 연구(Hahn & Kim, 2014), “한국의류산업학회지”를 대상으로 논문의 분량, 평균 저자 수, 저자의 소속기관 수 및 연구 영역별 게재된 논문의 양적 분포를 분석한 연구(Siddiqui & Jeon, 2017)가 있다. 또한, Park, Ha, Lee, and Lee(2014)는 “한국의류학회지”와 국제 학술지인 “TRJ(Textile Research Journal)”, “IJCT(International Journal of Clothing Science and Technology)”를 연대별 논문 수, 평균 저자 수를 비교 분석하였으며, Netminer 4를 이 용하여 “한국의류학회지” 게재 논문 연구자 간의 네 트워크 분석을 진행하면서 모든 분석에서 피복 과학 분야를 자세히 분석하였다. 최근 연구로 Choi and Choi(2022)는 “복식문화연구”를 대상으로 계량 정보 학적 측면인 인용 관계 분석과 정성적 측면에서의 네 트워크 분석을 통해 논문의 연구 동향을 분석하는 융 합적 연구를 진행하였다. 세부영역에 대한 분석으로 Lee et al.(2022)은 문헌 조사 방법을 이용하여 “복식 문화연구” 등 총 6종의 의류학 관련 학회지를 대상으 로, 2010년부터 2021년까지 의복 구성학 분야와 관련 된 논문을 중심으로 선행연구를 참고하여 연구 동향 을 분석하였다.
복종의 동향에 관한 연구로는 유․아동복 관련 연 구 동향에 관한 연구에서 Kim and Lee(2018)는 2001 년부터 2017년까지 국내 학술지에 발표된 137편의 논 문을 수집하여 연도별, 학회지별, 연구 분야별로 분류 한 후 빈도와 백분율을 사용하여 분석하였다. 또한, Kim(2016)이 2000년부터 2015년까지 한국의상디자 인학회지 등 아웃도어웨어 관련 논문이 10편 이상 게 재된 6개의 학술지에서 총 196편의 논문을 수집하여, 논문 제목을 중심으로 선행연구의 분류 방법을 참고 하여 연도별, 학회지별, 연구 분야별로 분류한 후 역 시 빈도수와 백분율을 사용하는 기술 통계적 방법을 사용하여 분석하였다. 특정 주제에 관한 연구 동향 분석은 지속 가능한 패션에 관한 연구 동향(Choi & Lee, 2020;Lee, 2021;Lee & Lee, 2022;Park, Ko, & Kim, 2022)이 많았으며, 패션 일러스트레이션 관련 연구 동향 분석(Kim, 2009), 발 관련 계측 연구 동향 분석(Jeon & Han, 2008) 등 다양한 주제를 대상으로 한 연구가 진행되었다.
내용분석(content analysis)은 특정 학계 전체의 연 구 경향이나 학계의 특정 세부분야의 연구 경향 등을 분석하기 위해 가장 많이 이용되는 방법(Moon & Choi, 2018)으로, 그동안 학계에서 진행되었던 연구 동향 분석의 대부분은 선행연구에서 이루어졌던 분류 기준을 사용하여 변수를 설정하고, 연구자가 직접 논 문을 수집하여 읽은 후 각각의 변수에 알맞은 내용을 대응시키는 내용분석 방법이 사용되었다(Y. W. Park, 2017). 따라서 내용분석은 연구자가 연구하고자 하는 목적에 따라 수집한 자료를 어떻게 범주화하고 분류 하는지가 가장 핵심인 연구 과정 중 하나이다. 연구 동향에 관한 연구에서 가장 많이 활용되고 있는 방법 임에도 불구하고, 연구자가 연구 동향에 대한 기술적 인 정보만을 제공해줄 수밖에 없다는 연구방법론상의 원천적 한계(Moon & Choi, 2018)에 대한 문제가 제 기되기도 했다. 빅데이터 분석의 발달로 키워드 분석 과 네트워크 분석을 사용한 방법(Choi & Lee, 2020;Park et al., 2022)이 내용분석의 한계점을 보완하기도 하였으나, 토픽 모델링은 키워드 분석의 한계점에서 벗어나 연구자의 편견을 줄이고, 발견된 텍스트에 대 해 좀 더 세밀하고 정확한 연구를 가능하게 한다는 점 에서 다양한 분야의 연구에 활용되고 있다(Jacobs & Tschötschel, 2019).
2. LDA topic modeling
텍스트 마이닝 방법의 하나인 토픽 모델링은 구조 화되지 않은 많은 양의 문서를 분석하기 위한 기술로, 텍스트 문서의 집합에서 단어 사용의 숨겨진 구조 패 턴을 발견하고 유사한 패턴을 보이는 문서를 연결함 으로써 유용한 구조를 찾아 의미 있는 잠재적인 토픽 을 도출해내는 강력한 알고리즘이다. 토픽 모델링은 문서 모음에서 단어의 숨겨진 주제 패턴을 찾기 위한 일종의 통계 모델로, 토픽은 동시 발생 단어의 반복 패턴으로 간주하며 자주 함께 나타나는 단어 그룹이 포함된다. 토픽 모델링은 동일한 문맥의 단어를 연결 하고 의미가 다른 단어의 사용을 구분할 수 있어, 유 의미한 주제를 군집화할 수 있어 클러스터링이나 분 류 방식 이상의 역할을 하기 때문에 강력한 도구로 인 정받고 있다(Anupriya & Karpagavalli, 2015;Barde & Bainwad, 2017).
토픽 모델링은 LSA, pLSA, LDA를 중심으로 활용 됐다. Landauer and Dumais(1997)가 제안한 LSA (latent semantic analysis)는 한 문서에서 다른 문서로 코사인 유사성 값(cosine similarity value)을 구하는 데 사용되는 SVD(singular value decomposition) 프로 세스로 토픽을 추출하는 것으로, 분석결과에 대한 객 관적인 의미 도출이 어렵다는 한계점을 갖고 있었다 (Huda, Putri, Awalluddin, & Sholeha, 2022;Yu, 2017). Thomas Hofmann에 의해 1999년 확률적 잠 재 의미 분석(probabilistic latent semantic analysis, pLSA)이 LSA를 보완한 방법으로 소개되었으나 훈련 데이터에서 볼 수 없는 새로운 문서를 예측할 수 있는 방법을 제공하지는 못했다. Blei, Ng, and Jordan(2003) 은 잠재 디리클레 할당(latent Dirichlet allocation, LDA)이라는 더 일반적인 베이지안 확률론적 주제 모델을 제안하여 이러한 한계를 해결했다(Barde & Bainwad, 2017;Lu, Mei, & Zhai, 2011).
LDA는 토픽 모델링 중 가장 많이 활용되는 방법으 로 텍스트 말뭉치(corpus)와 같은 이산 데이터 모음과 문서-단어 행렬(document-word matrix)에 대한 이해를 바탕으로 토픽을 추론할 수 있는 3단계 계층적 베이지 안 모델(Bayesian model)인 생성 확률 모델(generative statistics model)이다(Blei et al., 2003;Gurcan, Ozyurt, & Cagitay, 2021;Jacobs & Tschötschel, 2019;Silge & Robinson, 2017). 또한, 토픽 모델링을 위한 비지도 방법(unsupervised method)이기 때문에, 학습을 위한 훈련 세트나 메타데이터가 필요하지 않으므로 짧은 시 간에 많은 수의 텍스트 문서를 분석할 수 있다(Gurcan et al., 2021)는 장점을 갖고 있다.
LDA는 사후 확률 추론 방식으로 텍스트들이 전체 데이터 안에서 서로 연관성이 있다는 가정하에 텍스 트가 나타나는 환경에 따라 토픽을 도출하는 것으로, 각 텍스트는 각 토픽 아래의 확률과 연관되어 있다 (Blei, Carin, & Dunson, 2010). 따라서 ‘문헌별 주제 분포’, ‘텍스트별 토픽할당’, ‘주제’를 추론이 필요한 잠재 구조라고 보고 문헌 속에 등장하는 텍스트를 바 탕으로 사후 확률 반영과 추론을 통해 잠재 구조를 찾 는 것을 목적으로 하며(Kim, Choi, & Han, 2020), 이 를 위해 LDA는 역으로 작업하여 어떤 숨겨진 구조(즉, 토픽 모델)가 문서 내에서 관찰된 텍스트를 생성했을 가능성이 가장 높은지 계산한다(Mühlroth & Grottke, 2022).
<Fig. 1>은 LDA 그래프 모델(Mühlroth & Grottke, 2022)로 LDA 가정(LDA assumptions)의 중첩된 다단 계 구조(multi-level structure)를 나타낸다. LDA의 특 징은 토픽 자체가 말뭉치 전체에서 공유된다는 것으 로, LDA 각 단어의 토픽(Ζ)값은 각각의 문서가 각 토픽에 해당할 확률(θ)에 의해 생성되는데, θ는 디리 클레 분포를 따르는 값으로 α값에 따라 형태가 정해 진다. 그리고 β는 η값에 따라 결정되는 값으로, η에 따라 β의 디리클레 분포가 결정된다. 결과적으로 모 든 경우의 수를 고려한 토픽별 단어(w)는 각 단어의 토픽(Ζ)값과 토픽별 단어(β)에 따라 결정된다(Blei et al., 2010).
LDA 토픽 모델링은 토픽의 수를 미리 고정해야 한 다는 한계점을 갖고 있으나, 잠재 변수를 사용하여 문 서 컬렉션에서 잠재적인 토픽을 도출해낼 뿐 아니라, 중요 키워드가 여러 토픽에 동시에 대응할 수 있으면 서도 토픽 안에서 각 키워드 간의 중요도를 확인할 수 있어 텍스트 마이닝의 많은 연구에 활용되고 있다 (Blei et al., 2010;Lee, 2021).
이와 같은 장점으로 LDA 토픽 모델링은 2000년 부터 2018년까지 국내 학술지를 중심으로 한국 가족 연구 동향을 분석한 연구(Choo & Oh, 2020), 1982년 부터 2019년까지 6개의 학술지와 1개의 기관지를 대 상으로 소비자교육 연구 동향을 분석한 연구(Kim, Hwang, & Li, 2020), 학회지와 학위논문을 대상으로 1999년부터 2020년까지 표현예술치료 분야의 연구 동 향 분석(Choi, 2021)과 등재 학술지를 대상으로 2022 년부터 2019년 사이의 도시 분야 연구 동향 분석(Jang & Jung, 2021)에 대한 연구, 2009년부터 2021년까지 의 학술지 158편을 대상으로 데이터 거버넌스 연구 동향 분석(Jeong, 2022)에 대한 연구 등, 다양한 학계 에서 연구 동향 분석에 대한 방법으로 활발하게 사용 하고 있다.
의류학에서도 KCI 등재 학술지와 Scopus에 게재된 지속 가능 패션연구 동향을 비교 분석한 연구(Lee, 2021), 한국패션디자인학회지의 2001년 창간호부터 2015년까지 게재된 논문을 대상으로 패션디자인 연 구 동향을 분석한 연구(Jang & Kim, 2017)와 같이, 토 픽 모델링을 이용해 연구 동향을 분석한 연구가 있다. 또한 Nam(2022)은 밀레니얼 세대의 패션 라이프스타 일 특성을 연구하면서 2015년부터 2019년까지의 패 션 관련 온라인 신문기사를 대상으로 연도별 주요 키 워드와 각 키워드 간의 관계를 살펴보았으며, 도출된 상위 키워드들의 의미를 파악하기 위해 토픽 모델링 을 실시하였다. H. Kim(2022)은 패션산업 뉴스가 의 류기업의 주가에 미치는 영향을 분석하고자, 최근 5 년간 네이버에서 ‘패션’으로 검색된 경영 및 경제 뉴 스 데이터를 대상으로 토픽 모델링을 실시하고 주요 주제들을 분석하는 등 최근 LDA 토픽 모델링 기법을 활용한 연구들이 증가하고 있음을 알 수 있다. 이에 본 연구는 최근 논문들의 연구 동향을 분석하기 방법 으로 주목받고 있는 LDA 토픽 모델링 기법을 활용하 여 아웃도어웨어 연구 동향을 분석하고자 한다.
Ⅲ. Methods
1. Data collection
연구 동향을 분석하기 위한 자료의 수집은 연구자 의 연구 목적에 따라 그 범위가 다르다. 일반적으로 텍스트 분석을 기반으로 하는 연구 동향에 관한 연구 의 경우, 텍스트 분석의 범위를 전문으로 하여 텍스트 분석을 실행(E. Kim, 2022)한 연구도 있으나, 최근 진 행된 연구 동향에 관한 연구에서는 연구의 전체적인 맥락을 고려한 분석을 위해 논문의 제목 및 키워드와 초록을 분석데이터로 수집하여 사용하고 있다(Dabas & Whang, 2022). 이에 본 연구에서는 한국교육학술 정보원(Korea Education and Research Information Service, KERIS)에서 제공하는 학술데이터베이스인 RISS(Research Information Sharing Service)에서, 아 웃도어와 등산복을 키워드로 논문의 제목과 연도, 학 술지명 및 초록을 웹 크롤링(web crawling)하였다. RISS는 KISS(한국학술정보), DBpia(누리미디어), SCienceON, KCI(한국연구재단), eArticle(학술교육 원) 등 다양한 학술데이터베이스부터 원문을 받아 학 술연구 정보를 제공하는 사이트로, 학술지의 초록을 웹 크롤링하기에 적당하다고 판단하였다.
데이터의 수집 시간은 2002년 1월 1일부터 2022년 10월 31일까지 게재된 논문을 대상으로 하였다. RISS 에서 검색한 결과 2002년 이전에도 아웃도어웨어와 등산복을 키워드로 한 논문이 게재되었으나, 학회에 서 발간된 학술지가 아닌 대학교 부설 연구소에서 발 간한 논집 혹은 학회의 학술대회 논문집으로 나타나, <Fig. 2>에서 보이는 바와 같이 처음 아웃도어웨어 관 련 논문으로 확인되는 2002년을 데이터 수집의 시작 으로 설정하였다.
우리나라의 경우 등산복에서 아웃도어웨어가 시작 되었으며, 1995년 처음 아웃도어라는 명칭이 등장하 였다(Kang & Cho, 2014). 또한, 아웃도어웨어가 대 중화되면서 아웃도어 스포츠웨어(Lee, Lee, & Lee, 2018)로 불리기도 했으며, 연구자에 따라 아웃도어 의 류(Choi & Lim, 2020;Jung & Oh, 2016)로 명명하기 도 하여 아웃도어와 등산복을 키워드로 1차 데이터를 수집하였다. 수집된 데이터 중 아웃도어웨어와 관련 이 없거나 연구 목적과 관련이 없는 학술지를 제외하 는 작업을 실시하였으며, 그 결과 최종 총 227편의 학 술지에서 데이터를 수집하였다.
2. Data analysis
자료의 분석에 앞서, 수집된 데이터는 분석이 쉬운 형태로 데이터를 가공하는 작업인 전처리(preprocessing) 를 진행하였다. 전처리 작업은 비정형 데이터를 보다 정형화된 데이터로 변경하는 작업(Huda et al., 2022)으로, 분석의 목적과 방법에 맞게 데이터를 분리 하고 불필요한 데이터를 제거하거나 가공하는 작업을 의미한다. LDA 토픽 모델링은 텍스트 마이닝의 하나 로, 텍스트 마이닝에서 데이터 전처리 기술의 적용은 데이터 분석의 품질을 향상하므로(Thorleuchter & Van den Poel, 2013) 먼저 수집된 데이터에 정제를 적용해 야 한다.
수집된 비정형 텍스트 데이터의 분석을 위해 형태 소를 세분화하고 불용어를 제거하는 데이터 전처리 작업을 시행하였다. 텍스트 데이터는 한국어 자연어 처리(natural language processing, NLP) 분야에서 많 이 사용되는 Python open source library인 Konlpy의 Mecab_ko 클래스를 활용하여 형태소 분석을 진행하 였다. 형태소 분석을 시행한 후 주요 명사, 형용사, 동 사를 추출하는 토큰화(tokenizer) 작업을 시행하였다. 이후 의미 없는 숫자와 문장 부호 및 특수문자, 불용 어의 제거와 같은 사전처리 작업을 연구자가 3회 이 상 반복적으로 실시하는 작업을 실시하였다.
전처리 후 정제된 데이터로 LDA 토픽 모델링 기법 을 사용해 토픽을 도출하였다. LDA 토픽 모델링은 비정형 텍스트 분석에서 유의미한 주제를 군집화하고 집합 내 항목들을 보여주기 위해 주로 사용되는 방법 으로, 본 연구에서는 Python의 gensim과 sklearn 라이 브러리를 사용하여 토픽 모델링을 실시하였다. 또한, coherence score와 perplexity score를 사용하여 가장 적합한 토픽의 수를 선정하였다.
마지막으로 pyLDAvis 라이브러리를 활용해 토픽 모델링 결과를 시각화하였다. 시각화된 결과를 통해 전체 토픽 간의 관계를 파악하였으며, 각 토픽 안에서 30개의 주요 텍스트가 차지하는 중요도를 한눈에 파 악할 수 있도록 하였다.
Ⅳ. Results
1. Distribution status of outdoor wear-related papers by year and by academic journal
2002년 1월 1일부터 2022년 10월 31일까지 한국교 육학술정보원에서 제공하는 데이터베이스(RISS)에서 수집한 논문은 총 227편으로 나타났다. 연도별 논문 의 현황은 <Fig. 3>에 제시된 바와 같이 2009년부터 서서히 논문의 수가 증가하기 시작하여, 2014년 34편 의 논문을 기점으로 그 수가 점점 감소하고 있는 것을 확인할 수 있다. 이러한 결과는 그동안 국내 아웃도어 웨어 시장의 성장과 흐름을 같이 하는 것으로, 2010년 부터 시작된 아웃도어 웨어의 황금기(Kwak, 2021)에 논문의 게재가 증가하기 시작하여 아웃도어웨어 매출 이 안정기로 접어들고 매출의 정점에 있었던 2013년 에서 2016년까지 기간에 논문의 게재가 많았다. 논문 의 게재가 가장 많은 연도에 대해서는 아웃도어웨어 의 연구 동향에 관한 선행연구(Kim, 2016)에서 2013 년의 논문 게재가 가장 많았다는 결과와 다소 차이가 있으나, 2013년에서 2015년 사이가 논문의 게재가 많 았던 시기인 것은 동일하게 나타났으며, 이러한 차이 는 Kim(2016)의 연구가 의류학 분야 관련 총 6개 학 술지만을 대상으로 연구를 진행하였으나, 본 연구의 경우 전체 학술지를 대상으로 한 것에서 기인한 것으 로 사료된다.
학회지별 논문의 현황을 분석한 결과에 의하면 KCI 등재지 213편, 우수 등재지 2편, 등재 후보지 12편을 포함한 총 56개의 학회지에서 아웃도어웨어를 주제로 한 논문이 게재되었으며, 그중 논문 게재 편수를 순위 로 한 10위까지는 <Table 1>에 제시되었다. 전체 학회 중 “한국의류산업학회지”에 29편의 논문으로 가장 많 은 논문이 게재되었으며, 다음으로 “한국의류학회지” 와 “패션 비즈니스”인 것으로 나타났다. 분석결과, “복식문화연구”와 같은 의류학 분야 관련 학회지뿐 아니라, “한국체육과학회지”와 “한국체육학회지”와 같은 체육학 분야의 학회지에서도 아웃도어웨어를 주 제로 한 논문의 게재가 많은 것을 확인할 수 있었다. 또한, “한국섬유공학회지”, “감성과학”과 같은 공학 및 과학 분야 학회지에서도 아웃도어웨어 소재를 주 제로 한 논문의 게재를 찾을 수 있어, 아웃도어웨어에 대한 다양한 학계의 관심을 유추할 수 있었다.
2. Topic modeling analysis results
1) Topic modeling analysis
227편의 논문 초록을 대상으로 추출한 20,964개의 토큰을 활용하여 LDA 토픽 모델링을 진행하였으며, 총 8개의 토픽이 도출되었다. LDA 토픽 모델링은 적 절한 토픽의 수를 사전에 설정해야 하는데, 토픽의 수 를 높게 설정하면 의미 없는 토픽이 도출될 수 있으며 반대로 토픽의 수를 낮게 설정하면 하나의 토픽에 많 은 키워드가 포함되어 있어 토픽을 구분하는 데 어려 움이 있다(Park & Oh, 2017;Yoon & Kim, 2021). 일 반적으로 이런 단점을 보완하고 최적의 토픽 수를 산 출하기 위해 군집의 모델 적합도를 정량적으로 표현하 는 coherence score와 perplexity score를 사용하는데, perplexity score는 결정된 모델의 토픽 수에 대한 강 도를 평가하는 가장 일반적인 척도로 점수가 낮을수 록 토픽 내의 동질성이 증가하여 토픽의 특성을 잘 반 영하는 것으로 알려져 있다(Anupriya & Karpagavalli, 2015). 반대로 coherence score는 주제의 일관성을 나 타내는 값으로 수치가 높을수록 토픽 안에서 텍스트 간의 의미론적 일관성이 높다고 판단할 수 있다. 그러 나 perplexity score가 낮거나 혹은 coherence score가 높은 것만으로 토픽의 수가 적정하다고 볼 수 없으므 로(Yoon & Kim, 2021), 본 연구에서는 coherence score(.391)<Fig. 5>와 perplexity score(–6.095)<Fig. 4> 를 모두 고려하여 토픽의 수를 설정하였다. 토픽이 9 개인 경우 perplexity score가 가장 낮았으나, coherence score가 높게 나타나지 않아, coherence score가 가장 높으면서 perplexity score가 두 번째로 낮은 8개를 적 정토픽의 수로 판단하였으며, 전문가 3명의 의견을 수렴하여 최종적으로 결정하였다.
LDA 토픽 모델링은 하나의 텍스트를 하나의 토픽 에 연결을 시키는 대신 추출된 다양한 토픽에 연결하 는 혼합 멤버십 모델(mixed-membership model)로, 토 픽에 따른 각각의 그룹 안에서 서로 다른 비율로, 연 관성을 나타내고 있다(Blei, 2012). 따라서 각 토픽에 나타난 주요 텍스트는 토픽 모델링 과정에서 각각의 토픽과 연관되어 토픽을 대표하는 의미를 표현할 수 도 있으나, 일부 주요 텍스트들은 다른 토픽에서 중복 적으로 주요 텍스트로 등장하기도 한다.
이에 Yoon and Kim(2021)은 차별 텍스트는 해당 토픽에만 포함된 텍스트로 다른 토픽에는 포함되지 않았으므로, 각 토픽에 포함된 차별 텍스트를 활용하 여 의미를 파악하고 명칭을 부여하는 것이 더 효과적 이라고 언급하였다. 그러나 각 토픽 안에 등장한 상위 텍스트들은 대략적으로 그 토픽을 대표하는 것으로 간주되므로(Jacobs & Tschötschel, 2019), 본 연구에 서는 추출된 8개 토픽에 나타난 주요 텍스트와 차별 텍스트 및 연구에 사용된 논문의 제목과 초록을 확인 하여 8개 토픽을 연구자가 명명하였으며, 그에 따른 결과는 <Table 2>에 제시되었다. <Table 2>에 제시된 주요 텍스트는 가중치를 기준으로 상위 10개의 텍스 트만을 제시하였으며, 가중치는 텍스트 옆 괄호 안에 넣었다. 각 토픽에 따른 차별 텍스트 역시 함께 제시 하였다.
<Fig. 6>은 토픽별 논문의 수를 그래프로 나타낸 것이며, 토픽 3에 다수의 논문이 집중해있는 것을 확 인할 수 있다. <Fig. 7>과 <Fig. 8>은 pyLDAvis 라이 브러를 활용해 토픽 모델링 결과를 시각화한 것으로, intertopic distance map은 전체 토픽을 2차원 척도로 나타낸 것이다. 각 토픽은 원으로 표현되고 있으며, 원의 크기는 해당 토픽 안에서 토픽과 관련된 30개 키 워드가 차지하고 비율을 의미하며, 원과 원 사이의 거 리는 토픽 간의 연관성을 의미한다(Park & Oh, 2017). 분석결과, 토픽 1과 토픽 4의 거리가 상당히 있음을 확인할 수 있으며, 토픽 2와 토픽 5는 많은 부분이 겹 쳐져 있어 토픽 간의 연관성이 많음을 유추할 수 있다.
2) Characteristics by topic group
토픽 1은 전체 논문의 6.8%인 15편이 포함된 가장 작은 그룹으로, 상위 키워드는 아웃도어, 스포츠, 스 타일, 활동, 디자인, 체험 등이 포함되어 있다. 다른 토 픽과 다르게 스타일, 체험, 라이프, 공간, 여성, 요소 등이 차별단어로 나타났으며 토픽 모델링 결과 하나 의 토픽으로 도출되었으나, 상위 키워드와 차별단어, 논문 제목을 고려할 때 소비자의 라이프스타일에 따 른 아웃도어웨어 선택에 관련된 내용과 일정한 공간 안에서의 소비자 체험이 연구의 주제임을 유추할 수 있다. 이에 토픽 1의 주제는 “체험 마케팅과 라이프스 타일”로, 아웃도어 패션 라이프가 보편화됨에 따라 Park and Nam(2013)은 국내 아웃도어 플래그쉽스토 어의 체험 마케팅 사례를 종합적으로 분석하였으며, 특히 행동적 체험과 관계적 체험의 강화를 제안했다. 또한, Ahn, Jeong, and Park(2018)은 여성 소비자의 라이프스타일에 따라 4개의 군집으로 세분화하고 정 보탐색, 구매 시 선택기준 등을 비교하였다.
토픽 2의 주제는 “아웃도어웨어 속성과 평가”이다. 전체 논문의 9.1%인 21편의 논문이 포함되어 있으며, 요인, 가격, 조사, 편리, 자료, 등산, 기능 등의 단어가 상위 키워드에 포함되며 차별단어로 가격, 편리, 자 료, 등산, 활동, 평가, 속성 등이 포함되어 있다. 이 그 룹은 소비자의 아웃도어웨어 선택속성과 이와 연관된 소비자 행동에 관한 연구, 착용성 등 제품 속성이나 전략에 관한 평가에 관한 연구들이 해당함을 추론할 수 있으며, 주요한 요인이 가격과 편리임을 유추할 수 있다. 아웃도어웨어의 차별성에 대한 소비자들의 평 가에 관한 연구(Yoo, 2016)에서 소비자들은 특히 기 능성과 가격에 대해 아읏도어웨어 브랜드들 사이에 가장 다르게 생각하면서도 가장 비슷하게 생각하는 것으로 나타났으며, 환경 친화적 스마트 아웃도어 재 킷의 사용성을 평가한 Lee(2014)의 연구에서 피험자 들은 대부분의 평가에 만족하는 것으로 나타났다.
토픽 3은 전체 토픽 중 가장 많은 부분인 30.9%로 70편의 논문이 포함된 “아웃도어웨어의 디자인 및 패 턴”이다. 상위 키워드로는 제품, 조사, 디자인, 재킷, 활동, 의류, 소재, 컬러, 패턴, 형태 등이 포함되며, 차 별단어로 재킷, 의류, 패턴, 형태 등이 포함되어 아웃 도어웨어의 형태나 활동성과 관련된 디자인의 패턴개 발이 토픽의 주제임을 추론할 수 있으며, 아웃도어웨 어 중에서도 재킷이 주를 이루고 있음을 알 수 있다. 또한, 재킷과 관련된 디자인이나 색상에 대한 조사도 연결되어 있음을 짐작할 수 있다. 해당 연구에서 등산 을 여가활동이지만 전문적인 활동으로 즐기려는 소 비자들이 등산복 재킷의 형태에 불만이 많은 것으로 (Han & Kim, 2014) 나타났으며, Kim and Kim(2018) 은 선행연구에서 액티브 시니어가 가장 선호하는 것 으로 밝혀진 3개의 아웃도어 브랜드 재킷에 대한 착 의 적합성 평가 결과를 통해 연구복 패턴으로 사용하 기 위한 기초 패턴으로 결정하였으며, 이를 바탕으로 액티브 시니어 남성의 착용 만족도가 높은 아웃도어 재킷 생산에 활용할 수 있는 연구복을 제작하였다. Han and Kim(2016)은 아웃도어 시장에 패션 감성이 접목됨에 따라 소비자의 요구에 부응하기 위해 국내 아웃도어 대표 브랜드의 소재, 색상, 실루엣, 디테일 에 대한 조사를 바탕으로 기능성과 패션성을 접목한 아웃도어 재킷 디자인을 개발하였으며, Park and Ha (2017)는 국내 아웃도어웨어를 위한 색채 활용 방안 을 제시하고자 재킷을 대상으로 선호 색채를 분석하 는 연구를 진행했다.
토픽 4는 전체 논문 중 25편(10.9%)이 포함된 그룹 으로, 상위 키워드에는 영향, 구매, 아웃도어, 관계, 사 용, 요인, 태도, 스포츠, 매장, 행동 등의 단어가 포함 되며 차별단어로 관계, 사용, 태도, 매장, 행동 등이 포 함되어 아웃도어웨어를 구매하는 소비자의 태도나 행 동, 판매자와의 관계 등과 같은 소비자의 구매 행동과 관련된 내용이 주요 토픽 주제임을 추론할 수 있다. 토픽 4의 주제는 “아웃도어웨어 구매 행동”으로 중년 여성 소비자들의 아웃도어웨어 상품 선택 기준, 점포 선택 기준, 그리고 점포 유형 및 위치에 따른 구매 행 동을 파악하고, 상품선택 시 편안함이 가장 중요한 기 준으로 밝힌 Chung(2015)의 연구가 해당한다.
토픽 5는 전체의 12.3%인 27편의 논문이 있는 그 룹으로 주제는 “아웃도어웨어의 색상 및 디자인과 소 재”이다. 상위 키워드로 아웃도어, 컬러, 디자인, 시 장, 제품, 배색, 소재, 초점, 국내, 상징 등의 단어가 포 함되며 차별단어로 배색, 초점, 국내, 상징 등이 포함 되어 있어, 색상과 배색 및 소재를 중심으로 한 아웃도 어웨어 디자인에 관한 연구임을 알 수 있다. “아웃도 어웨어의 디자인 및 패턴”이 주제인 토픽 3과의 차이 점은 토픽 3은 아웃도어웨어의 기능적인 면에 중점을 둔 디자인이 주제이고, 토픽 5는 심미적인 면에 중점 을 둔 디자인이 주제라 할 수 있다. Y. J. Park(2017) 의 연구는 토픽 5에 가장 적합한 논문으로, 정체기에 접어든 국내 아웃도어 시장의 활성화를 위해 국내․ 외 대표 아웃도어 브랜드 10개를 대상으로 재킷의 색 상, 배색을 비교 분석한 사례연구로 국내 브랜드와 달 리 국외 브랜드의 경우, 브랜드만의 상징적인 배색 방 법을 활용하고 있으므로, 소비자 트렌드를 반영하면서 도 브랜드 고유의 색채와 배색 체계화를 통해 브랜드 경쟁력을 높이기 위한 노력이 필요함을 강조하였다.
토픽 6의 주제는 “아웃도어웨어 프로모션 전략”으 로 전체 논문의 10.9%인 25편의 논문이 포함되어 있 다. 광고, 스포츠웨어, 정보, 지각, 시장, 제품, 기능, 구매, 모델, 유형 등의 단어가 상위 키워드로 포함되 어 있으며, 광고, 스포츠웨어, 정보, 지각, 모델, 유형 등이 차별단어로 나타나 아웃도어웨어를 광고의 어떤 부분에 대해 소비자가 정보를 지각하는지, 어떻게 영 향을 미치는지 등 아웃도어웨어 광고와 관련된 내용 이 주요 토픽 주제임을 확인할 수 있다. 2017년 상반 기 매출 1위에서 4위 아웃도어 브랜드의 광고 4편을 도구로 광고속성이 브랜드 태도, 브랜드 자산 및 구매 의도에 미치는 영향에 관한 연구(Lee et al., 2018)가 해당한다. 이 연구에서 광고속성은 브랜드 태도와 브 랜드 인지도에 정보성과 오락성은 정의 영향을, 불편 성은 부의 영향을 미치는 것으로 나타났으며, 구매 의 도에는 정보성과 오락성만 유의한 영향을 미치는 것 으로 나타났다. 그리고, 아웃도어웨어 광고사진 속에 등장하는 모델의 성별이 광고 태도, 브랜드 태도, 브 랜드 이미지, 구매 의도에 미치는 영향에 관한 연구 (Choi & Lim, 2020)가 있다.
토픽 7은 상위 키워드로 가치, 디자인, 이미지, 의 도, 영향, 만족, 구매, 요인, 자아, 관계 등의 단어가 포 함되며 차별단어로 가치, 이미지, 의도, 만족, 자아, 관 계 등이 포함되어, 토픽의 주제는 “아웃도어웨어 브랜 드 이미지에 따른 구매 의도와 만족”이다. 전체 논문 의 8.6%인 20편의 논문이 포함된 이 그룹은 아웃도어 웨어 브랜드가 소비자의 선택요인이나 구매 의도 그 리고 구매 만족에 미치는 영향에 관한 연구들로, 기능 성, 실용성, 심미성, 자기 과시성, 상징성과 같은 선택 요인이 구매 만족도에 미치는 영향과의 관계에서 브 랜드 아이덴티티의 매개 효과 검증하면서 컬러, 심벌 마크, 로고가 만족도에 유의미한 영향을 미친 것으로 밝혀진 연구(Kang & Cho, 2014)가 있다. 또한, 아웃 도어웨어 브랜드의 개성과 소비자의 자아 이미지 일 치성이 브랜드 태도와 브랜드 애착과의 영향 관계를 검증한 Jang and Cho(2016)의 연구 역시 브랜드가 소 비자의 구매에 미치는 영향에 관한 연구로 이 그룹에 해당한다.
마지막으로 토픽 8은 전체의 10.5%인 24편의 논문 이 있는 그룹으로 상위 키워드로는 집단, 아웃도어, 선호, 추구, 등산복, 구매, 스포츠, 차이, 컬러, 활동 등 의 단어가 포함되며, 차별단어로 집단, 선호, 추구, 등 산복, 차이, 활동 등이 포함되어 있다. 추구 혜택을 비 롯한 다양한 기준에 의해 나눠진 소비자 집단별 아웃 도어웨어 선호의 차이가 어떻게 다른지를 연구한 논 문들로, 토픽의 주제는 “소비자 집단에 따른 아웃도어 웨어 선호도의 차이”이다. Je(2012)는 아웃도어웨어 추구 혜택에 따라 소비자를 4개의 집단으로 세분화한 후 집단에 따라 디자인이나 컬러와 같은 의복선택기 준과 구매 행동에 통계적으로 유의미한 차이가 있음 을 밝혔다.
토픽 모델링 결과, 아웃도어웨어 연구 동향 분석은 위와 같이 총 8개의 토픽이 선정되었으며, 아웃도어웨 어의 디자인 및 패턴을 주제로 하는 토픽 3의 비율이 30.9%로 가장 높게 나타났으며, 다음으로 아웃도어웨 어의 색상 및 디자인과 소재가 주제인 토픽 5가 높게 나타났다. 라이프스타일 분석, 체험 마케팅, 아웃도어 웨어 속성과 평가, 소비자 구매 행동, 프로모션 전략, 브랜드 이미지, 구매 의도와 만족, 소비자 집단에 따른 아웃도어웨어 선호도의 차이 등 다양한 주제로 연구가 진행되었음을 확인할 수 있으나, 그중 디자인과 관련 된 연구들이 주요 연구주제임을 알 수 있었다.
Ⅴ. Conclusion
본 연구는 텍스트 마이닝 기법인 LDA 토픽 모델링 을 사용하여 아웃도어웨어에 관한 연구 동향을 분석 하였다. 아웃도어웨어에 관한 연구 동향 분석은 2016 년에 진행되었으나, 5년 이상이 지나 시의성을 기대 하기 어려울 뿐 아니라 내용분석 방법으로 진행되어, 최근 새로운 연구 동향 분석방법으로 주목받고 있는 토픽 모델링을 사용한 분석이 필요할 것으로 사료되 었다. 이에 본 연구는 아웃도어와 등산복을 주제로 한 국교육학술정보원(KERIS)에서 제공하는 학술데이터 베이스인 RISS를 이용하여 2002년 1월 1일부터 2022 년 10월 31일까지 게재된 논문을 대상으로 총 227편 의 학술지에서 논문의 제목과 연도, 학술지명 및 초록 을 웹 크롤링하였다. 연도별, 학회지별 논문의 현황을 살펴보았으며, LDA 토픽 모델링에 앞서 수집한 데이 터는 Python을 이용하여 전처리 작업을 진행하였다. 정제된 데이터는 LDA 토픽 모델링을 실시하였으며, pyLDAvis 라이브러리를 활용해 결과를 시각화하였 다. 연구분석 결과는 다음과 같다.
첫째, 연도별 논문의 현황은 2009년부터 서서히 증 가하기 시작하여, 2014년을 기점으로 점점 감소하고 있는 것을 확인할 수 있었으며, 이러한 결과는 국내 아웃도어웨어 시장의 성장과 흐름을 같이 하는 것으 로, 매출의 정점에 있었던 2013년에서 2016년까지 기 간에 논문의 게재가 집중된 것으로 나타났다. 그러나 코로나-19 이후 아웃도어웨어 시장이 새로운 전성기 를 맞이한 시점에서의 큰 변화는 보이지 않았다. 학회 지별 논문의 현황은 전체 학회 중 “한국의류산업학회 지”에 가장 많은 논문이 게재되었으며, 체육학 분야의 학회지에서도 논문의 게재가 많은 것을 확인할 수 있 었다. 또한, 공학 및 과학 분야 학회지에서도 논문의 게재를 찾을 수 있어, 아웃도어웨어에 대한 다양한 학 계의 관심을 유추할 수 있었다.
둘째, LDA 토픽 모델링 결과 총 8개의 토픽이 도 출되었다. 체험 마케팅과 라이프스타일, 아웃도어웨 어 속성과 평가, 아웃도어웨어의 디자인 및 패턴, 아 웃도어웨어 구매 행동, 아웃도어웨어의 색상 및 디자 인과 소재, 아웃도어웨어 프로모션 전략, 아웃도어웨 어 브랜드 이미지에 따른 구매 의도와 만족 그리고 소 비자 집단에 따른 아웃도어웨어 선호도의 차이가 8개 토픽의 주제다. 전체 토픽 중 각각의 토픽이 차지하는 비율을 확인한 결과, 아웃도어웨어의 디자인 및 패턴 을 주제로 하는 토픽 3의 비율이 30.9%로 가장 높게 나타났으며, 다음으로 아웃도어웨어의 색상 및 디자인 과 소재가 주제인 토픽 5가 높게 나타나 디자인과 관 련된 연구들이 주요 연구주제임을 알 수 있었다. 그러 나 디자인이라는 주제 안에서 토픽 3과 토픽 5를 세부 적으로 봤을 때, 두 토픽 사이에는 차이점이 존재한다. 토픽 3은 재킷, 활동, 패턴, 형태 등의 단어를 포함하 고 있어 기능적인 면에 중점을 둔 디자인이 주제인 반 면, 토픽 5는 컬러, 배색, 소재, 상징 등의 단어를 포함 하고 있어 심미적인 면에 중점을 둔 디자인이 주제인 것을 확인할 수 있다. 또한, 8개 토픽의 주제와 각 토 픽에 해당하는 논문을 연결한 결과 전체적인 주제의 소비자에 초점이 맞춰져 있음을 유추할 수 있었다. 주 요 토픽으로 밝혀진 디자인 관련 논문에서도 소비자 의 선호를 기본으로 연구가 진행되었으며, 그 외의 논 문들도 연구대상이 소비자인 것을 확인할 수 있다.
아웃도어웨어 연구 동향을 분석한 연구의 시사점 및 한계점은 다음과 같다.
첫째, 다른 세부분야와 달리 아웃도어웨어 연구 동 향에 대한 연구가 미흡했으며, 시기적으로도 새로운 연구가 필요한 시점에 이루어진 연구라는 데 학문적 의의가 있다. 그러나 학술지만을 연구의 대상으로 하 여 후속 연구에서는 학위 논문까지 그 범위를 확장하 여 학술지와 학위논문과의 비교 연구도 의미가 있을 것으로 사료된다. 또한, 학술논문으로 그 범위를 한정 하여 실무적 시사점을 제공하기 어렵다는 한계점을 갖는다.
둘째, 연구 동향을 분석하기 위한 방법으로 연구자 의 주관적 분석방법인 내용분석이 아니라, 최근 주목 받고 있는 문헌연구방법의 새로운 접근법인 빅데이터 를 기반으로 한 텍스트마이닝 기법인 토픽 모델링을 이용하여 분석하였다는 점에 학문적 의의가 있다. 그 러나 내용분석에서 분석되었던 연도별 세부영역에 대 한 변화의 추이를 분석하지 못한 한계점이 있다. 이에 후속 연구에서는 DTM(dynamic topic model)을 이용 한 연구를 통해 시기에 따른 아웃도어웨어 연구주제 의 변화를 분석하는 연구가 진행되기를 바란다.
셋째, 본 연구는 LDA 토픽 모델링 분석용 데이터 를 학술논문의 초록으로 한정하였다. 이는 논문 내용 전체를 대표할 수 있지만, 학회마다 제한된 단어 수로 인해 연구자가 말하고자 하는 결과를 모두 함축한 내 용이라고 볼 수 없다. 이에 향후 연구에서는 데이터의 수집 범위를 확장한 연구를 통해 좀 더 의미 있는 결 과가 도출되기를 희망한다.