본문 바로가기

정보/정보분석

정보학 개론 (3) 정보의 행태

출처

3. 정보의 행태   


   정보의 행태(behavior)란 특정 외부 상황에서 나타나는 정보의 일반적 유형으로서 일정시점에 있어서의 정보의 정적상태(information statics) 및 일정기간에 있어서의 정보의 동적상태(information dynamics)를 의미한다. 즉, 정보자체가 지니고 있는 가치나 이용성이 어느 한 시점에서 어느 정도의 가치나 위치를 차지하고 있는 지의 상태를 말한다.

   정보의 정적 상태는 주로 상대적인 값으로 나타내며, 시간이 지남에 따라 그 값은 달라지게 된다. 정보의 동적상태란 일정기간 동안에 나타나는 정보의 가치나 이용성의 변화추이로서 정적상태가 연속됨으로써 나타나는 현상이다. 따라서 정보의 정적상태는 주로 하나의 수치로 나타낼 수 있는 반면, 정보의 동적상태는 주로 선이나 곡선으로 나타나게 된다. 이와 같이 정보의 행태는 수치화를 통하여 정적인 상태의 값 내지는 동적인 변화현상을 파악할 수 있게 되며, 특히 정보의 행태에 대한 수량적 처리에 대한 연구를 계량서지학(bibliometrics) 또는 계량정보학(informetrics)이라 한다.


   3.1 계량정보학의 정의 및 연구기능   


   Fairthorne(1969)은 계량서지학을 기록된 대화와 행위의 속성에 대한 양적인 처리에 관한 연구라 하였고, Egghe와 Rousseau(1990)는 계량정보학을 정보의 측정, 정보현상에 관한 변수간의 수리모델, 그리고 정보의 축적과 검색을 다루는 학문영역이라고 정의하였다. 

   계량정보학의 연구 목적은 문헌의 구조와 동태분석을 통한 일반법칙을 발견함으로써 문헌을 통한 의사소통의 행태와 구조를 이해하고 예측하기 위함이다. 또한 정보와 관련한 정책이나 정보시스템 설계를 위한 합리적인 근거를 제공함으로써 도서관 정보서비스나 참고봉사, 시스템설계의 기초자료를 제공하기 위함이다.

   계량정보학의 연구기능은 과학적 계획의 기능, 정보관리의 기능, 이론적 연구의 기능을 갖는다. 과학적 계획의 기능은 주로 과학의 역사적 배경 및 시대에 대한 연구, 출판의 양과 국민생산과의 관계 등 과학정책의 자료로서 활용된다. 정보관리 기능은 도서선택과 폐기의 기능, 정보의 조직과 관리 기능, 정보이용 및 활용에 대한 기능, 예산측정의 합리화, 다양한 정보활동과 관련된 의사결정 자료로서 활용된다. 이론적 연구 기능은 학문분야의 지적인 문헌지도 작성, 주제영역의 구조분석, 학문의 발전과 유용성 평가수단, 문헌생산과 이용 등에 대한 다양한 수학적 모델을 개발한다.

   계량정보학의 주요 연구주제로는 특정 주제분야 학술잡지 논문의 분포상황에 관한 연구, 

주제분야별 문헌 이용율에 관한 연구, 저자의 인용패턴 및 인용문헌 구조에 관한 연구, 문헌의 언어, 문헌의 증가율, 특정 주제분야의 연구 동향, 저자의 생산성 및 공저자 분석 등이 포함된다.    


   3.2 인용분석


   1) 인용분석의 개념


      인용(citation)은 학술연구에서 다른 연구자의 연구를 이용하는 방법으로 주로 논문 가운데의 각주나 참고문헌 등으로 표현된다. 인용연구는 연구자에 의해 인용된(cited) 문헌과 연구자가 인용한(citing) 문헌과의 관계를 분석하여 인용문헌간의 관련성을 규명하는 것이다. 인용분석 연구의 기본적인 가정은 다음과 같다. 첫째, 문헌의 인용은 어떤 문헌이 다른 저자에 의해 이용되었음을 나타낸다. 둘째, 문헌의 인용은 인용된 문헌이 갖는 중요성이나 논문의 질, 연구결과의 효과나 영향을 나타낸다. 셋째, 인용은 연구자가 자기 연구에 가장 적합하거나 유용하다고 판단되는 문헌을 선택하여 인용한다. 넷째, 인용된 문헌과 인용하는 하는 문헌과는 내용상의 관계가 깊다.

  

   2) 인용색인


      1963년 SCI(Science Citation Index)의 등장은 인용색인 개념이 처음으로 반영된 색인지이다. 이어서 SSCI(Social Science Citation Index)와 A&HCI(Arts & Humanities Citation Index)가 출판되었다.


      인용색인의 유용성은 다음과 같다.

      가) 인용색인은 정보검색을 위한 전통적인 색인방법과는 다른 접근점을 제공한다. 즉, 기존 색인은 주로 저자, 서명, 키워드, 주제명, 분류번호 등이 접근점이 되고 있는 반면, 인용색인은 인용한 또는 인용된 문헌을 찾기 위한 접근점을 제공한다.

      나) 인용색인은 개인 저자의 업적평가 또는 도서관 장서의 개발부문에서 활용된다. 인용색인 분석을 통해 해당 논문이 인용된 평균빈도를 산출하여 각 개별 문헌의 영향도 및  개별 문헌의 중요도를 파악할 수 있다. 또한 정기간행물 선정 및 폐기와 연구자의 개인 업적 평가에도 활용된다.

      다) 인용색인은 현재의 문헌뿐만 아니라 과거 문헌집단을 소급하여 최초의 이론이나 아이디어의 발상이나 발견 및 다른 학문분야와의 접목 현상 등을 추적 분석할 수 있다. 또한 동시인용분석을 통해 해당 분야의 핵심 개념이나 방법론을 추적하여 그 분야의 지적지도를 도출할 수 있다. 동시인용(cocitation)이란 먼저 발표된 두 편의 논문이 나중에 발표된  제 3의 논문에서 동시에 인용되는 것을 것으로 두 개의 논문이 동시에 인용되는 횟수로 동시인용빈도를 산출한다.

      라) 인용색인은 이용자들에게 최신정보서비스(SDI : Selective Information Service) 에도 사용할 수 있다. 즉, 이용자 프로파일과 입수되는 논문과 매칭시켜 관심분야 논문의 입수를 알려주는 SDI 서비스에 인용된 문헌과 인용한 참고문헌에 대한 정보도 포함하여 서비스를 제공할 수 있다.

    

   3) 인용집중법칙


      Garfield(1972)는 1969년에 출간된 SCI가 색인하고 있는 과학잡지 2,200종에 실린 약 백만 건의 인용분석을 통해 인용논문의 24%가 25개의 학술지에 집중적으로 게재된 사실을 발견하였다. 이는 매우 적은 핵심잡지에 주요 인용논문이 집중된다는 인용집중법칙(Law of Concentration)을 발표하였다.

      한편, 인용분석을 이용하여 학술잡지를 평가하는 방법으로는 Garfield의 영향도(Impact Factor), He와 Pao의 주제영향척도(Discipline Influence Score), Pinski와 Narin의 종합인용영향도(Total Citation Influence Measure), Hirst와 Talent의 주제영향도(Discipline Impact Factor) 등이 있다. 이 가운데서 Garfield의 영향도가 가장 많이 이용되고 있다.

      Garfield의 영향도는 주어진 학술잡지가 모든 분야의 학술잡지들에서 인용된 빈도를 주어진 학술잡지에 포함된 인용할 수 있는 논문  수로 나눈 값으로 측정한다.


                CIT   (Y) + CIT    (Y)

         IF(Y)= ----------------------

                PUB(Y-1) + PUB(Y-2)


               IF(Y) : 특정 Y년의 영향도

               CIT   (Y) : Y-1년에 발간된 논문들에 대한 Y년의 인용 수

               PUB(Y-1) : Y-1년에 발간된 논문 출판 수


         Garfield의 영향도를 이해하기 위해서는 ISI의 Journal Citation Reports(JCR)의 데이터 구성도를 살펴 볼 필요가 있다. JCR은 학술잡지 순위와 소스자료 리스트, 반감기 리스트, 피인용학술잡지 리스트 등으로 구성되어 있으며 이 중에서 학술잡지 순위 부문에 학술잡지 영향도를 기록하고 있다.


                     학술잡지의 영향도 예시 (문헌정보학 분야)

_____________________________________________________________________________________

Rank  Abbreviated  Citations in  Citations  Citations  Citations    Source  Source   Source     Impact

        journal title  in 2001 to   in 2001   in 2001   in 2001 to  items    items    items in     factor

                     all years     to 20000  to 1999  2000-1999  in 2000  in 1999  2000-1999

                                            

__________________________________________________________________________________________________________


   1    J. of Doc.     590          44        51         96         22        25       47       2.021  


  2    Infor. Procss   823          77        75         152        38        43       81       1.877

        Management

  


      위의 표에서 첫 번째 칸은 학술잡지 영향도 순위를 나타내고, 두 번째 칸은 해당 학술잡지의 약어명이다. 그 다음은 해당 학술잡지가 Y년(JCR 발간년) 동안 SCI, SSCI, A&HC의 소스 학술잡지의 논문들에 의하여 인용된 총 빈도수, Y-1년에 발간된 해당 학술잡지의 논문들이 인용된 빈도, Y-2년에 발간된 해당 학술잡지의 논문들이 인용된 빈도, 그리고 이 둘을 더한 값을 나타낸다.

      다음은 Y-1년의 해당 학술잡지에 의해서 발간된 소스 논문 수, Y-2년의 해당 학술잡지에 의해서 발간된 논문 수, 그리고 이 둘을 더한 값을 나타낸다. 마지막 칸은 학술잡지의 ‘영향도’를 나타내는데, 영향도는 해당 학술잡지의 ‘평균논문’이 인용된 상대적 빈도를 나타낸다. 위의 예에서 문헌정보학 분야의 2001년도 Journal of Documentaiton의 영향도는 2.021(95/47)로서 랭킹 1위로 나타났다.  

         




              문헌정보학 분야 학술잡지 영향도 (요약표 예시)

________________________________________________________________________________

Rank Abbreviated   ISSN     2001   Impact  Immediacy  Citations   2001     Cited

     journal title              total    factor    index      in 2001  articles   half-life

                              cites                         to 2001

________________________________________________________________________________________

  1   J. of Doc.  0022-0418   590    2.021    0.438       14        32       7.7


  2.  Infor.Pross 0306-4573   823    1.877    0.317       13        41       6.9

     Manag


 


      위의 표에서 ISSN 다음의 항목은 Y년에 출판된 해당 학술잡지에 포함된 논문들이 같은해 SCI, SSCI 및 A&HCI의 소스 논문들에 의해 인용된 회수와 학술잡지가 같은 해에 발간한 소스 논문의 전체 수를 나타낸다.  

      즉시지수(Immediacy Index)는 2001년에 출한된 논문에 인용된 인용횟수를 2001년 출판된 논문의 수로 나눈 수치이다. 즉시지수는 학자들에 의해 발표된 논문이나 주제발표가 얼마나 신속하게 배포되어 활용되어지는가를 반영하고 있다.

                      CIT  (Y)

            IMI(Y) = ---------      

                       PUB(Y)


      Garfield 영향 측정에는 몇 가지 문제점이 있다. 학술잡지 크기의 다양성이 고려되지 않고 단지 인용회수만으로 평균 인용비도를 계산한다는 문제점이다. 예를 들면 리뷰지가 학술잡지 보다 더 높은 영향도로 나타나게 된다는 것이다. 또 다른 문제점으로는 모든 인용문헌을 동등하게 계산하고 있다는 것으로서 권위가 있는 학술잡지로부터 인용된 문헌은 권위가 별로 없는 학술잡지로부터 인용된 문헌보다 더 많은 가중치를 주어야 한다는 점이다.


   3.3 서지결합법


   서지결합법(Citation Coupling)은 1963년 미국 MIT의 Kessler가 제시한 이론으로 여러 개의 문헌이 공통되는 인용문헌을 하나 이상 갖고 있을 때 이 문헌들은 서로 주제적으로 관련되어 있다는 가정으로 이러한 문헌들은 서지적으로 결합되어 있다는 의미이다. 즉, 논문 A가 논문X와 Y에 공통으로 인용되었다면, 이러한 결합단위가 높을수록 두 문헌의 주제는 유사하다는 것이다.

   서지결합법은 수치로 처리되기 때문에 언어에 구애받지 않으며, 전문적 지식도 요구되지 않고, 한 그룹 내의 문헌들을 과거뿐만 아니라 미래에 이르기까지 확장된다. 한 논문이 계속 인용되는 한 서지결합된 논문집단을 계속 증가할 것이다. 전통적인 주제분석에 의한 색인방법과 서지결합법으로 검색한 결과를 비교한 실험에서 검색된 문헌집합은 서로 아주 높은 관련성을 가지고 있음이 증명되었다.

   반면에 서지결합법의 문제점은 두 문헌이 공통으로 참고문헌을 갖는다는 사실이 두 문헌이 반드시 정보의 같은 부분을 참고하고 있다는 보장은 없다는 것과 서지결합법은 정보검색의 도구로 부분적으로 이용될 수 있지만 전적으로 의존할 수는 없다는 것이 지적되고 있다.  그 이유는 인용군에서 제외된 문헌들은 검색될 가능성이 없기 때문이다. 


   3.4 동시인용 분석


   1973년 미국의 정보과학자 Small이 서지결합의 변형인 문헌동시인용기법을 개발하였다.     동시인용분석(cocitation analysis)이란 두 편의 문헌 또는 두 명의 저자가 제3의 문헌이나 저자에 의해 동시에 인용될 때 이들 두 편의 문헌 혹은 저자는 밀접한 관계를 가진다는 것으로 이러한 관계의 강도는 동시인용빈도에 따라 비례한다. 동시인용의 빈도는 동시에 인용되는 회수로 정의되며, 동시인용빈도가 높은 문헌들은 서로 밀접한 관계가 있으며, 인용빈도가 높은 문헌들이 해당 분야의 핵심적인 개념이나 방법을 포함하고 있음을 유추할 수 있다. 인용분석을 이용한 선행연구들의 대부분이 문헌인용분석 방법으로 이루어지고 있으나 저자인용분석도 상당 부분 찾아볼 수 있다.

   문헌동시인용분석은 주제분야의 관계를 파악하거나, 학문분야의 성장과 학문의 구조적 변화를 규명하는 등 지식전반에 걸친 특색을 매핑하는데 이용될 수 있다. (Small, 1973)

   한편, 저자동시인용분석은 두 저자가 동시인용이 자주 될 수록 두 저자는 밀접한 관계를 갖는다고 볼 수 있다. 저자동시인용분석에서는 저자는 자연인을 지칭하는 것이 아니라 그 저작가 생산한 저작물의 총체를 의미한다. 저자동시인용분석을 통하여 저자들의 군집을 추출함으로써 특정주제분야별로 저자들을 그룹핑할 수 있다. (White와 Griffith, 1981)


   동시인용빈도에 대한 집합 개념은 다음과 같다.

        n(A   B)

       --------- = 문헌 a와 b의 상대적 동시인용빈도

        n(A   B)


        A : 문헌 a를 인용한 문헌들의 집합

        B : 문헌 b를 인용한 문헌들의 집합

        (A   B) : 문헌 a나 b를 인용한 문헌들의 집합

        (A   B) : 문헌 a와 b를 함께 인용한 문헌들의 집합 

        n(A  B) : 문헌 a나 b의 동시인용빈도

        n(A  B) : 문헌 a와 b의 동시인용빈도


   White(1990)는 저자동시인용분석이 활용될 수 있는 영역을 제시한바 있다. 첫째, 저자지도는 특정 주제분야의 핵심저자군과 주변 저자군을 제공함으로 주제탐색기법으로 활용될 수 있다. 둘째, 저자지도에 나타난 저자군집과 그 위치는 특정 주제분야의 지적구조는 물론 연구자들의 인간관계나 사회적 구조를 반영한다. 셋째, 저자지도에서 특정 주제분야에 속한 저자들은 시간의 경과에도 불구하고 대부분 안정성을 유지한다.


   동시인용분석의 대표적인 한계점은 다음과 같다.

   첫째, 동시인용된 두 문헌이 내용적으로 의미있게 연관되지 않는 경우도 있다.

   둘째, 비슷하거나 보충적인 사실을 거듭 인용하는 경우, 동시인용빈도수를 증가시키게 된다.

   셋째, 동시인용 데이터를 이용하여 형성된 저자군집이나 문헌군집은 현재 진행되고 있는 연구자들의 연구경향을 나타내기 보다는 과거의 연구경향이나 지적 구조를 나타낸다.  


   3.4 저자생산성 법칙


   1) Lotka 법칙

      Lotka(1926)는 1907년부터 1916년까지 Chemical Abstracts에 게재된 논문을 분석하여 저자 생산성(productivity of authors)에 대해 조사하였다. 그 결과를 근거로 Lotka는  저자의 수와 저자들이 발표한 논문의 수와의 일반화된 법칙을 발견할 수 있었다.     

      즉, 특정 주제

분야에서 X 편의 논문을 생산한 저자수가 한 편의 논문을 생산한 저자수의 1/X 이 된다는 법칙이다. 한편의 논문을 생산한 저자수를 알면 X편의 논문을 생산한 저자수를 예측할 수 있다는 것이다.


            Y  = C/X


            Y = X편의 논문을 생산한 저자 수

            C = 한편의 논문을 생산한 저자 수


      위의 공식에 따라 예를 들면, 1편의 논문을 발표한 사람 100명이 있으면, 2편을 발표하는 사람은 25명(100 x 1/2), 3편을 발표하는 사람은 11.1명이 된다.    


   2) de Solla Price 법칙

      de Solla Price(1963)는 특정 주제분야에서 많은 수의 논문을 생산하는 저자의 수는 그 분야의 총 저자 수의 제곱근에 가까우며, 그들의 논문은 그 분야 출판물의 절반을 차지한다는 법칙이다. N편의 논문을 발표한 저자들의 총 논문편수를 계산하면, 논문을 많이 생상한 극소수의 저자와 논문을 조금 생산한 대다수의 저자들이 제곱근 그래프에서 서로 상응하는 대칭성을 나타낸다는 것이다. 이는 Lotka 법칙과 유사한 개념의 법칙이라 할 수 있다. 

    

   3.4 최소 노력의 법칙


   1) Zipf 법칙

  

      문헌의 본문에 나오는 개개의 단어에 대하여 이들 단어가 사용되고 있는 빈도를 높은 것에서부터 낮은 것의 순으로 배열하게 되면 이들 개개 단어별 순위와 빈도의 곱은 일정하다.


      출현빈도(frequency) x 순위(rank) ≃ 일정(constant)


                       Zipf 법칙의 관계 예시

             ___________________________________________________

                단 어      순위(r)      출현빈도(f)      r x f       

             ___________________________________________________

                 the         1            301          301

                 of          2            152          304

                 for         3            108          324

                 to          4            81           324

                 and        5            68            340

                 in          6            56            336

                 word       7            48            336

                 we         8            45            360

                 ...         ...            ....             ....

             ___________________________________________________       


   2) Zipf의 제2법칙


      Zipf의 법칙은 고빈도 단어에는 대체로 정확하게 적용되지만, 실제로 저빈도 단어에서는 정확하게 적용되지 않았기 때문에 Zipf는 저빈도 단어에 맞는 Zipf의 제2법칙을 제안하였다. 즉 한 문헌에 한번만 출현한 단어의 수와 n번 출현한 단어 수의 비율은 문헌의 길이와 관계없이 일정하다든 것을 보여주고 있다. 


                n       3

                --- = -------

                1     4n  -1


          n : 본문에서 n번 나타난 단어의 수

          1 :  본문에서 1번 나타난 단어의 수

 

      Zipf 법칙 응용의 예로는 자료의 경우, 이용 회수에 따라 이용빈도가 높은 자료가 있고 거의 이용되지 않는 자료도 있다. 즉, 이용빈도와 이에 따른 순위를 산출하면 서가 상에 있어서 자료의 접근 거리를 나타낼 수 있기 때문에 서가상의 자료 배가에 응용될 수 있다.

      또한 문헌상에 나타난 단어빈도에 따라 문헌의 핵심주제를 나타내는 색인어(키워드)의 자동추출을 가능하게 한다.     


   3.5 분산법칙


   1) Bradford 법칙


      특정주제분야에 있어서 그 분야의 학술잡지들을 전부 모아 이들 잡지를 유효기사의 생산성이 높은 논문을 많이 포함하고 있는 학술잡지에서 적게 포함하고 있는 학술잡지순으로 배열하면 그 주제분야에 특히 유익한 핵심 잡지군과 그 핵심 잡지군에 포함된 논문수와 동일한 논문 수를 포함하는 몇 개의 다른 잡지군으로 나누어지며, 이때 이 핵심 잡지군과 기타 잡지군에 속하는 잡지수의 비는 1 : n : n : n  ... 이 될 것이다.

     

   2) Bradford 법칙의 활용

      Bradford 법칙은 문헌정보학 분야에서 여러 가지로 응용되고 있다.

      우선 학술잡지에 수록된 논문 수에 의한 핵심학술잡지의 결정이나, 저자의 인용빈도나 특정 기간동안 저자가 발표한 학술논문을 데이터로 하여 핵심 인용저자들을 선정하거나, 저자의 생산성을 분석하기도 한다.

      첫째, 특정주제와 관련된 논문을 싣고 있는 학술잡지들을 생산성이 높은 순서로 배열할 경우 제한된 예산에서 몇 개의 중요한 학술잡지만을 선택해서 구독하는 수서정책에 응용할 수 있다.

      둘째, Bradford 법칙을 나타내는 그래프나 수학공식을 이용하면 2차 문헌에 수록된 학술잡지의 완전성을 조사할 수 있다. 즉, 주제서지류의 불완전성 측정은 실제 주제분야 서지에 나타난 학술잡지수를 Bradford 법칙에 의한 나타나는 완전한 학술잡지수로 나눔으로써 측정이 가능하다.

      셋째, Bradford 분포는 도서관에서 대출되지 않은 자료들은 폐기처분하고, 많이 이용되고 있는 자료의 복본 구입 결정에 사용될 수 있다.     


   3.6 문헌이용율 감소법칙


   1) Burton과 Kebler 반감기


      과학문헌의 이용빈도를 발행된 연도부터 추적하면 발행 후의 시간적인 경과가 길면 길수록 이용빈도가 떨어지게 된다. 즉, 출판된 시점에서 오래된 문헌보다는 새로운 문헌이 이용 빈도가 높게 나타난다는 것이다. 이와 같이 어떤 과학분야 문헌이 출판되어 그 이용가치가 정확히 반으로 감소되기까지 소요되는 시간을 Burton과 Kebler는 ‘반감기(half life)’라 하였다. 

      학술문헌은 출판후 시간(t)의 경과에 따라 잔여 이용가치(y)와 밀접한 연관성을 가지게 되는데 그 관계식은 다음과 같다.


           y = ae  + be


      이러한 반감기는 개개의 문헌에 따라 다르지만, 주제분야에 따라서도 다르게 나타난다. 문헌생산 활동이 비교적 활발한 분야는 새로운 문헌이 많이 생산되기 때문에 문헌의 노화현상이 비교적 빠르다. 문헌의 연령은 일정하지만, 반감기는 문헌의 생산비율과 밀접한 연관성을 갖고 있다.  


   2) Cole의 중위년

      Cole은 인용문헌의 이용율 감소현상을 ‘중위년(median age)'이라 하였다. 과학문헌에 대한 중위년 산출은 도서관이 소장하고 있는 기간호의 보관년수를 결정하는데 사용될 수 있다.  

      Brookes 는 출판 후 경과된 시간(t)과 누계적 잔여이용가치(y) 사이의 관계를 다음과 같은 지수함수로 나타내었다.


           y = a   

      위의 공식에서 y를 T(t)로 대치하면 아래와 같은 공식이 성립된다.


           T(t) = R ․ a


                T(t) = 출판 후 t년이나 그 이상 경과된 문헌의 인용빈도수나 이용빈도수

                R = 표본서지를 구성하는 문헌들의 총 인용빈도수나 총이용빈도수    

                a = 수명감소인자 (a〈1)

'정보 > 정보분석' 카테고리의 다른 글

Impact Factor(IF)란 무엇인가?  (0) 2012.02.21