SW정리: SyntaxNet 결과의 의미

2016년 9월 11일 일요일

SyntaxNet 결과의 의미

SyntaxNet의 결과를 머신 러닝으로 통해 어떻게 만들었을까... 분석하려는 사람들은 먼저 tensorflow를 공부해야 하지않을까 생각이 드네요.
그래서, 여기에서는 syntaxnet의 결과를 어떻게 이해해야하는지 고민 해봤습니다.
아래와 같이 실행을 시키면
echo 'I have something to tell you' | syntaxnet/demo.sh

아래와 같은 결과가 나옵니다.
Input: I have something to tell you
Parse:
have VBP ROOT
+-- I PRP nsubj
+-- something NN dobj
+-- tell VB infmod
+-- to TO aux
+-- you PRP dobj

VBP,PRP,NN,VB,....
ROOT,nsubj,dobj,infmod,aux.... 등이 나오는데 이게 뭔지 한참 고민해봤습니다.
http://universaldependencies.org/ 여기에서 그답을 찾을 수 있습니다. 이하 UD
VBP,PRP,NN 등은 POS(part-of-speech) tag라고 합니다.

Universal POS tags (single document)

Morphology 형태소 우리가 일반적으로 말하는 말하는 명사, 동사, 형용사와 같은 품사를 말합니다. 하지만 좀더 많습니다.
그렇지만 UD에 있는 POS tag와 google POS tag가 일치하지는 않습니다.
예를들어 UD POS tag 에서 명사는 NOUN 표시하고 있지만, syntaxnet에서는 NN으로 표시하고있습니다. 상위 예제에서는 something이 되겠네요.
그리고 ROOT,nsubj 이런것은 문장 성분이라고 합니다. 우리가 배워왔던 주어, 술어, 목적어... UD 의 dependency항목에서 찾아볼 수 있습니다.

Universal dependency relations (single document)

dobj 는 직접 목적어, nsubj 명사주어, infmod ... 이건 뒤져도 안나오는데 아시는 분있으면 제보 좀 해주세요.

universal dependencies 말고 stanford dependencies 도 있습니다.
http://nlp.stanford.edu/software/dependencies_manual.pdf

http://nlp.stanford.edu/software/nndep.shtml

이걸로 뭘할 수 있을까...
어떤 자연어가 주어지면 컴퓨터가 뭐래는거야 parser를 돌리게 되죠.
root부터 분석해보면 have 가진다... 뭘가지지? dobj를 찾게되죠.. something 아하 무언가를 가지게 되군, 누가 가진다는 말이지 궁금하면 nsubj 를 찾아서 보면 되죠 I 음 말하는 사람이 어떤걸 가진다는 말이군,,, 이런식으로 처리가 될겁니다.
이걸 번역에도 이용할 수 있습니다. 해당되는 언어의 뜻의 말을 어순으로 다시 나타내면 번역이 되는 겁니다.

댓글 6개:

앙마2016년 10월 8일 오후 5:26
작성자가 댓글을 삭제했습니다.
답글삭제
답글
앙마2016년 10월 8일 오후 5:29
http://nlp.stanford.edu/software/dependencies_manual.pdf

infmod was remode as a relation. It has been generalized as a case of vmod.
partmod was remode as a relation. It has been generalized as a case of vmod.

vmod has been introduced as a relation generalizing over non-finite verbal modifiers that are participial
in form (formerly partmod) or infinitival (formerly infmod).
답글삭제
답글
구글유니2016년 10월 15일 오후 9:15
thanks
답글삭제
답글
개린이2016년 11월 8일 오후 2:28
안녕하세요 저도 지금 비슷한 공부를 하고 있는데요. 논문을 보다가 궁금한 점이 생겨서 찾아보다 들르게 되었습니다! Dependency tree를 구하는 기준이 그냥 문장 성분이 트리의 부모, 자식 노드가 결정되고 문장을 형태소 분석해서 성분의 종류에 따라서 자식들을 채워나가는 건가요?
답글삭제
답글

댓글 추가