NCWD - 삽질하는 중기
Contents
NCWD - 삽질하는 중기¶
이번주 한 일¶
Dataset - Crypto News Aggregator라는걸 활용해서 모아봤습니다.
2021-2023년 사이 뉴스기사 2만건: headline과 text의 첫 줄
NER Pipeline 모았고
TF-IDF 한번 써봄
Dataset의 문제¶
내가 생각했던 단어들이 너무 희소한 빈도로 나옴. (TF-IDF가 의미없어짐)
인명, 기관명, 뭐 코인 이름은 나옴.
“무슨 코인이 어디에 상장되었다” / “누가 얼마라고 가격을 예측했다”
그런데 Headline에는 생각보다 tech 개념들이 안 나옴.
아예 데이터부터 새로 찾자…
NER + OOV 접근의 문제점¶
파인튜닝 안한 LLM의 토크나이저에 넣고, OOV로 걸러내야겠다고 생각함
Shibainu - 이런건 잡아내겠지
고유명사는 잡아낼 수 있는듯
Gary Gensler / Justing Hong → 이건 아마도 학습됨
아래 케이스들을 못걸러냄 안됨
WorldCoin, stablecoin → stable/coin 으로 subword들이 이미 있음 → OOV가 안나옴
account abstraction, NFT Bound account → 기존 단어들의 조합으로 새로 됨
sequencer, zero knowledge → 기존에 존재하던 개념이지만 새롭게 주목받는 단어
soul bound token / soulbound token → 표기가 정착되지 않았음.
SBT → 줄임말은 어려움
새로운 접근¶
문서 요약 task로 바꿈 → 요약에서 key words extraction이 되지 않을까?
GPT에게 시킨다……….
keyword를 bingchat에 던져서, 단어의 뜻 + trending + 언제 만들어졌는 여부를 return하게 만든다.
블록체인 뉴스로 경량화 LLM에 파인튜닝을 시켜야겠음
도와줘요 챗GPT¶
아래와 같은 프롬프트를 입력했습니다.
이후 텍스트를 입력했습니다.
아래와 같은 답변이 나왔구요
그냥 저 목록을 그대로 bingchat / google trend같은데에 던지면, 생성일자와 뜻이 나올 듯
그 데이터로 glossary를 구축한다.
Bingchat에 던지기¶
그다지 결과가 좋지 않다. 데이터가 없는걸까?
좋아 문제는¶
bard가 google knowledge graph, google trend랑 연동할 수 있다는
구글 트렌드와 연동이 좀 이상한 것 같음. 나의 프롬프트 문제인지, trend랑 연동하는게 애초에 문제인지, 아니면 원하는 데이터가 없는지 확인하기
어떤 데이터를 가져다 달라고 할까?
총 검색 숫자
트렌딩 - 최근 몇일간 트렌드가 올랐는지, 요주의 단어가 된 적 있는지
Dictionary 구축.
이 딕셔너리를 GKG로 대체해볼까 생각중.
오늘의 피드백¶
용선님: 기간별로 tokenizer 학습시켜서 비교했을 것 같다.
토크나이저 A,B에 뭐가 들어있는지를 바로 본다. (모델X)
토크나이저 학습에 유효한 데이터 개수! → 트라이 앤 에러
기훈님: token classification 문제로 접근해 보자.
기존 어휘 / 신조어
사람 이름을 잘 태깅하는 모델이면, 새로 나온 아이돌 이름도 잘 태깅할 수 있지 않을까?
일정 기간 발생한 신조어 → 레이블링 후 학습→ 다음에도 된다?!
조선: 배 만들다 / 나라 (동음이의어)
합성해서 신조어인 경우, 다른 맥락이랑 의미가 있다. 그래서 될 것 같다.
수민님: 빈도수 찾는거는 전통적인 방식
term-burstness → 최근에 튀는 단어를 찾는 수치가 있다.
trigram per 시기별로 빈도수 구함.
평균적인 증가율보다, 이 기간동안 증가율이 유난히 높다→ Burst!
이미 논문이 잘 나온 분야다
2번을 먼저 한다음에, 증가율이 보이면, 그때 얘 정보를 확인하면 된다.