본문 바로가기
SMALL

전체 글138

Real‑time event detection in social media streams through semantic analysis of noisy terms [Introduction] SMAFED라는 소셜 미디어 분석 프레임 워크 제안 용어, 약어 및 줄임말 등(=sab)의 단어 의미 분석 수행 이러한 단어의 어휘를 나타내는 통합 지식 베이스 생성 [Methodology] Data Input Layer python의 twitter api를 이용하여 데이터 수집 Pre-processing Layer 구두점, 반복문자 제거등의 데이터 정리 nltk를 통한 토큰화 및 정규화와 말뭉치를 사용하여 sab 추출 Data Enrichment Layer Naijalingo, Urban dictionary, Internet slang 세 가지를 활용하여 약 200만개의 sab 용어 정의와 예시를 포함한 통합지식베이스 생성 모호한 sab가 사용된 tweet과 지식베이스의 예시.. 2023. 12. 11.
[SW Expert Academy] 합성수 방정식 *문제의 저작권은 SW Expert에 있습니다. https://swexpertacademy.com/main/code/problem/problemDetail.do?contestProbId=AYYAGCNKPgIDFARc SW Expert Academy SW 프로그래밍 역량 강화에 도움이 되는 다양한 학습 컨텐츠를 확인하세요! swexpertacademy.com [문제] 합성수 2개를 구하고 그 차이가 제시한 값일 경우 출력 import sys import math sys.stdin = open("합성수 방정식.txt", "r") T=int(input()) def isComposite(num): if num 2023. 7. 3.
[SW Expert Academy] 원 안의 점 *문제의 저작권은 SW Expert에 있습니다. https://swexpertacademy.com/main/code/problem/problemDetail.do?contestProbId=AYcllbDqUVgDFASR SW Expert Academy SW 프로그래밍 역량 강화에 도움이 되는 다양한 학습 컨텐츠를 확인하세요! swexpertacademy.com [문제] 반지름이 n인 원 안에 포함되는 격자점의 개수를 구하는 문제 T = int(input()) for i in range(1, T+1): n = int(input()) cnt = 0 for x in range(-n, n+1): for y in range(-n, n+1): if x ** 2 + y ** 2 2023. 6. 29.
[SW Expert Academy] View *문제의 저작권은 SW Expert에 있습니다. 출처 : https://swexpertacademy.com/main/code/problem/problemDetail.do?problemLevel=3&contestProbId=AV134DPqAA8CFAYh&categoryId=AV134DPqAA8CFAYh&categoryType=CODE&problemTitle=&orderBy=FIRST_REG_DATETIME&selectCodeLang=ALL&select-1=3&pageSize=10&pageIndex=1 SW Expert Academy SW 프로그래밍 역량 강화에 도움이 되는 다양한 학습 컨텐츠를 확인하세요! swexpertacademy.com [문제] 좌우 2칸이상 시야가 확보되는 세대 수 구하는 문제 메모.. 2023. 6. 28.
Traffic Congestion Analysis Based on a Web-GIS and Data Mining of Traffic Events from Twitter [Introduction] 특정 작업에 초점을 맞춘 스마트폰 애플리케이션이 증가함에 따라 모바일 컴퓨팅은 대도시에서 인간 활동을 연구하는데 매우 중요하다. 이를 연구하기 위해 사용할 수 있는 수단 중 사용자 생성 콘텐츠는 개인을 글로벌 규모의 센서로 활용하여 공간 참조 데이터를 수집하는 데에 사용할 수 있는 영향력 있는 수단이다. 본 논문에서는 트위터에서 트래픽 관련 이벤트를 지오코딩하는 방법론을 제안하며 시공간 분석을 통해 교통체증 시공간 정보를 제공한다. 교통 관련 이벤트의 공간 분포는 Web-GIS 애플리케이션에서 교통 혼잡의 집중 또는 밀도를 설명하는 히트맵으로 표시하며 정밀도 및 재현율을 통해 평가를 수행하였다. [Method and Materials] 본 논문의 전체구조도로 총 8단계로 이루어.. 2023. 6. 23.
7. Deadlock -The Deadlock Problem Deadlock(교착상태) 그림과 같이 누군가 희생을 하지 않고 자원(길목)을 가지고 있으면서 상대방의 자원(다른 길목)을 요구하는 상황 일련의 프로세스들이 서로가 가진 자원을 기다리며 block된 상태 Resource(자원) 하드웨어, 소프트웨어 등을 포함하는 개념 (ex : I/O device, CPU cycle, semaphore 등) 프로세스가 자원을 사용하는 절차 (Request, Allocate, Use, Release) Deadlock Example 1 시스템에 2개의 tape drive가 있다. 프로세스 P1과 P2 각각이 하나의 tape drive를 보유한 채 다른 하나를 기다리고 있다. Deadlock Example 2 Binary semaphor.. 2023. 5. 25.
데이터 전처리 기계학습을 위한 데이터 전처리 방법들 (feat. 사이킷런) 이상치 및 결측치 대체 방법 0으로 대체 np.isnan à np.nan_to_num 평균값 or 중앙값 or 최빈값으로 대체 sklearn의 SimpleImputer 클래스 활용 회귀 대체 IterativeImputer 클래스 및 LinearRegression 활용 KNN 대체 KNNImputer 클래스 활용 이상치 탐지 방법 이상치는 데이터 분석을 방해하거나 잘못된 결론을 내리는 원인이 될 수 있음 이상치를 찾아내어 제거하거나 대체함으로써, 데이터 분석 결과의 신뢰성을 향상 이상치 탐지 특징 ​ 코드​ Isolation Forest - 데이터 포인트들을 분리하기 위한 트리를 생성 - 각 데이터 포인트가 얼마나 적은 트리를 통과하는지를 이용하.. 2023. 5. 2.
9장_텍스트 감정 분석하기 한국어 텍스트를 분석하기 위한 방법과 영화 리뷰에 대하ㄴ 감정을 판단하는 딥러닝 모델 생성이 목표 1. 텍스트 감정 분석이란 소셜이나 포털에서 사용자가 작성한 글을 직접적인 의미의 '좋다', '싫다'로 구분할 수 있음 시장을 분석할 때 주가, 금리나 일자리 늘어남을 긍정/부정 신호로 구분할 수 있음 2. 순환 신경망을 이용한 감정 분석 [딥러닝을 위한 감정 분석의 이해] 감정분석에는 어휘기반 사전 구축, 지도학습 등의 방법이 있지만 이번 장에서는 딥러닝 기법을 사용할 것 단어를 벡터화하고 이를 순환신경망 중 LSTM기법을 사용하여 감정분석을 수행 위의 그림과 같이 문장이 제시 되었을 때 띄어쓰기 단위로 단어 임베딩하면 4개의 벡터가 생성됨. 4개의 입력값은 순환 신경망의 각 시점마다 순차적으로 입력 코드.. 2023. 3. 28.
8장_워드투벡을 이용한 자연어 처리 이전 내용에서는 기존의 단어 임베딩(Word Embedding)을 원핫 인코딩(one-hot encoding)방식을 사용함. https://yuna96.tistory.com/133 7장_한글 자연어 처리 자연어 처리 기술(NLP, Natural Language Processing) : 사람이 말하는 언어를 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만드는 기술 1. 자연어 처리 분야 정보 검색(Information Retrieval Service) 가장 yuna96.tistory.com 이 방식은 단어 사전이 무한대로 길어지는 단점이 있으며 대부분 0으로 표시되어 의미 없는 메모리를 차지함. 또한 단어 간의 의미론적 차이와 연관 관계를 이해할 수 없음 이러한 문제를 해결하기 위해 단어를 다차원 공.. 2023. 3. 19.
LIST