본문 바로가기
개발💻/개발일지

[개발 일지] 24. 12. 22 Wed

by Sports Entrepreneur 2025. 1. 20.

【 To-do list 

  - Unity 자격증 취득하기

 In progress 

  - Inner Circle : AI 마스터 Cource 1기

 Done 

  - 크롤링

 Reflect 

  1. 데이터 수집 방식
    Spring, Django, Flask와 같은 도구를 활용해 웹사이트를 개발하여 사용자로부터 직접 데이터를 수집할 수 있다. 또 다른 방법으로는 BeautifulSoup이나 Selenium을 활용한 크롤링으로 이미 존재하는 데이터를 가져오는 방법이 있다.
    데이터 수집 과정에서 스케줄링이 필요한 경우에는 Airflow를 활용하는 것도 좋은 선택이다.
  2. 데이터 파이프라인 구축
    데이터 전처리를 위한 데이터 파이프라인 구축 시에는 Kafka나 Logstash를 활용할 수 있다. 전체 데이터 파이프라인을 설계할 때는 데이터의 양을 고려해 시스템을 설계하는 것이 매우 중요하다.
  3. 데이터 저장 방식
    전처리된 데이터를 저장하기 위해 MySQL이나 PostgreSQL 같은 RDB 계열과 Elasticsearch, MongoDB 같은 NoSQL 계열을 활용할 수 있다. 시스템에 적합한 방식을 판단하여 구축하는 것이 중요하며, 두 방식을 함께 사용하는 것을 추천한다.
  4. 자연어 처리 알고리즘 개발
    PyTorch나 Scikit-learn을 활용해 자연어 처리 모델을 직접 개발하거나, Hugging Face와 같은 커뮤니티에서 이미 만들어진 모델을 사용하는 방법이 있다. AI를 직접 개발하고 싶다면 전자를, 전체 프로세스 관리에 더 중점을 둔다면 후자를 추천한다.
  5. 모니터링 시스템 개발
    자연어 처리 알고리즘 결과를 시각적으로 확인할 수 있는 모니터링 사이트를 개발해야 한다. React, Vue.js 등을 활용해 직접 개발하거나, Grafana 같은 기존 플랫폼을 활용하는 방법이 있다.
  6. 배포 자동화
    Docker와 Kubernetes를 사용해 전체 시스템을 자동화하면 더욱 효율적으로 시스템을 관리할 수 있다.

프로젝트 진행 단계

① 데이터 수집 및 전처리 파이프라인 구축
② 데이터 저장
③ 저장된 데이터를 활용한 자연어 처리 알고리즘 개발
④ 자연어 처리 결과를 시각적으로 확인할 수 있는 모니터링 시스템 개발


1. 데이터 수집 방식 작업 후기

 

이전에 크롤링을 해본 경험이 있어서 이번에도 어렵지 않게 크롤링 작업을 해볼 수 있었다. 확실히, 한 번 경험해본 일은 반복할수록 수월해진다는 생각이 든다. 하지만 개발 분야는 어제 터득한 기술이 오늘 쓸모없어질 때도 많다. 그래서 기본기와 CS 기초 지식이 중요하다는 생각이 들었다.

특히, 컴퓨터의 OS나 네트워크 같은 기본 원리는 쉽게 변하지 않는 반면, 응용 단계에서는 많은 변화가 일어난다고 본다. 앞으로 이런 경험과 신기술 간의 격차를 어떻게 좁힐지 고민해봐야겠다.

요즘은 직접 코드를 작성하기보다는 ChatGPT 같은 생성형 AI를 활용해 코드를 작성하는 일이 많아졌다. 이런 상황에서 코딩 실력이 줄어드는 것 같아 두려움이 들기도 하지만, 이 또한 현명하게 극복해야 할 문제라고 생각한다.

'개발💻 > 개발일지' 카테고리의 다른 글

[개발 일지] 24. 02. 11 Tue  (0) 2025.02.16
[개발 일지] 24. 02. 10 Mon  (0) 2025.02.16
[개발 일지] 24. 12. 21 Tue  (0) 2025.01.15
[개발 일지] 24. 12. 12 Thur  (1) 2024.12.13
[개발 일지] 24. 11. 27 Thur  (0) 2024.12.03