【 To-do list 】
- 파이썬 코딩 테스트
【 In progress 】
- 방통대 프라임칼리지 AI학과 기말고사 대비
- 커널 아카데미 AI 부트캠프 2주차 / 32주
- NIPA google 딥러닝 4주차 / 8주
【 Done 】
- 방통대 통계학개론 15강. 범주형 데이터의 분석 100%
- 방통대 소프트웨어 개발방법론 15강. Machining Learning Practice 100%
- 방통대 파이썬 15강. 웹크롤러2 100%
- 방통대 확률의 이해 15강 몬테카를로 시뮬레이션 100%
【 Reflect 】
내일은 방통대 기말고사 4과목 시험이 있다. 기말고사 관련 공지사항을 꼼꼼히 확인하고, 주어진 시간 안에 핵심 내용 위주로 효율적으로 복습하자. 시험이 온라인으로 진행되기 때문에, 정리한 핵심 내용을 잘 활용해 오픈북 방식으로 최대한 좋은 성과를 내도록 하자.
다행히도 강의는 이미 100% 완강한 상태다. 다음 주에는 최종 출석 확인도 예정되어 있으니, 모든 강의 수강을 다음 주 수요일까지 마무리하자.
또한, 다음 주에는 머신러닝 1과 대학기초수학 2 과정의 시험이 각각 수요일과 목요일에 있다. 해당 과목들의 시험 범위와 강의도 꼼꼼히 챙기도록 하자.
다음 주에는 필리핀 세부로 출국할 예정이기 때문에, 현지 도착 즉시 와이파이 환경을 점검하고, 만약 시험 응시가 어려운 환경일 경우를 대비해 미리 대체 시험 신청을 준비하자.
내일 시험을 잘 치르고, 최선을 다한 하루로 마무리하자.
통계학
1. 자료의 종류 및 변수 유형
명목형 변수: 성별, 혈액형 등 이름만 다름. 순서 없음.
순서형 변수: 비만도처럼 순서가 있는 범주형.
수치형 변수: 체중처럼 수치로 측정 가능. 이산형 또는 연속형으로 구분됨.
2. 기술통계와 시각화
상자그림(Box plot): 다섯 수치 요약(최솟값, Q1, 중앙값, Q3, 최댓값)을 시각화함.
막대그래프, 히스토그램, 점도표: 자료의 유형에 따라 사용.
표준편차: 평균을 중심으로 데이터가 퍼져 있는 정도를 나타냄. 작을수록 평균에 가까움.
3. 분산분석 (ANOVA)
유의확률(p-value)이 유의수준보다 작으면 차이가 있음 → 귀무가설 기각.
각 요인(예: 품종, 토양)에 대해 개별 해석 필요.
4. 사분위수와 중심 경향치
사분위수는 Q1(25%), Q2(중앙값), Q3(75%)로 분포 요약.
평균은 극단값에 영향을 많이 받지만, 중앙값은 덜 민감함.
5. 신뢰구간과 추정
신뢰구간 = 추정값 ± 오차
신뢰수준이 높을수록 신뢰구간은 길어짐.
유의수준(α)은 제1종 오류를 허용하는 최대 확률.
6. 회귀분석과 상관분석
결정계수(R²): 회귀식의 설명력, 1에 가까울수록 좋음.
상관계수: 선형관계의 방향과 강도 나타냄 (−1 ~ +1)
독립이면 조건부확률 P(A∣B)=P(A)P(A|B) = P(A)가 성립.
7. 확률분포와 변환
기대값: E(X)=∑x⋅P(x)E(X) = \sum x \cdot P(x)
분산: Var(X)=E(X2)−[E(X)]2Var(X) = E(X^2) - [E(X)]^2
표준정규분포 변환: Z=X−μσZ = \frac{X - \mu}{\sigma}
선형변환 시 평균은 aX+baX + b, 표준편차는 ∣a∣⋅σ|a| \cdot \sigma
8. 가설검정과 오류
귀무가설(H₀): 차이 없음, 효과 없음
대립가설(H₁): 차이 있음, 효과 있음
제1종 오류: 참인 귀무가설을 잘못 기각 (유의수준 α 관련)
제2종 오류: 거짓인 귀무가설을 기각하지 못함
9. 검정 방법 선택 기준
서로 다른 집단 비교: 독립표본 t검정
같은 집단의 두 시점 비교: 대응표본 t검정
3개 이상 집단 비교: 분산분석(ANOVA)
10. 표본, 모집단, 통계량
모집단: 조사 대상 전체
표본: 모집단에서 뽑은 일부
모수: 모집단의 특성치 (예: 평균, 비율)
통계량: 표본으로부터 계산된 값 (예: 표본평균)
소프트웨어 개발 방법론
① Git & GitHub 관련
Merge | 병합 명령은 병합 당하는 브랜치가 아닌, 병합할 브랜치에서 실행해야 함 (git merge 브랜치명) |
3-way Merge | 병합 시 두 브랜치와 공통 조상(commit)을 기준으로 병합 커밋 생성 |
Rebase | 히스토리를 재정렬하는 방식으로, 병합 커밋이 생성되지 않음. 히스토리가 깔끔해짐 |
git pull vs git fetch | git pull은 fetch + merge를 자동 수행. 그러나 완전히 동일하진 않음 |
Remote 연결 | 원격 저장소 연결은 git remote add origin <URL> 명령을 사용 |
Tag 종류 | Annotated Tag는 작성자, 이메일, 날짜, 메시지 포함 (배포용으로 많이 사용됨) |
공개키 인증 (SSH) | 로컬에서 key pair 생성 (public/private) 후, 서버에 public key 등록하여 인증 수행 |
② 애자일 방법론 관련
일 단위 계층 | 작업 단위를 Theme > Epic > User Story > Task 순으로 구분하여 정의 |
PO(Product Owner) | 제품 백로그의 우선순위 변경 권한 보유 |
Scrum & Kanban | 서로 함께 사용 가능, 상호보완적. 예: 스크럼 내에서 칸반 보드를 활용 가능 |
데일리 스크럼 | 보고가 목적이 아님, 팀원 간 정보 공유 및 진행 상황 조율이 주 목적 |
③ 기타 소프트웨어 개발 지식
오픈소스 라이선스 | 라이선스 문구는 수정/삭제 불가. 반드시 원형 유지해야 함 |
BSD 라이선스 | 소스코드 공개 의무 없음. 자유롭게 수정·배포 가능 |
unittest 모듈 (파이썬) | 테스트 메서드는 **test_로 시작**해야 unittest 프레임워크에서 인식함 |
ML 파이프라인 피드백 | 모델 피드백을 위해 대시보드 구성을 통해 성능을 시각화 및 추적함 |
확률의 이해
1. 변수의 유형
명목형 | 이름처럼 구분만 가능, 순서 없음 | 성별(남/여), 혈액형(A/B/AB/O) |
순서형 | 순서 있음, 간격은 모름 | 만족도(매우 좋음~매우 나쁨), 학년 |
이산형 | 셀 수 있음 (정수값) | 자녀 수, 사고 횟수 |
연속형 | 셀 수 없고 무한한 값, 실수 | 키, 몸무게, 시간 |
※ 순서형은 순위는 있지만 간격은 일정하지 않음. 예: '좋음'과 '보통'의 차이와 '보통'과 '나쁨'의 차이는 같지 않음.
2. 기술 통계 (Descriptive Statistics)
- 평균 (Mean): 데이터의 산술적 중심
- 중앙값 (Median): 데이터를 크기순으로 정렬했을 때 가운데 값
- 최빈값 (Mode): 가장 자주 나오는 값
- 분산 (Variance): 평균과의 거리 제곱의 평균
- 표준편차 (Standard Deviation): 분산의 제곱근, 데이터 퍼짐 정도
- 사분위수 (IQR): Q3 - Q1, 중앙값 기준 위아래 25%의 범위
※ 평균은 이상값에 민감하지만 중앙값은 그렇지 않음.
3. 확률분포
이산형 확률분포
- 베르누이 분포: 0 또는 1 결과만 있음 (예: 동전 던지기)
- 이항분포: 베르누이 시행 n번 반복 (예: 10번 던져 앞면이 나올 확률)
- 포아송분포: 일정 시간/공간 내 사건 발생 횟수 (예: 시간당 전화 수)
연속형 확률분포
- 정규분포 (Normal): 종 모양, 평균 기준 좌우대칭
- t-분포: 표본이 작고 모표준편차를 모를 때 사용
- 카이제곱분포 (χ²): 분산 검정, 적합도/독립성 검정에 사용
- F-분포: 두 개의 분산을 비교 (분산분석)
4. 정규분포 (Normal Distribution)
- 특징: 평균을 중심으로 좌우 대칭, 종(bell) 모양
- 68-95-99.7 법칙:
- ±1σ: 68%
- ±2σ: 95%
- ±3σ: 99.7%
- 표준 정규분포: 평균 0, 표준편차 1로 바꾼 정규분포 (Z-score 이용)
※ 모든 t-분포, 카이제곱, F 분포는 정규분포에서 파생됨
5. 추론 통계 (Inferential Statistics)
신뢰구간
- 모수(모평균 등)에 대해 추정값 ± 오차범위로 나타냄
- 보통 95% 신뢰수준 사용
가설검정 절차
- 귀무가설 H₀ 설정: 변화 없다, 차이 없다
- 대립가설 H₁ 설정: 변화 있다, 차이 있다
- 유의수준 α 설정: 일반적으로 0.05
- 검정통계량 계산: Z, t, χ², F 등
- P-value 확인: α보다 작으면 귀무가설 기각
※ P-value가 작을수록 대립가설이 맞다는 근거가 강해짐
6. t-분포
- 표본 수가 적을 때 (n<30) 사용
- 자유도(df)에 따라 곡선이 달라짐
- n이 커질수록 정규분포에 가까워짐
※ 표본 평균 비교, 두 집단 평균 비교 등에 사용
7. 카이제곱 분포 (χ² 분포)
- 적합도 검정: 관찰값이 기대값과 얼마나 다른가?
- 독립성 검정: 두 범주형 변수의 관련성 분석
- 자유도에 따라 분포 형태가 변함 (비대칭, 오른쪽으로 치우침)
8. F-분포
- 분산분석(ANOVA)에 사용
- 두 집단 이상의 평균 차이 검정
- 두 분산의 비율에 따라 결정됨
9. 회귀분석과 상관분석
- 회귀분석:
- x → y로 영향 추정
- 회귀계수, 결정계수(R²) 중요
- 단순회귀 vs 다중회귀
- 상관분석:
- 두 변수 간 선형 관계
- 상관계수 r (−1 ≤ r ≤ 1)
- r > 0: 양의 상관
- r < 0: 음의 상관
- r = 0: 상관 없음
'개발💻 > 개발일지' 카테고리의 다른 글
[개발 일지] 25. 06. 09 Mon (1) | 2025.06.11 |
---|---|
[개발 일지] 25. 06. 08 Sun (1) | 2025.06.09 |
[개발 일지] 25. 06. 06 Fri (1) | 2025.06.07 |
[개발 일지] 25. 06. 05 Thur (0) | 2025.06.06 |
[개발 일지] 25. 06. 04 Wed (0) | 2025.06.06 |