멀티잇 첫 멘토링을 어제 했는데 꽤 좋았다.
우리 조가 연극 장르 분류 후 키워드 기반 추천 시스템을 만들려고 기획안 발표를 했는데
문제점들을 너무 잘 짚어 주셨다.
기획했던 사람 없냐고, 위크 포인트가 없다고 해주셔서 좋기도 했고.
내가 조장이라서 발표를 했는데
앞에 절어서 조금 아쉬웠는데 다들 긴장해서 그런거로 넘어가 줘서 다음에는 그런 일 없을 거라고 해줬다.
지금... 조원 때문에 문제가 진짜 많은데 그건 우선 차치하고
1. 기능이 너무 많다. -> 일정을 생각해라
1.1. 리뷰 게시판 crud용이면 굳이 필요 없다.
1.2. 지도도 시간 써야 되면 하지마라.
1.3. 디벨롭은 메인 기능 끝내고, 강의 끝내고 하던 가 해라
2. OCR 분석이 생각보다 어렵다.
2.1. 분석이 잘 되지 않으니 확인 해봐라.
3. OCR분석이 잘 된다고 해도, 연극 설명이 짧은 데 그것으로 장르 구분이 될 것인가? 몇 개 뽑아서 장르 구분되는 지 확인 해볼 것
3.1. 장르 구분용 키워드는?
(-> 이건 질문이기도 했는데, 연극 내용을 넣고 top단어들로 해야 하는지, 구분용을 넣어야 하는 지를 여쭤봤다)
3.2. 연극 포스터의 트렌드가 바뀔 텐데 단순히 5개년 1만여 개를 넣는 것보다는 올해 치를 넣어서 학습 시키고 테스트 해서 뽑는 게 나을 수도 있다.
이 3개가 핵심 피드백이었다.
그 이외의 ui나 성별과 연령대 비율을 쓰는 것에 대해서는 이것저것 시도해보고
and 조건으로 그냥 다 받아서 확인하라고 해주셨다.
3주 후의 다음 멘토링이 기대된다고도 해주셨지만,
일정이 너무 타이트한 데 괜찮겠냐고 계속 우려하셔서..
3시에 우리 조 멘토링 끝나자마자 OCR 분석 확인했다.
문제
Tesseract, clova, google 로 연극 상세 내용을 뽑아내려고 시도 했는데..
2.1.1. Tesseract의 경우 띄어쓰기가.. 한글 음절 시 되어서.. 이것 저것 spellchecker, hanspell, 흑백 전환을 해봤는데도 문제가 계속되었다.
텐서플로를 설치해서 kospacing을 해보라고 지피티가 추천했으나.. 텐서플로는 너무 커서 고민 중이었는데, 멘토님이 들어오셔서 시간 낭비하지 말라셔서 거기서 중지 했다.
2.1.2 clova의 경우, api를 확인하고, 었쨌든 띄어쓰기 별로 끊겼으니 join으로 합쳐달라고 다른 분께 요청드렸고,
2.1.3 google의 경우에는 단락으로 넘어오는 경우가 있어서 나눠서 해볼 수 있는지를 확인했는데.
문제는 clova와 google은 모두 유료이고, 생각보다 처리 과정이 많다는 것이었다. 뽑은 내용을 지피티에 넣는 방법도 있다고 말씀해주셔서 그렇게 해볼까 고민하던 찰나 다른 멘토분이 오셨다.
직전까지 찾아봤는데 안 됐던 내용을 공유하고 혹시 방법이 있을 지 여쭤봤다.
멘토님께서도 같이 검색해주셨는데,
연극 분류 기준이 없다는 것과 상세 설명을 이미지로만 두고 빼놓지 않은 것은 장애인을 고려하지 않는 법을 위반하는 것이라고
놀라워 하셨다.
왜 우리가 포스터에서 글을 뽑으려고 했는지는 이해하셨으나
이렇게 되면 데이터를 가지고 오지 못할 수도 있고,
확인이 안 될 수도 있으니 차라리 소극장 상생을 버리고
찾은 것처럼 이미 상세 내용이 있는 공공기관들 (예술의 전당) 같은 것으로 돌려보는 게 어떻겠냐고 말씀하셨다.
시간이 다 되어서 더 이상 멘토링을 받지는 못했지만,
문제를 빠르게 파악할 수 있었고.
바로 회의를 시작했다.
해결?
우선 OCR은 전부 hold하고 인터파크 상세페이지에서 혹시나 싶어서 찾았던 소개 페이지를 다른 플랫폼들에서도 확인했다.
예스 24의 다른 카테고리에서 찾았고, 멜론티켓, 인터파크 에서 중복을 제거하면 별로 없을 것 같아서.. (최대 250여개 정도)
고민을 하던 중에 대학로티켓.com을 다시 뒤졌다.
다행히 2000여개의 연극 정보가 있는 것을 확인해서 소극장 상생은 그대로 가지고 갈 수 있을 것으로 보인다.
대체 왜.. 연극 상세 페이지에 설명을 따로 빼두지 않았던 것인지 모르겠으나
일단은 각자 크롤링 해오기로 했다.
문제는 대학로티켓.com의 경우.. html구조가...진짜 개판이라.. 다 div로만 되어 있어서..
이따가 해야하는데 제대로 긁힐지 모르겠다..
전처리가 정말 오래 걸릴 것 같다.
다른 문제들은 차차 하면서 해결해야 할 것 같은데
우선 ocr을 스킵할 수 있게 되어서 다행이다.
다시 디비설계도 해야겠지만, 우선 빠르게 해봐야 겠다.
++ 자기 자격증 시험만 본다고 하고, 대화가 안통하고 회의 때 계속 헛소리하고
강사님도 우려하셔서 aws 맡겼는데
제대로 할지도 의문이고.. 그냥 라이드 하는 것 같아서 빼고 싶은 열망이 점점 커지고 있다.
'Trouble shooting' 카테고리의 다른 글
[final pj] aws django 배포) debug= false시, MIME type에러, css/js 404 오류 (1) | 2025.01.06 |
---|---|
[final pj] 최악의 인간들이 갱신 됨. 국비지원 멀티캠퍼스 비추천 (3) | 2024.12.03 |
[mini django team project] 리더는.. 의사소통이 중요함.. 그냥 내가 할 걸 (1) | 2024.09.27 |
[django] macOS에서 pycharm, mysql 연동(mysqlclient) 에러 (1) | 2024.09.26 |
[mac m1] finder/미리보기 멈춤, 파일 import/export 문제는 Apple Support로..ㅎ !! os 초기화 보다는 사용자를 우선 바꿔볼 것 (0) | 2024.09.10 |