Transformers documentation
BERTology
시작하기
튜토리얼
Pipeline으로 추론하기AutoClass로 사전 학습된 인스턴스 로드하기데이터 전처리하기사전 학습된 모델 미세 조정하기스크립트로 학습하기🤗 Accelerate로 분산 학습 구성하기🤗 PEFT로 어댑터 로드 및 학습하기만든 모델 공유하기에이전트대규모 언어 모델로 생성하기
태스크 가이드
자연어처리
오디오
(번역중) 컴퓨터 비전
멀티모달
(번역중) 개발자 가이드
🤗 Tokenizers 라이브러리에서 토크나이저 사용하기다국어 모델 추론하기(번역중) Customize text generation strategy모델별 API 사용하기사용자 정의 모델 공유하기Amazon SageMaker에서 학습 실행하기ONNX로 내보내기TFLite로 내보내기TorchScript로 내보내기(번역중) Benchmarks(번역중) Notebooks with examples커뮤니티 리소스사용자 정의 도구와 프롬프트문제 해결
(번역중) 성능 및 확장성
성능 및 확장성(번역중) Training on one GPU다중 GPU에서 훈련 진행하기CPU에서 훈련다중 CPU에서 훈련하기(번역중) Training on TPUsTensorFlow로 TPU에서 훈련하기(번역중) Training on Specialized HardwareCPU로 추론하기하나의 GPU를 활용한 추론다중 GPU에서 추론(번역중) Inference on Specialized Hardware훈련용 사용자 맞춤형 하드웨어(번역중) Instantiating a big model디버깅Trainer API를 사용한 하이퍼파라미터 탐색TensorFlow 모델을 위한 XLA 통합
(번역중) 기여하기
🤗 Transformers에 기여하는 방법🤗 Transformers에 새로운 모델을 추가하는 방법어떻게 🤗 Transformers 모델을 TensorFlow로 변환하나요?어떻게 🤗 Transformers에 파이프라인을 추가하나요?테스트Pull Request에 대한 검사
(번역중) 개념 가이드
이념과 목표(번역중) Glossary🤗 Transformers로 할 수 있는 작업🤗 Transformers로 작업을 해결하는 방법Transformer 모델군토크나이저 요약어텐션 매커니즘패딩과 잘라내기BERTology고정 길이 모델의 펄플렉서티(Perplexity)추론 웹 서버를 위한 파이프라인모델 학습 해부하기
(번역중) API
(번역중) 메인 클래스
(번역중) Auto Classes(번역중) Callbacks(번역중) Configuration(번역중) Data Collator(번역중) Keras callbacks(번역중) Logging(번역중) Models(번역중) Text Generation(번역중) ONNX(번역중) Optimization(번역중) Model outputs(번역중) Pipelines(번역중) Processors(번역중) Quantization(번역중) Tokenizer(번역중) Trainer(번역중) DeepSpeed Integration(번역중) Feature Extractor(번역중) Image Processor
(번역중) 모델
(번역중) 텍스트 모델
(번역중) 비전 모델
(번역중) 오디오 모델
(번역중) 멀티모달 모델
(번역중) 강화학습 모델
(번역중) 시계열 모델
(번역중) Graph models
(번역중) Internal Helpers
You are viewing v4.34.0 version. A newer version v5.8.1 is available.
BERTology
BERT와 같은 대규모 트랜스포머의 내부 동작을 조사하는 연구 분야가 점점 더 중요해지고 있습니다. 혹자는 “BERTology”라 칭하기도 합니다. 이 분야의 좋은 예시는 다음과 같습니다:
- BERT는 고전적인 NLP 파이프라인의 재발견 - Ian Tenney, Dipanjan Das, Ellie Pavlick: https://arxiv.org/abs/1905.05950
- 16개의 헤드가 정말로 1개보다 나은가? - Paul Michel, Omer Levy, Graham Neubig: https://arxiv.org/abs/1905.10650
- BERT는 무엇을 보는가? BERT의 어텐션 분석 - Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D. Manning: https://arxiv.org/abs/1906.04341
- CAT-probing: 프로그래밍 언어에 대해 사전훈련된 모델이 어떻게 코드 구조를 보는지 알아보기 위한 메트릭 기반 접근 방법: https://arxiv.org/abs/2210.04633
우리는 이 새로운 연구 분야의 발전을 돕기 위해, BERT/GPT/GPT-2 모델에 내부 표현을 살펴볼 수 있는 몇 가지 기능을 추가했습니다. 이 기능들은 주로 Paul Michel의 훌륭한 작업을 참고하여 개발되었습니다 (https://arxiv.org/abs/1905.10650):
- BERT/GPT/GPT-2의 모든 은닉 상태에 접근하기,
- BERT/GPT/GPT-2의 각 헤드의 모든 어텐션 가중치에 접근하기,
- 헤드의 출력 값과 그래디언트를 검색하여 헤드 중요도 점수를 계산하고 https://arxiv.org/abs/1905.10650에서 설명된 대로 헤드를 제거하는 기능을 제공합니다.
이러한 기능들을 이해하고 직접 사용해볼 수 있도록 bertology.py 예제 스크립트를 추가했습니다. 이 예제 스크립트에서는 GLUE에 대해 사전훈련된 모델에서 정보를 추출하고 모델을 가지치기(prune)해봅니다.