read: fail

대규모 언어 모델 데이터 파이프라인 및 커먼 크롤에 대한 소개

대규모 언어 모델(LLM)을 훈련하기 위한 데이터셋을 만드는 과정은 복잡하며, 많은 결정이 필요합니다. 이 글은 커먼 크롤(CC) 데이터셋을 사용하여 LLaMA 모델을 훈련시키기 위한 파이프라인을 중점적으로 다루며, 데이터의 질과 양 사이에서 균형을 맞추는 것의 중요성을 강조합니다.

Slack, AST와 LLM을 결합하여 15,000개의 단위 테스트를 자동 변환

Slack의 엔지니어링 팀은 AST 변환과 대규모 언어 모델(LLM)을 결합하여 15,000개의 단위 및 통합 테스트를 Enzyme에서 React Testing Library(RTL)로 자동 변환했습니다. 이는 Enzyme이 React 18을 지원하지 않아 호환성을 유지하기 위한 조치였습니다. 하이브리드 접근 방식을 채택하여 80%의 변환 성공률을 달성했습니다.

우주에서 해양 쓰레기 감시가 현실이 되다

새로운 ESA Discovery 연구에 따르면, 위성을 사용하여 해양에 떠다니는 플라스틱 쓰레기를 감시하는 개념이 입증되었습니다. 이 연구는 지중해 전체를 3일마다 스캔하여 수천 개의 쓰레기 띠를 발견했으며, 이를 통해 지중해의 해양 쓰레기 오염 지도를 완성했습니다. 이 기술은 다른 지역에서도 사용될 준비가 되어 있습니다.

네오페치 개발자, 모든 저장소를 보관하다: '농사를 시작했습니다'

네오페치 개발자가 도시 생활을 뒤로하고 농사를 시작하기로 결정했습니다. 이는 지속 가능하고 자급자족하는 생활을 지향하기 위함입니다. 농사는 환경적 영향을 줄이고, 계절의 리듬과 땅과의 연결감을 제공합니다. 물론, 많은 도전이 따르지만, 그는 이 새로운 삶이 보람차고 충족될 것이라 확신합니다.

보잉 CEO, 내부 고발자에 대한 보복 인정

보잉의 CEO 데이비드 캘훈이 상원 청문회에서 내부 고발자에 대한 보복을 인정했습니다. 캘훈은 보잉이 안전 개선에 완전히 헌신하고 있다고 말하며, 사고 희생자 가족들에게 사과했습니다. 이 청문회에서는 보잉의 안전 검사 중 위반 사항에 대해 고발한 여러 내부 고발자들의 문제가 다뤄졌습니다.

펀 할로우 다리, 붕괴 전 수년간 폐쇄되어야 했다

2022년 1월 28일, 펜실베니아 주 피츠버그에 위치한 펀 할로우 다리가 경고 없이 붕괴되었습니다. 이 다리는 10년 이상 '불량 상태'로 분류되었음에도 불구하고, 필요한 수리는 이루어지지 않았습니다. NTSB 보고서는 다리 검사와 유지 관리 과정의 체계적인 결함을 드러냈으며, 이러한 문제들이 어떻게 대형 참사로 이어질 수 있는지를 보여줍니다.

Show HN: 오픈 소스 및 로컬 번역 앱 개발 소식

RTranslator는 오픈 소스, 무료, 오프라인 실시간 번역 앱으로, 안드로이드 사용자를 위해 개발되었습니다. 대화 모드와 워키토키 모드를 지원하며, Meta의 NLLB와 OpenAI의 Whisper를 사용해 개인 정보 보호와 오프라인 사용이 가능합니다. 앱은 28개 언어를 지원하며, 기부를 통해 프로젝트를 지원할 수 있습니다.

러스트에서의 프로세스 간 통신(IPC) - 핑퐁 비교 분석

러스트를 사용한 프로세스 간 통신(IPC)의 속도를 비교한 연구에서 공유 메모리 방식이 다른 방법들보다 월등히 빠른 것으로 나타났습니다. 이 방법은 200나노초 미만의 왕복 시간을 기록했으며, 구현이 복잡하긴 하지만 최저 지연 시간이 필요한 경우에 적합할 수 있습니다.

EU, 목요일에 채팅 스캔 제안 승인 가능성

EU가 '채팅 컨트롤 2.0' 제안을 승인할 계획입니다. 이 제안은 모든 이메일 및 메시징 서비스 제공자가 개인 통신을 스캔하여 의심스러운 아동 성 착취물(CSEM)을 찾도록 요구합니다. 이로 인해 디지털 통신의 개인 정보 보호가 종료되고 대규모 감시가 이루어질 수 있습니다. 많은 이들이 이 제안에 대해 우려를 표하고 있으며, 대안으로 법 집행 강화와 피해자 지원 서비스 강화를 제안하고 있습니다.

NAT 활성화된 Wi-Fi 네트워크에서의 TCP 하이재킹 취약점 발견

연구자들은 Wi-Fi 네트워크에서 TCP 트래픽을 하이재킹할 수 있는 보안 취약점을 발견했습니다. 이 취약점은 공격자가 TCP 연결의 시퀀스 번호와 포트를 추론하여 이용합니다. 테스트된 67개 라우터 중 52개가 취약한 것으로 나타났으며, 이는 SSH 연결 종료, FTP 파일 무단 다운로드, HTTP 응답 조작 등에 악용될 수 있습니다. 여러 제조사가 문제를 인식하고 수정을 진행 중입니다.

오픈 소스 파이썬 ETL

AI 네이티브 도구를 사용하여 미래를 포용하세요. 이 도구는 생성적 AI 기능을 통합하고 RAG와 같은 AI 중심의 사용 사례를 해결하도록 설계되었습니다. AI 기술의 최전선에서 일하고 싶다면 주목해야 할 내용입니다!

미세한 아름다움: 현미경 너머에서 과학 예술을 만드는 방법

스티브 게슈마이스너는 현미경을 사용하여 미생물, 암세포, 무척추동물을 이미징하는 과학 사진가입니다. 그의 작업은 과학적 이미지를 일반 대중에게 더 접근하기 쉽고 시각적으로 매력적으로 만드는 것을 목표로 합니다. 게슈마이스너는 최근 SARS-CoV-2 델타 변이를 이미징하는 프로젝트를 진행했습니다.

학술 문서에서의 참고 문헌 관리: BibTeX 포맷

BibTeX 포맷은 학술 문서에서 참고 문헌을 인용할 때 널리 사용되는 표준입니다. 이 포맷은 저자 이름, 출판물 제목, 저널 이름 등의 정보를 구조화하여 저장합니다. BibTeX를 사용하면 인용 관리와 참고 문헌 목록 생성이 편리해집니다.

메시지 큐 기반 아키텍처의 인기 하락 이유는?

2000년대 후반과 2010년대 초반, Amazon SQS, RabbitMQ, ZeroMQ 같은 메시지 큐를 이용한 분산 시스템과 비동기 통신에 대한 관심이 높았습니다. 하지만 최근에는 Kafka 관련 내용을 제외하고는 메시지 큐 사용에 대한 논의가 크게 줄었습니다. 이는 Redis와 같은 데이터베이스가 메시지 브로커의 역할을 대체하고, 데이터베이스의 성능 개선으로 인해 발생한 변화일 수 있습니다.

SPUR – RISC IV: 리스프 멀티프로세서 워크스테이션

1980년대 UC 버클리에서 진행된 SPUR 프로젝트는 리스프 프로그래밍 언어를 위한 특수 하드웨어 지원을 갖춘 멀티프로세서 워크스테이션을 만들기 위한 야심찬 시도였습니다. SPUR 시스템은 6-12개의 RISC 프로세서와 공유 메모리 시스템을 연결하고, Sprite라는 새로운 Unix 계열 운영체제를 사용했습니다.

공익을 위한 인터넷

공익 기술로서의 인터넷을 제안하는 이 글은, 대기업이 아닌 공동의 선을 지원하기 위해 작동하는 인터넷을 모색합니다. 또한, 디지털 인프라가 사적 기업에 의해 장악되어 있으며, 이로 인해 인터넷의 가능성이 제한된다고 주장합니다. 이에 인프라 중립성과 민주적 원칙을 기반으로 한 새로운 거버넌스 체계를 제안하여, 공익을 위한 인터넷 환경을 조성할 필요가 있다고 강조합니다.

캘리포니아, 아마존에 5.9백만 달러 벌금 부과

캘리포니아 노동위원회가 아마존에게 5.9백만 달러의 벌금을 부과했습니다. 이는 2022년에 시행된 창고 근로자 할당량 법을 위반한 것에 대한 조치로, 로스앤젤레스 인근의 두 시설에서 발생했습니다. 이 법은 근로자들이 위험한 속도로 일하도록 강요하는 할당량을 제한합니다.

부부 재정 구조화 방법

부부가 공동 계좌를 사용하여 일상 지출과 공동 재정 목표를 관리하는 것이 일반적입니다. 또한, 개인의 재정 독립성과 프라이버시를 위해 개별 계좌를 유지하는 방법도 있습니다. 신뢰 수준과 단순성 대 독립성에 대한 선호도를 고려하여 가장 적합한 구조를 찾는 것이 중요합니다.

잘못 이해된 케슬러 증후군에 대한 이해

케슬러 증후군은 우주 쓰레기가 연쇄 충돌을 일으켜 특정 궤도를 사용할 수 없게 만드는 현상입니다. 이는 1978년 NASA 연구원들에 의해 처음 제안되었으며, 전문가들 사이에서는 이 현상이 이미 시작되었는지, 아니면 아직 미래의 위험인지에 대한 논쟁이 있습니다. 이 문제를 해결하기 위한 노력이 중요한데, 위성을 임무 종료 후 궤도에서 제거하는 것이 그 중 하나입니다.

《네이처》, 성인 줄기세포 관련 논란의 논문 철회

2002년에 발표된 성인 골수에서 유래한 줄기세포의 다능성에 관한 논문이 《네이처》에 의해 철회되었습니다. 이 논문은 성인 줄기세포가 다양한 세포 유형으로 분화할 수 있다고 주장하며, 발표 이후 지속적으로 논란이 되어왔습니다. 이미지 중복 문제로 인해 데이터의 신뢰성에 의문이 제기되었고, 대부분의 저자들이 철회에 동의했습니다.